Rによるやさしい統計学で統計学を0から勉強する(2日目)

前回からずいぶん間が空いたけど2日目です。

第3章 2つの変数の記述統計

前の章は1つの変数(データセット)に着目したけど、この章は2つの変数に着目します。

散布図

x,yというデータセットがあったとすると、

> plot(x,y)

で散布図のグラフが出力される。

共分散と相関係数

相関の強さを定量的に表すために、散布図ではなく「相関の強さ」を表す１つの数値を導入する

共分散は2変数に対して偏差の積の平均を取ったもの。すなわち、

> my_cov <- function(x,y) {
  v <- sum((x - mean(x))*(y - mean(y)))/length(x)
  v
}

で求まる。不偏共分散（N-1で割った数）であれば、組み込み関数 cov() が使える。

相関係数は、共分散を標準偏差の積で割ったもの。すなわち、

> my_cor <- function(x,y) {
  v <- cov(x,y)/(sd(x)*sd(y))
  v
}

で求まる。組み込み関数は cor() がある。

相関係数と相関の大きさの目安は以下の通り。

クロス集計表

例えば、下記のような質的変数セットがあった場合、

> math <- c("dislike", "dislike", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "dislike", "like", "dislike", "dislike", "like", "dislike", "dislike", "dislike", "dislike")

> statistics <- c("like", "like", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "like", "dislike", "like", "dislike", "dislike", "dislike", "dislike", "dislike")

table()を使うと、

> table(math, statistics)
         statistics
math      dislike like
  dislike      10    4
  like          2    4
||<<
のような集計表が得られる。

***ファイ係数
質的変数を二値変数化した上で、
>|r|
> math_bin <- ifelse(math == "like", 1, 0)
> statistics_bin <- ifelse(statistics == "like", 1, 0)

相関を求めたものをファイ係数と呼ぶ。

> phi_coeff <- cor(math_bin, statistics_bin)
> phi_coeff
[1] 0.3563483

第4章母集団と標本

主にサンプリングのお話。

母集団・標本と推測統計

用語の整理。

母集団：元々の関心があったデータ全体
母数：母集団の性質を表す統計的指標 (ex. 比率、平均、分散、相関係数)
標本：母集団から一部を取り出したデータ
推定：推測された母数の値
点推定：１つの値で母数を推定すること
区間推定：値のrangeで母数を推定すること
検定：標本についてどちらを採択するか

要するに、母集団が巨大だと全部を知ることは現実的に不可能になるので、標本から母数を推定といったことを一般的に行う。

母数と推定量の関係は以下の通り

母平均	標本平均
母分散	不偏分散
母標準偏差	不偏分散の正の平方根
母相関係数	標本相関係数
母比率	標本比率

@uents blog

Code wins arguments.

Rによるやさしい統計学で統計学を0から勉強する(2日目)

第3章 2つの変数の記述統計

散布図

共分散と相関係数

クロス集計表

第4章母集団と標本

母集団・標本と推測統計

第3章 2つの変数の記述統計

散布図

共分散と相関係数

クロス集計表

第4章 母集団と標本

母集団・標本と推測統計

第4章母集団と標本