Rによるやさしい統計学で統計学を0から勉強する(2日目)
前回からずいぶん間が空いたけど2日目です。
第3章 2つの変数の記述統計
前の章は1つの変数(データセット)に着目したけど、この章は2つの変数に着目します。
共分散と相関係数
相関の強さを定量的に表すために、散布図ではなく「相関の強さ」を表す1つの数値を導入する
共分散は2変数に対して偏差の積の平均を取ったもの。すなわち、
> my_cov <- function(x,y) { v <- sum((x - mean(x))*(y - mean(y)))/length(x) v }
で求まる。不偏共分散(N-1で割った数)であれば、組み込み関数 cov() が使える。
相関係数は、共分散を標準偏差の積で割ったもの。すなわち、
> my_cor <- function(x,y) { v <- cov(x,y)/(sd(x)*sd(y)) v }
で求まる。組み込み関数は cor() がある。
相関係数と相関の大きさの目安は以下の通り。
クロス集計表
例えば、下記のような質的変数セットがあった場合、
> math <- c("dislike", "dislike", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "dislike", "like", "dislike", "dislike", "like", "dislike", "dislike", "dislike", "dislike") > statistics <- c("like", "like", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "like", "dislike", "like", "dislike", "dislike", "dislike", "dislike", "dislike")
table()を使うと、
> table(math, statistics) statistics math dislike like dislike 10 4 like 2 4 ||<< のような集計表が得られる。 ***ファイ係数 質的変数を二値変数化した上で、 >|r| > math_bin <- ifelse(math == "like", 1, 0) > statistics_bin <- ifelse(statistics == "like", 1, 0)
相関を求めたものをファイ係数と呼ぶ。
> phi_coeff <- cor(math_bin, statistics_bin) > phi_coeff [1] 0.3563483
第4章 母集団と標本
主にサンプリングのお話。
母集団・標本と推測統計
用語の整理。
- 母集団:元々の関心があったデータ全体
- 母数:母集団の性質を表す統計的指標 (ex. 比率、平均、分散、相関係数)
- 標本:母集団から一部を取り出したデータ
- 推定:推測された母数の値
- 点推定:1つの値で母数を推定すること
- 区間推定:値のrangeで母数を推定すること
- 検定:標本についてどちらを採択するか
要するに、母集団が巨大だと全部を知ることは現実的に不可能になるので、標本から母数を推定といったことを一般的に行う。
母数と推定量の関係は以下の通り
母平均 | 標本平均 |
母分散 | 不偏分散 |
母標準偏差 | 不偏分散の正の平方根 |
母相関係数 | 標本相関係数 |
母比率 | 標本比率 |