@uents blog

Code wins arguments.

Rによるやさしい統計学で統計学を0から勉強する(2日目)

前回からずいぶん間が空いたけど2日目です。

第3章 2つの変数の記述統計

前の章は1つの変数(データセット)に着目したけど、この章は2つの変数に着目します。

散布図

x,yというデータセットがあったとすると、

> plot(x,y)

で散布図のグラフが出力される。

共分散と相関係数

相関の強さを定量的に表すために、散布図ではなく「相関の強さ」を表す1つの数値を導入する

共分散は2変数に対して偏差の積の平均を取ったもの。すなわち、

> my_cov <- function(x,y) {
  v <- sum((x - mean(x))*(y - mean(y)))/length(x)
  v
}

で求まる。不偏共分散(N-1で割った数)であれば、組み込み関数 cov() が使える。

相関係数は、共分散を標準偏差の積で割ったもの。すなわち、

> my_cor <- function(x,y) {
  v <- cov(x,y)/(sd(x)*sd(y))
  v
}

で求まる。組み込み関数は cor() がある。

相関係数と相関の大きさの目安は以下の通り。

クロス集計表

例えば、下記のような質的変数セットがあった場合、

> math <- c("dislike", "dislike", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "dislike", "like", "dislike", "dislike", "like", "dislike", "dislike", "dislike", "dislike")

> statistics <- c("like", "like", "like", "like", "dislike", "dislike", "dislike", "dislike", "dislike", "dislike", "like", "like", "like", "dislike", "like", "dislike", "dislike", "dislike", "dislike", "dislike")

table()を使うと、

> table(math, statistics)
         statistics
math      dislike like
  dislike      10    4
  like          2    4
||<<
のような集計表が得られる。

***ファイ係数
質的変数を二値変数化した上で、
>|r|
> math_bin <- ifelse(math == "like", 1, 0)
> statistics_bin <- ifelse(statistics == "like", 1, 0)

相関を求めたものをファイ係数と呼ぶ。

> phi_coeff <- cor(math_bin, statistics_bin)
> phi_coeff
[1] 0.3563483

第4章 母集団と標本

主にサンプリングのお話。

母集団・標本と推測統計

用語の整理。

  • 母集団:元々の関心があったデータ全体
  • 母数:母集団の性質を表す統計的指標 (ex. 比率、平均、分散、相関係数)
  • 標本:母集団から一部を取り出したデータ
  • 推定:推測された母数の値
  • 点推定:1つの値で母数を推定すること
  • 区間推定:値のrangeで母数を推定すること
  • 検定:標本についてどちらを採択するか

要するに、母集団が巨大だと全部を知ることは現実的に不可能になるので、標本から母数を推定といったことを一般的に行う。

母数と推定量の関係は以下の通り

母平均 標本平均
母分散 不偏分散
母標準偏差 不偏分散の正の平方根
母相関係数 標本相関係数
母比率 標本比率