評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

独立性の検定

独立性の検定

母集団で2つの変数の間に関連性があると言えるかどうかを、クロス表をもとにして判定する。カテゴリ変数の相関をみる時に用いる。連続変数の場合は、相関係数を算出する。ただし、連続変数の場合もカテゴリに分類しダミー変数を作れば独立性の検定を行うことができる。

検定の手順

1. 仮説の設定
帰無仮説:母集団では2つの変数は統計的に独立である(関連性ない)
対立仮説:母集団では2つの変数は統計的に独立でない(関連性あり)

※なお、 x^{2}値は必ず0以上の値しかとらないので、片側検定、両側検定という区別はない。


2. 臨界値を確認する
自由度が(クロス表の行数-1)x(クロス表の列数-1)の x^{2}分布表で臨界値を確認する。


3. x^{2}値を算出する

\begin{align}
x^{2} = \sum_{n=1}^{\infty} \frac{(O_j-E_j)^2}{E_j}
\end{align}


(Oは観察度数、Eは期待度数)

期待度数とは独立であったならばの確率。例えば、相関に関係がないなら各列(各行)の比は一定であるはず(全体の割合×全体の割合で決まる)。


4. 仮説検定
2で求めた値が3で確認した臨界値を超えていない→帰無仮説棄却されない。
臨界値を超えている→帰無仮説棄却。対立仮説採択される。

問題1

新聞A,B,Cのどれが好きか、男女それぞれに調査したところ、以下のような結果を得た。

A B C
35 120 45
65 80 155

男女により好みに差があると言えるか、有意水準5%で検定せよ。

1.
帰無仮説:男女により好みに差がない(男女と新聞の好みが独立)
対立:男女により好みに差がある(独立でない)

2.
自由度(3-1)(2-1)=2、有意水準5%で片側(右側)なので棄却域はx^2> x_{0.05}^{2}(2)=5.99


3.
200*1/5=40...で各行計算すると以下のようになる。

A B C
40 80 80 200
60 120 120 300
100 200 200 500


統計量は

{\displaystyle 
\sum \frac{(O-E)^2}{E}
}

{\displaystyle 
=\frac{(40-35)^2}{40}+\frac{(80-120)^2}{80}+\frac{(80-45)^2}{80}+\frac{(60-65)^2}{60}+\frac{(120-80)^2}{120}+\frac{(120-155)^2}{120}
}

=59.9


4.
59.9>5.99より帰無仮説は棄却され、男女で好みに差があると言える。

問題2

曜日ごとの小売店Aへの問い合わせの回数を調査したところ以下のような結果を得た。

曜日 合計
回数 6 4 5 3 6 8 10 42

曜日により問い合わせの回数に差があると言えるか、有意水準5%で検定せよ。


1.
帰無仮説:曜日により問い合わせの回数に差がない(独立)
対立:曜日により問い合わせの回数に差がある(独立でない)


2.
自由度(7-1)(2-1)=6、有意水準5%で片側(右側)なので棄却域はx^2> x_{0.05}^{2}(6)=12.59


3.
期待度数を計算すると以下のとおりになる。

曜日 合計
回数 6 6 6 6 6 6 6 42


統計量は

={\displaystyle 
\frac{(6-6)^2}{6}+\frac{(6-4)^2}{6}+\frac{(6-5)^2}{6}+\frac{(6-3)^2}{6}+\frac{(6-8)^2}{6}+\frac{(6-10)^2}{6}
}

=34/6=5.67


4.
5.67< 12.59より帰無仮説は棄却できない