独立性の検定
独立性の検定
母集団で2つの変数の間に関連性があると言えるかどうかを、クロス表をもとにして判定する。カテゴリ変数の相関をみる時に用いる。連続変数の場合は、相関係数を算出する。ただし、連続変数の場合もカテゴリに分類しダミー変数を作れば独立性の検定を行うことができる。
検定の手順
1. 仮説の設定
帰無仮説:母集団では2つの変数は統計的に独立である(関連性ない)
対立仮説:母集団では2つの変数は統計的に独立でない(関連性あり)
※なお、 値は必ず0以上の値しかとらないので、片側検定、両側検定という区別はない。
2. 臨界値を確認する
自由度が(クロス表の行数-1)x(クロス表の列数-1)の 分布表で臨界値を確認する。
3. 値を算出する
\begin{align}x^{2} = \sum_{n=1}^{\infty} \frac{(O_j-E_j)^2}{E_j}
\end{align}
(Oは観察度数、Eは期待度数)
期待度数とは独立であったならばの確率。例えば、相関に関係がないなら各列(各行)の比は一定であるはず(全体の割合×全体の割合で決まる)。
4. 仮説検定
で求めた値がで確認した臨界値を超えていない→帰無仮説棄却されない。
臨界値を超えている→帰無仮説棄却。対立仮説採択される。
問題1
新聞A,B,Cのどれが好きか、男女それぞれに調査したところ、以下のような結果を得た。
A | B | C | |
男 | 35 | 120 | 45 |
女 | 65 | 80 | 155 |
男女により好みに差があると言えるか、有意水準5%で検定せよ。
1.
帰無仮説:男女により好みに差がない(男女と新聞の好みが独立)
対立:男女により好みに差がある(独立でない)
2.
自由度(3-1)(2-1)=2、有意水準5%で片側(右側)なので棄却域は
3.
200*1/5=40...で各行計算すると以下のようになる。
A | B | C | 計 | |
男 | 40 | 80 | 80 | 200 |
女 | 60 | 120 | 120 | 300 |
計 | 100 | 200 | 200 | 500 |
統計量は
4.
より帰無仮説は棄却され、男女で好みに差があると言える。
問題2
曜日ごとの小売店Aへの問い合わせの回数を調査したところ以下のような結果を得た。
曜日 | 月 | 火 | 水 | 木 | 金 | 土 | 日 | 合計 |
回数 | 6 | 4 | 5 | 3 | 6 | 8 | 10 | 42 |
曜日により問い合わせの回数に差があると言えるか、有意水準5%で検定せよ。
1.
帰無仮説:曜日により問い合わせの回数に差がない(独立)
対立:曜日により問い合わせの回数に差がある(独立でない)
2.
自由度(7-1)(2-1)=6、有意水準5%で片側(右側)なので棄却域は
3.
期待度数を計算すると以下のとおりになる。
曜日 | 月 | 火 | 水 | 木 | 金 | 土 | 日 | 合計 |
回数 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 42 |
統計量は
4.
より帰無仮説は棄却できない