Excelによる実証分析
推測統計
標本調査
統計学の目的の一つは母集団の特徴を推定すること。ただし母集団の全てを調査することは時間や費用がかかり現実的ではありません。そこで利用されるのが標本調査という手法です。
標本調査は母集団から無作為にサンプルデータを抽出しそこから母集団の特徴を統計的に推定する調査方法です。データに偏りがないように無作為抽出(選ばれる確率がデータすべて同じ)が前提。無作為抽出法、ランダムサンプリングなどと呼ばれます。
標本調査による推定が必ず母集団の真の値と同じになるとうことはあり得ません。そのため通常幅を持たせて推定します。これを信頼区間と言い、95%や90%の信頼区間がよく使われます。
Excelによる抽出方法
(1)Excelデータ分析ツール>サンプリング
(2)識別CODEは数字のみ有効
(3)数字のみランダムに抽出し新規ワークシートに表示
(4)VLOOKUPなどで必要な情報をマージ
仮説検定
標本調査の結果が偶然ではなく母集団でも起こりそうかを確かめること。
1. 母集団を定義する
2. 仮説を立てる
3. データの型と目的に応じた検定の種類を決める
4. 有意水準を設ける
5. 検定統計量を求める
6. 検定統計量が棄却域に入っているかどうか確かめる
<事例1:ダイエットの効果を調べる>
1. 母集団=潜在顧客を含めた市場全体の顧客
2. 仮説を立てる
・ダイエットの前後に差があるということを統計学的に確かめることが目的
・帰無仮説:ダイエット前の体重とダイエット後の体重には平均的に差がない
・対立仮説:ダイエット前の体重とダイエット後の体重には平均的に差がある
3. データの型:対応のあるデータ
・同じ人の事前事後のデータ→対応のあるデータ
・別の人を調査→対応のないデータ
・検定の種類:平均の差の検定。母集団でも平均値に差があるか
有意水準を決める
・母集団から抽出したサンプルサイズ10の標本を100回抽出したとして、このうち5回未満(5%未満)の割合で帰無仮説(差がないこという仮説)を否定できる確率のことを有意水準と呼ぶ。
・帰無仮説を棄却できる領域を棄却域、その棄却域の境界のことを臨界値を呼ぶ。t値が臨界値よりも大きい場合、検定では有意であると表現する。
・P値は帰無仮説が正しい場合に標本データから得られる値が実際に起こりうる確率。これが小さい場合、帰無仮説が正しくないということになる。
4. 検定統計量を求める
・
・
5. 境界値
・ABS(T,INT(5%,N))
Excelのデータ分析ツールで検定
・データ>データ分析>t検定:一対の標本による平均の検定
【参考文献】
7日間集中講義! Excel統計学入門 データを見ただけで分析できるようになるために
- 作者: 米谷学
- 出版社/メーカー: オーム社
- 発売日: 2017/07/14
- メディア: Kindle版
- この商品を含むブログを見る