評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

標準偏差と標本誤差について

標本標準偏差

・標本標準偏差は母集団から得られたデータのばらつきを表す。
・標本標準偏差s_Yは母集団標準偏差σ_Yの推定量となる。
・不偏分散(標本の分散)の平方根で表される。


{s_Y}^2=\displaystyle\frac{1}{n-1}\sum_{i=0}^n{(x_i-\overline{x}}^2)


s_Y=\sqrt{\displaystyle\frac{1}{n-1}\sum_{i=0}^n{(x_i-\overline{x}}^2)}


エクセルでの求め方

・STDEV(数字の範囲)

標本標準誤差

・標本平均の標準誤差(standard error of mean)と呼ばれる。
・標本から平均を求める場合、その平均は必ずしも母集団のものと一致しない。
 標本から得られる推定量のばらつきを表すのが標準誤差。
・標準誤差の計算には中心極限定理を使う。
 母集団からサンプルサイズnを抽出するとき、その平均値\overline{Y}の分布はnが大きくなるにつれて正規分布N(\mu, \sigma^{2}/n)に近づく。
・標本平均\overline{Y}の標準誤差は、\overline{Y}の標本分布の標準偏差の推定量に相当する。


SE=\displaystyle\frac{s_Y}{\sqrt{n}}


エクセルでの求め方

・STDEV(数字の範囲)/SQRT(サンプルサイズ)

f:id:juri1117:20171015100831p:plain

Excelによる実証分析

推測統計

標本調査

統計学の目的の一つは母集団の特徴を推定すること。ただし母集団の全てを調査することは時間や費用がかかり現実的ではありません。そこで利用されるのが標本調査という手法です。

標本調査は母集団から無作為にサンプルデータを抽出しそこから母集団の特徴を統計的に推定する調査方法です。データに偏りがないように無作為抽出(選ばれる確率がデータすべて同じ)が前提。無作為抽出法、ランダムサンプリングなどと呼ばれます。

標本調査による推定が必ず母集団の真の値と同じになるとうことはあり得ません。そのため通常幅を持たせて推定します。これを信頼区間と言い、95%や90%の信頼区間がよく使われます。

Excelによる抽出方法

(1)Excelデータ分析ツール>サンプリング
(2)識別CODEは数字のみ有効
(3)数字のみランダムに抽出し新規ワークシートに表示
(4)VLOOKUPなどで必要な情報をマージ

f:id:juri1117:20171012201312p:plain

仮説検定

標本調査の結果が偶然ではなく母集団でも起こりそうかを確かめること。

1. 母集団を定義する
2. 仮説を立てる
3. データの型と目的に応じた検定の種類を決める
4. 有意水準を設ける
5. 検定統計量を求める
6. 検定統計量が棄却域に入っているかどうか確かめる

<事例1:ダイエットの効果を調べる>

1. 母集団=潜在顧客を含めた市場全体の顧客
2. 仮説を立てる

・ダイエットの前後に差があるということを統計学的に確かめることが目的
帰無仮説:ダイエット前の体重とダイエット後の体重には平均的に差がない
・対立仮説:ダイエット前の体重とダイエット後の体重には平均的に差がある

3. データの型:対応のあるデータ

・同じ人の事前事後のデータ→対応のあるデータ
・別の人を調査→対応のないデータ
・検定の種類:平均の差の検定。母集団でも平均値に差があるか

有意水準を決める

・母集団から抽出したサンプルサイズ10の標本を100回抽出したとして、このうち5回未満(5%未満)の割合で帰無仮説(差がないこという仮説)を否定できる確率のことを有意水準と呼ぶ。
帰無仮説を棄却できる領域を棄却域、その棄却域の境界のことを臨界値を呼ぶ。t値が臨界値よりも大きい場合、検定では有意であると表現する。
・P値は帰無仮説が正しい場合に標本データから得られる値が実際に起こりうる確率。これが小さい場合、帰無仮説が正しくないということになる。

4. 検定統計量を求める

t値=\displaystyle\frac{差の単純平均値}{SE}

SE=\displaystyle\frac{\sqrt{不偏分散}}{\sqrt{n}}

5. 境界値

・ABS(T,INT(5%,N))

Excelのデータ分析ツールで検定

・データ>データ分析>t検定:一対の標本による平均の検定
f:id:juri1117:20171012203148p:plain



【参考文献】

Excelによる実証分析

記述統計学

基本統計量とは

データの特徴を見るために必要な数値。記述統計量、要約統計量とも呼ばれる。平均、中央値、最頻値、分散、標準偏差などがある。特に、標本データの分布の特徴を見るためには平均値、中央値、さらに平均からどのくらいばらつきがあるかを示す分散・標準偏差は必須。また、基本統計量を出すことで前例や全国平均と比較しどのような違い(類似)があるかがわかる。

基本統計量でわかること
(1)どのような分布か?
(2)他のデータとどのような違いがあるか?

単純平均値

 \overline{x}=\sum_{i=1}^n \displaystyle \frac{x_i}{n}

ただし平均値は必ずしもデータの真ん中にくるわけではないことに注意。有名な例は日本国民世帯の平均所得。平均値は約400万円ですが、中央値を調べると約300万円。平均値は最も重要な統計量ですが合わせて中央値や最頻値を見ることも大切。

平均成長率

平均成長率=\sqrt[データの個数]{1番目のデータx2番目のデータx…最後のデータ}

加重平均

調和平均率= \displaystyle \frac{データの個数}{ \frac{1}{1番目のデータ}+\frac{1}{2番目のデータ}+\frac{1}{最後のデータ}}

標本分散

・限られたデータの平均を\overline{x}、データをx_i、サンプルサイズをnとする。
 {σ}^2=\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2

nが十分に大きくない場合には標本分散の期待値は母分散に一致しないため、標本分散は母分散より小さくなる。これを克服するためにn-1で割り調節する不偏分散を使用することが多い。

不偏分散

S^2=\displaystyle\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2

★標本分散と不偏分散の使い分け
母集団のデータを知ることが統計学の目的。ただし全数を調査できない、データを利用できない場合標本を使う。母集団から抽出した標本をしようする場合は「不偏分散」を使う。反対に全数調査の場合は「標本分散」を使う。

基本統計量の算出方法

ヒストグラム

・データ分析
・横軸の階級はデータの間隔、縦軸の度数はデータの個数を示す。
・特徴:(1)面積と度数が一致、(2)連続する量を示し、大小比較ではない

分析ツールでの算出方法

・データタブ>分析ツール>ヒストグラム
・データ区間は階級ごとの上限のため、最小値よりも小、最大値よりも大で設定
・ラベル含む
・凡例の削除、横の感覚を詰める、次の級をドラッグして外す

ピボットテーブルでの算出方法

・単純集計でデータの個数を出す
・グループ化
・グラフ作成

その他

・平均:AVERAGE関数
・中央値:MODE.SNGL or MODE.MULT
・パーセンタイル:PERCENTILEINC
・標準化:STANDARDIZE(データの個数、平均値、標準偏差
標準偏差:STDEV.S関数


【参考文献】

Excelによる実証分析

統計手法を用いて分析する際にExcelSPSS, STATA, Rなど様々な分析ツールがあると思いますが、初めは基本を学びたいと思い、Excel分析入門を読んでみることにしました。

7日間で基本的な分析を一通り学べるという書籍に出会い、今日から読んでいきたいと思います。

1日目:データ活用

データ活用の利点

 1 現状把握
 2 成功、失敗の要因
 3 意志決定の根拠

→(3)は特に重要だと思います。よくエビデンスベーストで決定をと言いますが、数字やデータで示せていません…

さらに意思決定に結びつけるためには次のことを念頭におくことが重要。

(1)分析の目的をはっきりとさせる、その上でデータを集める
(2)データクリーニングを考慮する
(3)グラフでデータの特徴を明らかにする
(4)相関関係に注目する
(5)全体の傾向だけでなく、年齢別・性別などの属性別に層別する

統計学とは

統計学には一部のデータを抽出しその背後にある全体の特徴を予測するという「推定」、偶然抽出したデータの結果が全体にも利用できるかを調べる「検定」からなる「推測統計」と、統計量などデータの特徴を調べる「記述統計」の2種類があります。
実証研究などでデータを扱うとき、まず入手したデータの特徴を調べる(記述統計)→推定→検定というような流れで仮説を検証します。


(1)推測統計:標本から母集団の特徴を予測(推定)
        標本のデータが全体にも利用できるか(検定)
(2)記述統計:データの特徴を調べる

データの分析

単純集計表

・項目別に集計する

クロス集計

・特定の2項目について集計し、交わる部分に該当する件数を見る。
・カテゴリーデータが基本。
・数値はカテゴリー化し集計する。その際ピボットテーブルが便利。

データの種類

種類 特徴 数の大小 比率
名義尺度 カテゴリーデータ A, B, O, AB  
順位尺度 順位、評価 満足度    
間隔尺度 時刻、気温、西暦 8時→9時
比例尺度 金額、人数、倍率 0円
外れ値

・集団とはかけ離れて極端に大きい(小さい)
ヒストグラムを作成し、分布具合から外れ値の有無を確認。
・大事なのはなぜ集団とかけ離れているのかの理由を把握すること。
・データ分析の目的に合わせて取り除くか残すか決める。

データクリーニング

表記統一

・カナ表記や数字の半角(全角)を統一
・有り・アリ・有 同じ内容は同じ表記に

外れ値処理

・入力ミスは修正。
・原因特定は変数として取り入れるか検討

欠損値処理

・欠損値は全体の平均値か周辺の平均値を利用
・無回答処理

Excel データベース作成

・データの単位は直接入力せず表示形式
・データの項目はなるべく細かい単位で
・全角→半角はASC関数、半角→全角はJIS関数が便利

【参考文献】

<今後学びたいこと>
・データクリーニング

確率変数に関する公式一覧

備忘録として、今まで学んだ公式を一覧にしました。

平均値と分散

平均、分散、標準偏差

算術平均

{{\displaystyle\frac{Σx_i}{n}}}

分散

s^2={{\displaystyle\frac{1}{n}}}Σ(x_i-\overline{x})^2

標準化

z={{\displaystyle\frac{x-μ}{σ}}}

確率変数と確率分布

期待値と分散

期待値

E(Y)=Σy_ip_i

分散

σ^2_Y=var(Y)=E(Y-μ_Y)^2=Σ(y_i-μ_Y)^2p_i

主な確率分布

ベルヌーイ分布

平均

p

分散

p(1-p)

確率変数の線形確率

平均

E(Y)=μ_Y=a+bμ_X

分散

σ^2_Y=b^2σ^2_X

歪度

{\displaystyle\frac{E(Y-μ_Y)^3}{σ^3_Y}}

尖度(せんど)

{\displaystyle\frac{E(Y-μ_Y)^4}{σ^4_Y}}

標本分布

標本平均

Y={\displaystyle\frac{1}{n}(Y_1+Y_2…+Y_n)}={\displaystyle\frac{1}{n}ΣY_i=μ_Y}

標本分散

var(Y)={\displaystyle\frac{σ^2_Y}{n}}

標本標準偏差

var(Y)={\displaystyle\frac{σ_Y}{√n}}

標準正規分布への近似(中心極限定理

nが十分に大きいとき標準正規分布に近似的に従う
{\displaystyle\frac{(Y-μ_Y)}{\frac{√σ^2_Y}{√n}}}

母集団平均を推定する

母集団分散が既知の場合

標本数が大きければ、\overline{Y}の標本分布はN(μ_{Y,0},σ^2_\overline{Y})に従う。

σ^2_\overline{Y}={\displaystyle\frac{σ^2_Y}{n}}

母集団分散が未知の場合

標本分散

母集団平均μが未知で推定する必要があるため平均μを\overline{Y}に置き換える。自由度n-1で割る
s^2_Y={\displaystyle\frac{1}{n-1}}Σ(Y_i-\overline{Y})^2

標準偏差

(\overline{Y})標準偏差は、σ_\overline{Y}={\displaystyle\frac{σ_Y}{√n}}なので、
母集団標準偏差σの一致推定量という前提のもと、{\displaystyle\frac{S_Y}{√n}}σ_\overline{Y}の推定量として使用できる

SE(\overline{Y})=\hat{\overline{σ}}_Y={\displaystyle\frac{s_Y}{√n}}

t統計量

標準化された標本平均{\displaystyle\frac{\overline{Y}-μ_{Y,0}}{SE({\overline{Y}})}}は統計的な仮説検定において中心的な役割を果たし、
仮説検定を行う際に使われるテスト統計量と呼ばれる。
標本数nが大きいとき、S^2_Yσ^2の分布に高い確率で近づき、近似的に{\displaystyle\frac{\overline{Y}-μ_{Y,0}}{σ_\overline{Y}}}の分布と同一となり、中心極限定理により標準正規分布N(0,1))に従う。

t={\displaystyle\frac{\overline{Y}-μ_{Y,0}}{SE({\overline{Y}})}}

確率変数の和

確率変数の和に関する平均と分散

2つの確率変数XとYの和の平均は、それぞれの平均を合計したものになります。

つまり、

E(X+Y)=E(X)+E(Y)=μ_x+μ_y

 

一方、XとYの和の分散は、それぞれの分散を合計したものに両者の共分散を加えたものになります。

つまり、

var(X+Y)=var(X)+var(Y)+2cov(X,Y)=σ^2_x+σ^2_y+2σ_xy

 

ただし、もしXYが独立ならば共分散はゼロになり両確率変数の和の分散は、次のようにそれぞれの分散の和になります。

var(X+Y)=var(X)+vat(Y)=σ^2_x+σ^2_y

 

同様に差の分散は以下のようになります。

var(X-Y)=var(X)+var(Y)-2cov(X,Y)=σ^2_x+σ^2_y-2σ_xy

 もし独立なら共分散は0です。

 

変数変換した場合の平均と分散

X, Y, Vはそれぞれ確率変数でXの平均と分散はμxとσ^2_x、XとYの共分散はcov(X,Y)、また、a,b,cは定数とします。このとき以下の関係式が導かれます。

 

E(a+bX+cY)=a+bμ_x+cμ_y

var(a+b_Y)=b^2σ^2_Y

var(aX+bY)=a^2σ^2_X+b^2σ^2_Y

E(Y^2)=σ^2_Y+μ^2_Y

σ^2=E(Y^2)-E(Y)^2の式変形より導出

cov(a+bX+cV,Y)=bσ_XY+cσ_VY

E(XY)=σ_{XY}+μ_Xμ_Y

 

 <参考文献> 

Introduction to Econometrics, Update, Global Edition

Introduction to Econometrics, Update, Global Edition

 

 

 

標本平均とランダム・サンプリング

 母集団と標本

例えば日本の平均賃金を知りたいとき、労働者の賃金情報を入手する必要がありますが、全国すべての就労男性、女性にアンケートをとることは難しいです。時間と費用がかかり現実的ではありません。

統計学ではすべての人にアンケートを取らなくてもランダムに選んだ人たちに聞くことで、その人数がある程度多ければ、その平均がすべての人に聞いた時の平均と近似するという前提があります。

このランダムに選んだ人たちのことを標本(サンプル)と呼び、もともとの大きな塊、つまりここでは日本全国の就労者を母集団と呼びます。

この前提はとても便利で標本から母集団の分布(平均や分散)を知ることができます。

ただし、標本がどのくらい大きければ良いのかということですが、標本の結果をどれだけ厳しく見るかということによります。例えばたまたま選んだサンプルが母集団の真の平均に近いかもしれませんし、もう一度別の標本を選んだら1回目よりも母集団から離れた平均が出るかもしれません。しかし標本サイズが多ければ多いほどばらつきがなくなり、母集団の真の平均に近づくと言われています。

 

標本分布

標本は母集団からランダムに選ばれたものなので、標本自体も変化する量、つまり確率変数です。先ほどの例だと全国から無作為に選ぶので、選ばれた人たちの選ばれる確率は等しく、独立した分布に従います。さらに、異なる人たちが選ばれているのでその平均賃金も異なると考えられます。

n個の観測値Y1.....,Ynの標本平均Yは、

Y=n/1(Y1+Y2+Y3+....+Yn)=n/1ΣYi

 と表されます。ここで重要なのがYの値は抽出するサンプルによって異なるため、Yも確率変数となるということです。

Yがランダムであれば、それは確率分布に従います。Yの分布はYの標本分布と呼ばれます。異なった標本に対してYはそれぞれ異なる値を取りうるわけで、起こりうるさまざまなYの値に関する確率分布が標本分布です。

 

標本平均と標本分散

標本平均

観測値Y1....Ynが独立で同一の分布に従うとき、n=2の場合にはY1+Y2の期待値は

E(Y1+Y2)=μ+μ=2μとなります。

したがって、

標本平均の期待値はE[1/2(Y1+Y2)]=1/2x2μ=μ

一般には

E(Y)=1/n×ΣE(Yi)=μ

と表されます。

 
標本分散

var(Y)=var(1/nΣYi)=1/n^2×Σvar(Yi)+1/n^2×ΣΣcov(Yi,Yj)

独立なのでcov(Yi,Yj)=0, また、Σvar(Yi)=n (σ^2)より1/n^2×n(σ^2)

したがって 

var(Y)=σ^2/n

となります。

 

 

<今後学ぶこと>

・サンプリング