評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

母分散の推定

母分散の推定

母集団の分布を特徴付ける定数を母数(パラメータ)といい、母数の値を標本をもとに推定する。
母数の値を推定することを点推定といい、母数の値の範囲を推定することを区間推定という。

標本により推定した、推定量の平均(期待値)(\tilde{\theta })が、母数(\theta =\tilde{\theta })と等しいとき、
\tilde{\theta }\thetaの不偏推定量という。


母分散の区間推定

正規分布N(μ,σ^2)(μは未知)に従う母集団から無作為に抽出した標本X_1, X_2,...,X_nを使って新たな確率変数Vを以下のように定義する。

{ \displaystyle
V=\sum_{i=1}^{n}\left (\frac{X_1-\bar{X}}{\sigma }\right )^2
}


これが自由度(n-1)のx^2分布に従うことから、x^2分布表から、

{ \displaystyle
P(v_{n-1}(1-a/2)\leq V\leq v_{n-1}(a/2))=1-a
}となる。


{ \displaystyle
=P(v_{n-1}(1-a/2)\leq \sum_{i=1}^{n}\frac{(X_i-\bar{X})^2}{\sigma ^2}\leq v_{n-1}(a/2))
}

{ \displaystyle
=P(v_{n-1}(1-a/2)\leq \frac{n-1}{\sigma ^2}\cdot \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\leq v_{n-1}(a/2))
}

{ \displaystyle
=P(v_{n-1}(1-a/2)\leq \frac{n-1}{\sigma ^2}\cdot s^2\leq v_{n-1}(a/2))
}


 \sigma ^2について解くと、母分散 \sigma ^2の信頼係数1-aの信頼区間は次のように示される。
{ \displaystyle
\frac{(n-1)s^2}{v_{n-1}(\frac{a}{2})}\leq \sigma ^2\leq \frac{(n-1)s^2}{v_{n-1}(1-\frac{a}{2})}
}



問題
あるスーパーに入荷したリンゴの中から20個を無作為に選び重さを測定した。平均が120.3gで不偏標準偏差が8.6gの時、入荷したリンゴの平均の重さを信頼係数95%で区間推定せよ。
また、リンゴの重さの分散を信頼係数95%で区間推定せよ。ただしトマトの重さは正規分布に従うとする。


推定区間
{ \displaystyle
\frac{(n-1)s^2}{v_{n-1}(\frac{a}{2})}\leq \sigma ^2\leq \frac{(n-1)s^2}{v_{n-1}(1-\frac{a}{2})}
}


x_{0.025}^{2}(20-1)=32.85, x_{0.975}^{2}(20-1)=8.91であることから、


{ \displaystyle
\frac{19\times 8.6^2}{32.85}=42.8 \leq \sigma ^2\leq \frac{19\times 8.6^2}{8.91}=157.7
}


\sigma ^2の信頼区間に関してまとめると以下のとおり。

有意水準a 0.05
標本数n 20
標準分散 8.6^2
v_{n-1}(\frac{a}{2}) 32.35
v_{n-1}(\frac{1-a}{2}) 8.91
\sigma ^2の信頼区間 42.8 \leq \sigma ^2\leq 157.7

情報量

情報量とは

 確率p(>0)で起こる事象を観測したときの自己情報量という。

I(p)=-log_{2}p、単位はbitであらわされる。

情報量は工学系からきていて、対数の底は2とすることが多い。

 

また、その確率が小さいほど情報量が大きくなるという反比例の特徴を持つ。 

例えば、

ジョーカーを除いたトランプから一枚抜くとき、引いたカードがスペードであることがわかっているときは

I(p)=-log_{2}\frac{1}{4}=2bit

 

引いたカードがエースであることのみ教えられたときは

I(p)=-log_{2}\frac{1}{13}=-log_{2}13^{-1}=log_{2}13=3.7bit

 

以上のように、確率でみればP(スペード)=1/13<P(エース)=1/4

であるものの、情報量はI(p)(スペード)>I(p)(エース)である。

 

平均情報量

情報量の平均(期待値)は

E(I)=-\sum_{i=1}^{n}p_{i} I(p)=-\sum_{i=1}^{n}p_{i} log_{2}p_i

  

例題

当たり、はずれが入っているくじのなかから一枚引いたとき当たりがでる確率

p(当たり)=4/10

p(はずれ)=6/10

E(I)=-\sum_{i=1}^{n}p_{i} I(p)=-\sum_{i=1}^{n}p_{i} log_{2}p_i

=-2/5log_{2}2/5-3/5log_{2}3/5

 

 

 

独立性の検定

独立性の検定

母集団で2つの変数の間に関連性があると言えるかどうかを、クロス表をもとにして判定する。カテゴリ変数の相関をみる時に用いる。連続変数の場合は、相関係数を算出する。ただし、連続変数の場合もカテゴリに分類しダミー変数を作れば独立性の検定を行うことができる。

検定の手順

1. 仮説の設定
帰無仮説:母集団では2つの変数は統計的に独立である(関連性ない)
対立仮説:母集団では2つの変数は統計的に独立でない(関連性あり)

※なお、 x^{2}値は必ず0以上の値しかとらないので、片側検定、両側検定という区別はない。


2. 臨界値を確認する
自由度が(クロス表の行数-1)x(クロス表の列数-1)の x^{2}分布表で臨界値を確認する。


3. x^{2}値を算出する

\begin{align}
x^{2} = \sum_{n=1}^{\infty} \frac{(O_j-E_j)^2}{E_j}
\end{align}


(Oは観察度数、Eは期待度数)

期待度数とは独立であったならばの確率。例えば、相関に関係がないなら各列(各行)の比は一定であるはず(全体の割合×全体の割合で決まる)。


4. 仮説検定
2で求めた値が3で確認した臨界値を超えていない→帰無仮説棄却されない。
臨界値を超えている→帰無仮説棄却。対立仮説採択される。

問題1

新聞A,B,Cのどれが好きか、男女それぞれに調査したところ、以下のような結果を得た。

A B C
35 120 45
65 80 155

男女により好みに差があると言えるか、有意水準5%で検定せよ。

1.
帰無仮説:男女により好みに差がない(男女と新聞の好みが独立)
対立:男女により好みに差がある(独立でない)

2.
自由度(3-1)(2-1)=2、有意水準5%で片側(右側)なので棄却域はx^2> x_{0.05}^{2}(2)=5.99


3.
200*1/5=40...で各行計算すると以下のようになる。

A B C
40 80 80 200
60 120 120 300
100 200 200 500


統計量は

{\displaystyle 
\sum \frac{(O-E)^2}{E}
}

{\displaystyle 
=\frac{(40-35)^2}{40}+\frac{(80-120)^2}{80}+\frac{(80-45)^2}{80}+\frac{(60-65)^2}{60}+\frac{(120-80)^2}{120}+\frac{(120-155)^2}{120}
}

=59.9


4.
59.9>5.99より帰無仮説は棄却され、男女で好みに差があると言える。

問題2

曜日ごとの小売店Aへの問い合わせの回数を調査したところ以下のような結果を得た。

曜日 合計
回数 6 4 5 3 6 8 10 42

曜日により問い合わせの回数に差があると言えるか、有意水準5%で検定せよ。


1.
帰無仮説:曜日により問い合わせの回数に差がない(独立)
対立:曜日により問い合わせの回数に差がある(独立でない)


2.
自由度(7-1)(2-1)=6、有意水準5%で片側(右側)なので棄却域はx^2> x_{0.05}^{2}(6)=12.59


3.
期待度数を計算すると以下のとおりになる。

曜日 合計
回数 6 6 6 6 6 6 6 42


統計量は

={\displaystyle 
\frac{(6-6)^2}{6}+\frac{(6-4)^2}{6}+\frac{(6-5)^2}{6}+\frac{(6-3)^2}{6}+\frac{(6-8)^2}{6}+\frac{(6-10)^2}{6}
}

=34/6=5.67


4.
5.67< 12.59より帰無仮説は棄却できない

確率分布とモーメント

モーメント

モーメントは確率分布の特徴を表す量のこと。確率分布の平均、分散などをモーメントで表すことができる。モーメントはモーメント母数関数によって導かれる。


確率変数Xの原点まわりのモーメントμ_rは以下のように表される。
\mu_r=E(X^r)


確率分布の平均(期待値)は確率変数の取りうる値×頻度(その値が取りうる確率の合計)で表される。これを数式で表すと離散確率変数の期待値は
E(X)=\sum _{i}x_if(x)=\mu


これを一般の場合に拡張して「確率変数Xの関数g(x)」の期待値E(g(x))を以下のように定義する。
E(g(x))=\sum g(x)f(x)=\mu


この時、E(g(x))の特殊な場合として、先ほどのモーメントE(X^r)を代入すると、
離散確率変数は
E(X^r)=\sum _{i}x_{i}^{r}f(x)


連続確率変数は
E(X^r)=\int_{-\infty }^{\infty }x_{i}^{r}f(x)dx
と表される。


また、期待値(平均)まわりのモーメントは{\mu }'_{r}=E(X-\mu)^rで表される。これを先ほどと同様に代入すると、
離散確率変数は
E(X-\mu)^r=\sum _{i}(x_{i}-\mu)^{r}f(x)


連続確率変数は
E(X-\mu)^r=\int_{-\infty }^{\infty }(x_{i}-\mu)^{r}f(x)dx
と表される。


また、r次の標準モーメントは以下のように表される。
a_r=E{(x-\mu)/\sigma}^r


まとめ

確率変数Xの原点まわりのモーメントは\mu_r=E(X^r)で表される。
平均まわりのモーメントは{\mu }'_{r}=E(X-\mu)^rで表される。
モーメントはモーメント母関数によって導かれる(次回)。

 

結合確率分布

例題

次の表は2つの離散型確率変数の結合確率分布を示す。

1 2 3
0 3/20 1/10 3/20
1 1/10 0 1/10
2 3/20 1/10 3/20


この時、
(a) Xの周辺分布とYの周辺分布を求めよ。
(b) E(X),E(Y),E(XY),V(X),V(Y)を求めよ。
(c) E(XY)=E(X)E(Y)は成り立つが、XとYは独立ではないことを示せ。
(d) Z=X+Yの分散を求めよ。

(a)周辺分布

Xの周辺分布

x 0 1 2
P(X=x) 2/5 1/5 2/5


Yの周辺分布

y 1 2 3
P(Y=y) 2/5 1/5 2/5
(b)期待値と分散

E(X)=1\times1/5+2\times2/5=1
E(Y)=1\times2/5+2\times1/5+3\times2/5=2
E(XY)=1\times1\times1/10+1\times3\times1/10+2\times1\times3/20+2\times2\times1/10+2\times3\times3/20=2


(c)独立性

E(XY)=E(X)E(Y)が成り立つ。
しかし、たとえば
P(X=0, Y=1)=3/20, P(X=0)=2/5, P(Y=1)=2/5
であるから独立ではない。

(d)Z=X+Yの分散

Zの確率分布の表を作成すると、以下のようになる。

Z(x+y) 1 2 3 4 5
P(Z=z) 3/20 1/5 3/10 1/5 3/20

であるから
E(x+y)=E(X)+E(Y)=1+2=3
V(Z)=1^2*3/20+2^2*1/5+3^2*3/10+4^2*1/5+5^2*3/20-3^=1.6


別解

E(Z)=1*3/20+2*1/5+3*3/10+4*1/5+5*3/20=3

相関係数

相関係数の求め方

1. 平均値を求める

・データの平均値を求める。平均は次の計算式で求められる

\overline{x}=\displaystyle\frac{(x_1+x_2+...+X_i)}{n}

2. 共分散を求める

・共分散は次の計算式で求められる

共分散 Sxy=\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})

3. 標準偏差を求める

標準偏差は分散の平方根

σ^2_x=\displaystyle\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x}^2)
S_x=\sqrt{σ^2}

σ^2_y=\displaystyle\frac{1}{n}\sum_{i=1}^{n}(y_i-\overline{y}^2)
S_y=\sqrt{σ^2}

4. 相関係数を求める

rxy=Sxy/SxSy


エクセルでの計算
f:id:juri1117:20171026143326j:plain


Excelデータ分析ツール

相関係数を求める(CORREL, PEARSON)

CORREL(配列1, 配列2)

f:id:juri1117:20171026144243j:plain

2つの異なる母集団の平均の差

1992年から2004年の平均賃金の変化を見る

エクセルでの算出方法

1. 検定の準備:標本の基本統計量を算出する

・標本平均:AVERAGE関数
標準偏差:STDEV関数
・標準誤差:標準偏差/√サンプル数

2. 平均の差の検定:t検定を行う

検定プロセス
(1)\overline{Y}の標準誤差SE(\overline{Y})を求める
(2)t検定量を求める
(3)p値を計算し、もしp値が0.05より小さければ5%有意水準帰無仮説を棄却する


算出方法
(1)標準誤差=標準偏差/√サンプル数
(2)t値=2つの母集団の平均の差/2つの母集団の標準誤差の和
(3)p値:TDIST(t値,自由度,両側検定or片側検定)
・自由度=サンプル数-2
・両側検定=2 片側検定=1

データ分析ツールを使用する

1. F検定

・2つの異なる母集団の平均の差を検定する場合、その分散が等しいか等しくないかで検定の種類が異なる。
そのため、まず等分散かを調べる。

帰無仮説:2つの母集団の分散は等しい
・対立仮説;2つの母集団の分散は等しくない


f:id:juri1117:20171015110518p:plain

・観測された分析比>境界値、P(F<=t)<0.05より帰無仮説は棄却される。
・1992年と2004年の平均賃金の分散は等しくない。

2. t検定

・先のF検定より分散に差があるとわかったため対応がない不等分散のt検定を行う。
帰無仮説:2つの母集団の平均値は等しい
・対立仮説:2つの母集団の平均値は等しくない


f:id:juri1117:20171015105801p:plain

・2004年の賃金が1994年よりも高くなることは明らかなので、片側検定を採用。
・t値>境界値、P(T<=t)<0.05より帰無仮説は棄却される。
・2004年の平均賃金は1992年のものより高い。