2018-05-27

母分散の推定

母集団の分布を特徴付ける定数を母数（パラメータ）といい、母数の値を標本をもとに推定する。
母数の値を推定することを点推定といい、母数の値の範囲を推定することを区間推定という。

標本により推定した、推定量の平均（期待値）( $\tilde{\theta }$ )が、母数( $\theta =\tilde{\theta }$ )と等しいとき、
$\tilde{\theta }$ を $\theta$ の不偏推定量という。

母分散の区間推定

正規分布 $N(μ,σ^2)$ (μは未知)に従う母集団から無作為に抽出した標本 $X_1, X_2,...,X_n$ を使って新たな確率変数 $V$ を以下のように定義する。

${ \displaystyle V=\sum_{i=1}^{n}\left (\frac{X_1-\bar{X}}{\sigma }\right )^2 }$

これが自由度(n-1)の $x^2$ 分布に従うことから、 $x^2$ 分布表から、

${ \displaystyle P(v_{n-1}(1-a/2)\leq V\leq v_{n-1}(a/2))=1-a }$ となる。

${ \displaystyle =P(v_{n-1}(1-a/2)\leq \sum_{i=1}^{n}\frac{(X_i-\bar{X})^2}{\sigma ^2}\leq v_{n-1}(a/2)) }$

${ \displaystyle =P(v_{n-1}(1-a/2)\leq \frac{n-1}{\sigma ^2}\cdot \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2\leq v_{n-1}(a/2)) }$

${ \displaystyle =P(v_{n-1}(1-a/2)\leq \frac{n-1}{\sigma ^2}\cdot s^2\leq v_{n-1}(a/2)) }$

$\sigma ^2$ について解くと、母分散 $\sigma ^2$ の信頼係数1-aの信頼区間は次のように示される。
${ \displaystyle \frac{(n-1)s^2}{v_{n-1}(\frac{a}{2})}\leq \sigma ^2\leq \frac{(n-1)s^2}{v_{n-1}(1-\frac{a}{2})} }$

問題
あるスーパーに入荷したリンゴの中から20個を無作為に選び重さを測定した。平均が120.3gで不偏標準偏差が8.6gの時、入荷したリンゴの平均の重さを信頼係数95％で区間推定せよ。
また、リンゴの重さの分散を信頼係数95％で区間推定せよ。ただしトマトの重さは正規分布に従うとする。

推定区間は
${ \displaystyle \frac{(n-1)s^2}{v_{n-1}(\frac{a}{2})}\leq \sigma ^2\leq \frac{(n-1)s^2}{v_{n-1}(1-\frac{a}{2})} }$

$x_{0.025}^{2}(20-1)=32.85, x_{0.975}^{2}(20-1)=8.91であることから、 { \displaystyle \frac{19\times 8.6^2}{32.85}=42.8 \leq \sigma ^2\leq \frac{19\times 8.6^2}{8.91}=157.7 }$

$\sigma ^2$ の信頼区間に関してまとめると以下のとおり。

有意水準a	0.05
標本数n	20
標準分散	8.6^2
$v_{n-1}(\frac{a}{2})$	32.35
$v_{n-1}(\frac{1-a}{2})$	8.91
$\sigma ^2$ の信頼区間	$42.8 \leq \sigma ^2\leq 157.7$

2018-05-26

情報量

情報量とは

確率p(>0)で起こる事象を観測したときの自己情報量という。

$I(p)=-log_{2}p$ 、単位はbitであらわされる。

情報量は工学系からきていて、対数の底は2とすることが多い。

また、その確率が小さいほど情報量が大きくなるという反比例の特徴を持つ。

例えば、

ジョーカーを除いたトランプから一枚抜くとき、引いたカードがスペードであることがわかっているときは

$I(p)=-log_{2}\frac{1}{4}=2bit$

引いたカードがエースであることのみ教えられたときは

$I(p)=-log_{2}\frac{1}{13}=-log_{2}13^{-1}=log_{2}13=3.7bit$

以上のように、確率でみればP(スペード)=1/13<P(エース)=1/4

であるものの、情報量はI(p)(スペード)>I(p)(エース)である。

平均情報量

情報量の平均（期待値）は

$E(I)=-\sum_{i=1}^{n}p_{i} I(p)=-\sum_{i=1}^{n}p_{i} log_{2}p_i$

例題

当たり、はずれが入っているくじのなかから一枚引いたとき当たりがでる確率

p(当たり)=4/10

p(はずれ)=6/10

$E(I)=-\sum_{i=1}^{n}p_{i} I(p)=-\sum_{i=1}^{n}p_{i} log_{2}p_i$

$=-2/5log_{2}2/5-3/5log_{2}3/5$

2018-05-26

独立性の検定

母集団で2つの変数の間に関連性があると言えるかどうかを、クロス表をもとにして判定する。カテゴリ変数の相関をみる時に用いる。連続変数の場合は、相関係数を算出する。ただし、連続変数の場合もカテゴリに分類しダミー変数を作れば独立性の検定を行うことができる。

検定の手順

1. 仮説の設定
帰無仮説：母集団では２つの変数は統計的に独立である（関連性ない）
対立仮説：母集団では２つの変数は統計的に独立でない（関連性あり）

※なお、 $x^{2}$ 値は必ず0以上の値しかとらないので、片側検定、両側検定という区別はない。

2. 臨界値を確認する
自由度が（クロス表の行数-1）x（クロス表の列数-1）の $x^{2}$ 分布表で臨界値を確認する。

3. $x^{2}$ 値を算出する

\begin{align}
x^{2} = \sum_{n=1}^{\infty} \frac{(O_j-E_j)^2}{E_j}
\end{align}

（Oは観察度数、Eは期待度数）

期待度数とは独立であったならばの確率。例えば、相関に関係がないなら各列（各行）の比は一定であるはず（全体の割合×全体の割合で決まる）。

4. 仮説検定
$2$ で求めた値が $3$ で確認した臨界値を超えていない→帰無仮説棄却されない。
臨界値を超えている→帰無仮説棄却。対立仮説採択される。

問題１

新聞A,B,Cのどれが好きか、男女それぞれに調査したところ、以下のような結果を得た。

	A	B	C
男	35	120	45
女	65	80	155

男女により好みに差があると言えるか、有意水準５％で検定せよ。

1.
帰無仮説：男女により好みに差がない（男女と新聞の好みが独立）
対立：男女により好みに差がある（独立でない）

2.
自由度(3-1)(2-1)=2、有意水準５％で片側（右側）なので棄却域は $x^2> x_{0.05}^{2}(2)=5.99$

3.
200*1/5=40...で各行計算すると以下のようになる。

	A	B	C	計
男	40	80	80	200
女	60	120	120	300
計	100	200	200	500

統計量は

${\displaystyle \sum \frac{(O-E)^2}{E} }$

${\displaystyle =\frac{(40-35)^2}{40}+\frac{(80-120)^2}{80}+\frac{(80-45)^2}{80}+\frac{(60-65)^2}{60}+\frac{(120-80)^2}{120}+\frac{(120-155)^2}{120} }$

$=59.9$

4.
$59.9>5.99$ より帰無仮説は棄却され、男女で好みに差があると言える。

問題２

曜日ごとの小売店Aへの問い合わせの回数を調査したところ以下のような結果を得た。

曜日	月	火	水	木	金	土	日	合計
回数	6	4	5	3	6	8	10	42

曜日により問い合わせの回数に差があると言えるか、有意水準５％で検定せよ。

1.
帰無仮説：曜日により問い合わせの回数に差がない（独立）
対立：曜日により問い合わせの回数に差がある（独立でない）

2.
自由度(7-1)(2-1)=6、有意水準５％で片側（右側）なので棄却域は $x^2> x_{0.05}^{2}(6)=12.59$

3.
期待度数を計算すると以下のとおりになる。

曜日	月	火	水	木	金	土	日	合計
回数	6	6	6	6	6	6	6	42

統計量は

$={\displaystyle \frac{(6-6)^2}{6}+\frac{(6-4)^2}{6}+\frac{(6-5)^2}{6}+\frac{(6-3)^2}{6}+\frac{(6-8)^2}{6}+\frac{(6-10)^2}{6} }$

$=34/6=5.67$

4.
$5.67< 12.59$ より帰無仮説は棄却できない

2018-05-23

確率分布とモーメント

モーメント

モーメントは確率分布の特徴を表す量のこと。確率分布の平均、分散などをモーメントで表すことができる。モーメントはモーメント母数関数によって導かれる。

確率変数Xの原点まわりのモーメント $μ_r$ は以下のように表される。
$\mu_r=E(X^r)$

確率分布の平均（期待値）は確率変数の取りうる値×頻度（その値が取りうる確率の合計）で表される。これを数式で表すと離散確率変数の期待値は
$E(X)=\sum _{i}x_if(x)=\mu$

これを一般の場合に拡張して「確率変数Xの関数 $g(x)$ 」の期待値 $E(g(x))$ を以下のように定義する。
$E(g(x))=\sum g(x)f(x)=\mu$

この時、 $E(g(x))$ の特殊な場合として、先ほどのモーメント $E(X^r)$ を代入すると、
離散確率変数は
$E(X^r)=\sum _{i}x_{i}^{r}f(x)$

連続確率変数は
$E(X^r)=\int_{-\infty }^{\infty }x_{i}^{r}f(x)dx$
と表される。

また、期待値（平均）まわりのモーメントは ${\mu }'_{r}=E(X-\mu)^r$ で表される。これを先ほどと同様に代入すると、
離散確率変数は
$E(X-\mu)^r=\sum _{i}(x_{i}-\mu)^{r}f(x)$

連続確率変数は
$E(X-\mu)^r=\int_{-\infty }^{\infty }(x_{i}-\mu)^{r}f(x)dx$
と表される。

また、r次の標準モーメントは以下のように表される。
$a_r=E{(x-\mu)/\sigma}^r$

まとめ

確率変数Xの原点まわりのモーメントは $\mu_r=E(X^r)$ で表される。
平均まわりのモーメントは ${\mu }'_{r}=E(X-\mu)^r$ で表される。
モーメントはモーメント母関数によって導かれる（次回）。

2018-05-14

結合確率分布

例題

次の表は2つの離散型確率変数の結合確率分布を示す。

	1	2	3
0	3/20	1/10	3/20
1	1/10	0	1/10
2	3/20	1/10	3/20

この時、
(a) Xの周辺分布とYの周辺分布を求めよ。
(b) E(X),E(Y),E(XY),V(X),V(Y)を求めよ。
(c) E(XY)=E(X)E(Y)は成り立つが、XとYは独立ではないことを示せ。
(d) Z=X+Yの分散を求めよ。

(a)周辺分布

Xの周辺分布

x	0	1	2
P(X=x)	2/5	1/5	2/5

Yの周辺分布

y	1	2	3
P(Y=y)	2/5	1/5	2/5

(b)期待値と分散

$E(X)=1\times1/5+2\times2/5=1$
$E(Y)=1\times2/5+2\times1/5+3\times2/5=2$
$E(XY)=1\times1\times1/10+1\times3\times1/10+2\times1\times3/20+2\times2\times1/10+2\times3\times3/20=2$