評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

8月の勉強目標

7月の勉強内容

7月は微積分の復習を行いました。平日2時間を目標としていましたが、仕事が忙しくなりあまりできませんでした。。
休日は計画通り3時間勉強しました。

8月の勉強目標

11月に統計検定準一級と一級、専門統計調査士を受験する予定です。今月は過去問をやろうと思います。平日に1ページずつやります。休日は過去問で解けなかったものについて勉強したいと思います。時間は平日2時間、休日3時間が目標です。


頑張ります!

今月の勉強目標

あまりにもやりたいことが多すぎて混乱してきたため、毎月の勉強目標を立てることにしました。10月に数学検定を受験しようと思っているため、今月は数学の勉強を中心に行いたいと思います。

 

【今月の勉強目標】

10月に数学検定準一級を受験します。今月は数IIIの教科書を読みます。時間は平日2時間、休日3時間が目安です。頑張ります。

不偏性と一致性

母集団の特徴を知りたいとき、母集団が小さければ全数調査を行うことができるが大きい場合は困難。そのようなときに母集団の一部(標本)を抽出し、抽出した標本の特徴を知ることによって母集団全体の特徴を把握する。

 

標本を要約し、母集団の母数の推測に使われるものを統計量と呼ぶ。ある統計量が母数の推定に対してどの程度良い性質を持っているかを判断する基準に、一致性、不偏性がある。

 

1. 不偏性

不偏性があるとは、標本から求めた統計量の期待値が母集団の真の値(母数)に等しいことをいう。統計量自体にばらつきはあるものの、平均して母数に等しいこと。

 

2. 一致性

一致性があるとは、サンプルサイズが無限に大きい場合において、統計量が母数に一致すること。

 

(出典)

https://bellcurve.jp/statistics/glossary/12817.html

 

標本平均の不偏性と一致性

標本X_1,X_2,...X_nは母集団分布(\mu, \sigma^2)に従う独立な確率変数である。標本から計算された平均、分散を標本平均、標本分散と呼ぶ。

 

標本平均は

\displaystyle{X=\frac{X_1+...+X_n}{n}}

で定義される。

 

ここで独立な確率変数の加法性を復習。

E(XY)=E(X)E(Y)=\mu

V(XY)=V(X)V(Y)(X,Yが独立の場合)

V(XY)=V(X)V(Y)2Cov(X,Y)=V(X)V(Y)2\rho_{XY}D(X)D(Y)(独立でない場合)

 

①より\bar{X}の平均は

\displaystyle{E(\bar{x}=\frac{(X_1+...+X_n)}{n}=\frac{n\mu}{n}=\mu}

となって、期待値が母平均\muと一致する。

従って、標本平均\bar{X}は母平均\muの不偏推定量である。

 

また、傾向として\bar{X}\muに集中する傾向にある。

②より期待値\bar{X}の分散は

\displaystyle{V(\bar{X})=S^2=V\left ( \frac{1}{n}(X_1+...+X_n) \right )=\frac{1}{n^2}V(X_1+...+X_n)=n\sigma^2/n^2=\sigma^2/n}

従って、n \rightarrow \inftyのとき\bar{x}の分散は0に近づき、\bar{x} \rightarrow \mu(母平均)のように、確率収束していく。

 

標本分散の不偏性

標本分散は

\displaystyle{s^2=\frac{1}{n-1}\left ((X_1-\bar{X})^2+(X_2-\bar{X})^2...+(X_n-\bar{X})^2 \right)}

で定義される。

ここで先ほどの分散との違いで注意しなくてはならないのが、n-1で割っていること。

 

この標本分散s^2は、期待値が

E(s^2)=\sigma^2

と母分散に一致する。

 

先ほどの\displaystyle{V(\bar{X})=S^2=V\left ( \frac{1}{n}(X_1+...+X_n) \right )=\frac{1}{n^2}V(X_1+...+X_n)=n\sigma^2/n^2=\sigma^2/n}も標本分散だが、不偏分散ではない。その差は

 

\displaystyle{E(S^2)=\frac{n-1}{n}\cdot\sigma^2}

で表される。nが小さいと\sigma^2の過小評価が起こる。

 

 

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

 

 

 

系列相関の対処

コクラン•オーカット法

 

1階の系列相関が検出された→相関を除去する方法

新たな説明変数を加える

モデルの関数型を変える

ダミー変数を加える 

 

それでも除けない場合はOLSに代わるパラメータ推定量を採用。コクラン•オーカット法(CO)、プレイス•ウィンスライン変換、最尤法など。  

 

CO法

1階の系列相関のあるモデルを想定する。

Y_t=a+bX_t+u_t (t=1,2,...,n)

u_t= \rho u_{t-1}+\varepsilon _t

E(\varepsilon _i)=0, E(\varepsilon _i)^2=sigma _{\varepsilon }^2, E(\varepsilon _i \varepsilon _j)=0

 

一期前の形で表すと

Y_{t-1}=a+bX_{t-1}+u_{t-1} (t=2,3,...,n)

 

この両辺にρをかけると、
 \rho Y_{t-1}= \rho a+ \rho bX_{t-1}+ \rho u_{t-1} (t=2,3,...,n)

 

つぎにこの式を引くと

Y_t- \rho Y_{t-1}=a- \rho a+bX_{t}- \rho bX_{t-1}+u_{t}- \rho u_{t-1} 

Y_t- \rho Y_{t-1}=a(1- \rho)+b(X_{t}- \rho X_{t-1})+\varepsilon _{t} 

となり、この式の誤差項\varepsilon _{t}は系列相関ではなくなる。

 

以上より

Y^*=Y_t- \rho Y_{t-1}

X_t^*=X_{t}- \rho X_{t-1}

a^*=a(1- \rho)

b=b

このとき、bは元と変わらない。

 

よって

Y^*=a^*+bX_t^*+\varepsilon _{t}

 

 

 

系列相関

系列相関とは

系列相関とは自己相関ともいい、時系列データを用いた回帰分析で問題になる。誤差項の間に相関関係があることを意味する。

通常の回帰分析においては、誤差項には系列相関がないことが仮定されている。もし系列相関がある状態で回帰分析を行うと、回帰係数はBLUEにはならず、推定値に疑問が残る。

具体的には、t値、F値、決定係数を大きめに計算してしまい、本当は有意でないものを有意であるとみなしてしまう。

 

系列相関がある例

誤差項uに1階の系列相関がある場合

被説明変数が一期前の自己の値と\varepsilon_iによって説明されるモデルを1階の自己回帰モデルという。AR(1)モデルと表される。 

 

Y_i=a+bX_i+u_i

u_i= \rho u_{i-1}+\varepsilon_i,   i=1,2,..., n

-1 \lt \rho \lt 1

 

 hoは自己回帰係数、\varepsilon_iは確率誤差項。E(\varepsilon_i)=0, E(\varepsilon_i)^2=\sigma_{\varepsilon}^2, E(\varepsilon_i \varepsilon_j)=0

このとき、u_iは、 \rhoが正で大きければ、一期前のu_{i-1}と同じ方向に動く。もし \rhoが-1に近ければ、 u_iは、u_{i-1}と反対に動く。

 

系列相関と自己共分散

自己回帰係数\rhou_iu_{i-1}の間の相関を表す。つまり、

 

自己共分散=Cov(u_i, u_{i-1})

自己相関係数={\displaystyle \rho=corr(u_t, u_{t-1})=\frac{Cov(u_i, u_{i-1})}{\sqrt{var(u_i)var(u_{i-1})}}}

 

誤差項に系列相関が生じる原因

・重要な説明変数がモデルから欠落している

・経済行動(消費、貯蓄、投資、輸出入など)における習慣性

・あるショックの経済的影響が期間内で終息せず、次期以降にも及ぶ場合。

・関数型の特定かの失敗

・時系列の回帰分析の時間単位が短いほど前期の影響を受けやすい

 

ダービン・ワトソン(DW)統計量

1階の系列相関が存在しているかどうかをチェックするための統計量。

OLSの残差をhat{u_t}とすると、

DW={\displaystyle \frac{\sum_{n}^{i}(\hat{u_t}-\hat{u_{t-1}})^2}{\sum_{n}^{i}\hat{u}^2}}

0 \leq DW \leq 4

 

ダービン・ワトソン統計量DWは、サンプル数が十分大きいとき(n \geq 30)、次式によって近似される。

DW \doteq 2(1-\hat{p})

\hat{p}=0ならばDW=2,   \hat{p}=1ならばDW=0,   \hat{p}=-1ならばDW=4

 

系列相関とDW統計量の関係

  p DW
負の相関関係 -1<p<0 2<DW<4
系列相関なし p=0 DW=2
正の相関関係 0<p<1 0<DW<2

 

DW検定

1階の正の系列相関を見つける場合

帰無仮説 H0 p=0
対立仮説 H1 p>0

DW \lt d_L  \rightarrow H0を棄却(1階の正の系列相関あり)

 d_L \leq DW \leq d_U  \rightarrow H0を棄却も採択もできない(判定不能

d_L \lt DW  \rightarrow H0を採択(系列相関なし)

 

1階の負の系列相関を見つける場合

帰無仮説 H0 p=0
対立仮説 H1 p<0

4-d_L \lt DW  \rightarrow H0を棄却(1階の負の系列相関あり)

 4-d_U \leq DW \leq 4-d_L \rightarrow H0を棄却も採択もできない(判定不能

DW \lt d_L \rightarrow H0を採択(系列相関なし)

 

DW検定留意点

・定数項のない回帰モデルではDW検定は利用できない。

・回帰モデルの説明変数の中に、ラグ付き説明変数が入っている時も利用できない。→ダービンのh統計量を用いる。

・高次の系列相関には利用できない。→ブロシュ・ゴドフレイ検定

 

 

例題で学ぶ初歩からの計量経済学

例題で学ぶ初歩からの計量経済学

 

 

 

回帰分析モデルの診断

回帰分析の診断

モデルが必要な仮定を満たしているのかを確認する。満たしていない場合は回帰分析で得られた結果は信頼できない可能性があり、モデルを再考(変数変換や交互作用の追加など)する必要がある。

残差の仮定

回帰モデルが正しい推定であることを決める仮定。

仮定1 誤差項の期待値は0

E(u_i)=0

仮定2 説明変数Xと誤差項の独立性

E(u_i|x)=0

仮定3 等分散性

V(u_i)=E(u_{i}^{2})=\sigma^2
誤差項の分散はすべてのiについて等しい。

仮定4 誤差項の独立性

Cov(u_i, u_j)=E(u_i u_j)=0
誤差項に系列相関は存在しない。

仮定5 正規分布に従う

u_i\sim N(0,\sigma^2)
分散は様々あるが、すべての和としての誤差項は中心極限定理により、正規分布に従うと仮定される。
仮定1、3、4とこの仮定を合わせると誤差項は互いに独立で、同一の正規分布に従う。i.i.d

仮定の診断

仮定2 説明変数Xと誤差項の独立性、仮定3 等分散性

モデル診断:散布図を描く

一般的にクロスセクションデータでは誤差項の分散が不均一であるケースが見られる。
残差と予測値、あるいは残差と説明変数による散布図を描いてみて、0を中心に均一に散らばっていれば等分散性に問題はない。

しかし、Xが増加(減少)するにつれ,残差のばらつきが増加(減少)しているような場合はモデルがうまく特定できていない。
チェック方法としては他に、Breusch-PaganテストやWhiteテストがある。

仮定3 等分散性

モデル診断:予測値に対する標準化した残差の絶対値の平方根のプロット(Scale-Location)

残差の変動状況を見る。標準化した残差の絶対値の平方根を縦軸にし、予測値を横軸にした散布図。
モデルが正しければ、プロットは大体一定となる。プロットが予測値に対して増加または減少する傾向がある場合は等分散性が成り立っていないと判断される。

仮定1 誤差項の期待値0、仮定3 等分散性

モデル診断:予測値に対する残差のプロット(Residuals vs Fitted)

モデルがデータに完璧に当てはまるならば誤差 は存在しない。残差はすべてx = 0の水平線上にプロットされる。
あるいは、誤差変動が均一ならば、残差はx = 0の水平線の上下に均等に散らばってプロットされ、一直線に近くなる。

仮定4 独立性

特に時系列データの場合、1期前のデータから生じた残差に相関が存在することがある。これを系列相関といい、残差の独立性が失われることを意味する。系列相関が存在する場合、標準誤差を過小評価することで、回帰係数の検定で本来有意でない結果までも有意とする結果を生む可能性がある。ダービン・ワトソン比(DW)はこれをチェックする方法として知られている。

対応としては、ダミー変数を用いて除去する、コクラン・オーカット法、一般化最小二乗法(GLS)、最尤法などがある。

仮定5 残差の正規性

モデル診断:残差のQ-Qプロットを描く(Normal Q-Q)

データが正規分布しているかを判断するためのプロット。縦軸は標準化した残差の値を表し、横軸は残差の期待値を標準化した値(正規分布の理論値で、残差が正規分布している場合、プロットは対角線上一直線に並ぶ。

外れ値

モデル診断:leverageに対する標準化したプロット(Residuals vs Leverage)

クック距離。個々のデータが推定に与える影響を表した距離(そのデータがない場合とある場合の予測値の変化量)。大きいと外れ値の可能性がある。0.5 を超えると影響力あり、1を超えると異常に影響力があるとされる。
横軸は梃子値で、縦軸は標準化した残差。点線がクックの距離を示す。

母分散比の検定

母分散比に対する仮説検定

二つの異なる母集団の母分散が等しいかどうかを検定する。
二つの正規母集団の母平均が等しいか否かの検定の際に、母分散が等しいかどうかによって検定方法が異なるため、母平均の検定の際にはまず母分散比を確認する必要がある。

 

 仮説設定

帰無仮説H_0:\sigma^2_1=\sigma^2_2

対立仮説はH_1:\sigma^2_1\neq \sigma^2_2


検定統計量

母分散の比の検定は、検定統計量
F=\displaystyle{\frac{s_1^2}{s_2^2}}を用いる。

 

ただし、 \displaystyle{s_1^2=\sum (X_1-\bar{X})^2/(m-1)},

\displaystyle{s_2^2=\sum (Y_1-\bar{Y})^2/(n-1)}

 

帰無仮説が正しい場合、Fは自由度(m-1, n-1)のF分布(m-1, n-1)に従う。

 

仮説検定

対立仮説が両側検定の場合

F_{1-a/2}(m-1,n-1) \lt F \lt F_{a/2}(m-1,n-1)のとき帰無仮説棄却しない。


対立仮説が右片側検定の場合
H_1:\sigma_1^2 \gt \sigma_2^2
F \gt F_a(m-1,n-1)のとき帰無仮説を棄却する。


対立仮説が左片側検定の場合
H_1: \sigma_1^2 \lt \sigma_2^2
F \lt  F_{1-a}(m-1,n-1)のとき帰無仮説を棄却する。

 

注意
{\displaystyle F_{1-a}(n-1,m-1)=\frac{1}{F_{a}(n-1,m-1)}}

 

問題

ある工場では製造機械A,Bを導入したところ、機械Aでは11個のサンプルで重さの標本標準偏差が1.1kgであり、機械Bでは11個のサンプルで重さの標本標準偏差が0.9kgだった。この二つの機械で製品の均一さに違いがあるか、有意水準5%で検定せよ。

2標本の母分散比{\displaystyle \frac{\sigma_A^2}{\sigma_B^2}}について検定する。

 

帰無仮説H_0:\sigma_A^2=\sigma_B^2

対立仮説はH_1:\sigma_A^2\neq \sigma_B^2

 

自由度m-1=11-1=10, n-1=11-1=10のF分布を用いる

有意水準5%で両側検定なので、棄却域はF_{0.025}(10,10) \lt F \lt F_{0.975}(10,10)となる。


計算すべき統計量は

{\displaystyle 0.269 \lt F=\frac{s_{A}^{2}}{s_{B}^{2}}=\frac{1.1^{2}}{0.9^{2}}=1.49 \lt 3.717}

したがって、帰無仮説は棄却されない。A,Bに差はないと言える。