2018-08-04

8月の勉強目標

7月の勉強内容

7月は微積分の復習を行いました。平日2時間を目標としていましたが、仕事が忙しくなりあまりできませんでした。。
休日は計画通り3時間勉強しました。

8月の勉強目標

11月に統計検定準一級と一級、専門統計調査士を受験する予定です。今月は過去問をやろうと思います。平日に1ページずつやります。休日は過去問で解けなかったものについて勉強したいと思います。時間は平日2時間、休日3時間が目標です。

頑張ります！

2018-07-16

今月の勉強目標

あまりにもやりたいことが多すぎて混乱してきたため、毎月の勉強目標を立てることにしました。10月に数学検定を受験しようと思っているため、今月は数学の勉強を中心に行いたいと思います。

【今月の勉強目標】

10月に数学検定準一級を受験します。今月は数IIIの教科書を読みます。時間は平日2時間、休日3時間が目安です。頑張ります。

2018-06-14

不偏性と一致性

母集団の特徴を知りたいとき、母集団が小さければ全数調査を行うことができるが大きい場合は困難。そのようなときに母集団の一部（標本）を抽出し、抽出した標本の特徴を知ることによって母集団全体の特徴を把握する。

標本を要約し、母集団の母数の推測に使われるものを統計量と呼ぶ。ある統計量が母数の推定に対してどの程度良い性質を持っているかを判断する基準に、一致性、不偏性がある。

1. 不偏性

不偏性があるとは、標本から求めた統計量の期待値が母集団の真の値（母数）に等しいことをいう。統計量自体にばらつきはあるものの、平均して母数に等しいこと。

2. 一致性

一致性があるとは、サンプルサイズが無限に大きい場合において、統計量が母数に一致すること。

（出典）

https://bellcurve.jp/statistics/glossary/12817.html

標本平均の不偏性と一致性

標本 $X_1,X_2,...X_n$ は母集団分布（ $\mu, \sigma^2$ ）に従う独立な確率変数である。標本から計算された平均、分散を標本平均、標本分散と呼ぶ。

標本平均は

$\displaystyle{X=\frac{X_1+...+X_n}{n}}$

で定義される。

ここで独立な確率変数の加法性を復習。

① $E(XY)=E(X)E(Y)=\mu$

② $V(XY)=V(X)V(Y)$ （X,Yが独立の場合）

③ $V(XY)=V(X)V(Y)2Cov(X,Y)=V(X)V(Y)2\rho_{XY}D(X)D(Y)$ （独立でない場合）

①より $\bar{X}$ の平均は

$\displaystyle{E(\bar{x}=\frac{(X_1+...+X_n)}{n}=\frac{n\mu}{n}=\mu}$

となって、期待値が母平均 $\mu$ と一致する。

従って、標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量である。

また、傾向として $\bar{X}$ は $\mu$ に集中する傾向にある。

②より期待値 $\bar{X}$ の分散は

$\displaystyle{V(\bar{X})=S^2=V\left ( \frac{1}{n}(X_1+...+X_n) \right )=\frac{1}{n^2}V(X_1+...+X_n)=n\sigma^2/n^2=\sigma^2/n}$

従って、 $n \rightarrow \infty$ のとき $\bar{x}$ の分散は0に近づき、 $\bar{x} \rightarrow \mu$ （母平均）のように、確率収束していく。

標本分散の不偏性

標本分散は

$\displaystyle{s^2=\frac{1}{n-1}\left ((X_1-\bar{X})^2+(X_2-\bar{X})^2...+(X_n-\bar{X})^2 \right)}$

で定義される。

ここで先ほどの分散との違いで注意しなくてはならないのが、n-1で割っていること。

この標本分散 $s^2$ は、期待値が

$E(s^2)=\sigma^2$

と母分散に一致する。

先ほどの $\displaystyle{V(\bar{X})=S^2=V\left ( \frac{1}{n}(X_1+...+X_n) \right )=\frac{1}{n^2}V(X_1+...+X_n)=n\sigma^2/n^2=\sigma^2/n}$ も標本分散だが、不偏分散ではない。その差は

$\displaystyle{E(S^2)=\frac{n-1}{n}\cdot\sigma^2}$

で表される。nが小さいと $\sigma^2$ の過小評価が起こる。

統計学入門 (基礎統計学?)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (79件) を見る

2018-06-10

系列相関の対処

コクラン•オーカット法

1階の系列相関が検出された→相関を除去する方法

新たな説明変数を加える

モデルの関数型を変える

ダミー変数を加える

それでも除けない場合はOLSに代わるパラメータ推定量を採用。コクラン•オーカット法(CO)、プレイス•ウィンスライン変換、最尤法など。

CO法

1階の系列相関のあるモデルを想定する。

$Y_t=a+bX_t+u_t$ (t=1,2,...,n)

$u_t= \rho u_{t-1}+\varepsilon _t$

$E(\varepsilon _i)=0, E(\varepsilon _i)^2=sigma _{\varepsilon }^2, E(\varepsilon _i \varepsilon _j)=0$

一期前の形で表すと

$Y_{t-1}=a+bX_{t-1}+u_{t-1}$ (t=2,3,...,n)

この両辺にρをかけると、
$\rho Y_{t-1}= \rho a+ \rho bX_{t-1}+ \rho u_{t-1}$ (t=2,3,...,n)

つぎにこの式を引くと

$Y_t- \rho Y_{t-1}=a- \rho a+bX_{t}- \rho bX_{t-1}+u_{t}- \rho u_{t-1}$

$Y_t- \rho Y_{t-1}=a(1- \rho)+b(X_{t}- \rho X_{t-1})+\varepsilon _{t}$

となり、この式の誤差項 $\varepsilon _{t}$ は系列相関ではなくなる。

以上より

$Y^*=Y_t- \rho Y_{t-1}$

$X_t^*=X_{t}- \rho X_{t-1}$

$a^*=a(1- \rho)$

$b=b$

このとき、bは元と変わらない。

よって

$Y^*=a^*+bX_t^*+\varepsilon _{t}$

2018-06-07

系列相関

系列相関とは

系列相関とは自己相関ともいい、時系列データを用いた回帰分析で問題になる。誤差項の間に相関関係があることを意味する。

通常の回帰分析においては、誤差項には系列相関がないことが仮定されている。もし系列相関がある状態で回帰分析を行うと、回帰係数はBLUEにはならず、推定値に疑問が残る。

具体的には、t値、F値、決定係数を大きめに計算してしまい、本当は有意でないものを有意であるとみなしてしまう。

系列相関がある例

誤差項uに１階の系列相関がある場合

被説明変数が一期前の自己の値と $\varepsilon_i$ によって説明されるモデルを１階の自己回帰モデルという。AR（１）モデルと表される。

$Y_i=a+bX_i+u_i$

$u_i= \rho u_{i-1}+\varepsilon_i$ , $i=1,2,..., n$

$-1 \lt \rho \lt 1$

$ho$ は自己回帰係数、 $\varepsilon_i$ は確率誤差項。 $E(\varepsilon_i)=0, E(\varepsilon_i)^2=\sigma_{\varepsilon}^2, E(\varepsilon_i \varepsilon_j)=0$

このとき、 $u_i$ は、 $\rho$ が正で大きければ、一期前の $u_{i-1}$ と同じ方向に動く。もし $\rho$ が-1に近ければ、 $u_i$ は、 $u_{i-1}$ と反対に動く。

系列相関と自己共分散

自己回帰係数 $\rho$ は $u_i$ と $u_{i-1}$ の間の相関を表す。つまり、

自己共分散= $Cov(u_i, u_{i-1})$

自己相関係数= $\rho=corr(u_t, u_{t-1})=\frac{Cov(u_i, u_{i-1})}{\sqrt{var(u_i)var(u_{i-1})}}$

誤差項に系列相関が生じる原因

・重要な説明変数がモデルから欠落している

・経済行動（消費、貯蓄、投資、輸出入など）における習慣性

・あるショックの経済的影響が期間内で終息せず、次期以降にも及ぶ場合。

・関数型の特定かの失敗

・時系列の回帰分析の時間単位が短いほど前期の影響を受けやすい

ダービン・ワトソン（DW）統計量

１階の系列相関が存在しているかどうかをチェックするための統計量。

OLSの残差を $hat{u_t}$ とすると、

$DW={\displaystyle \frac{\sum_{n}^{i}(\hat{u_t}-\hat{u_{t-1}})^2}{\sum_{n}^{i}\hat{u}^2}}$

$0 \leq DW \leq 4$

ダービン・ワトソン統計量DWは、サンプル数が十分大きいとき $（n \geq 30）$ 、次式によって近似される。

$DW \doteq 2(1-\hat{p})$

$\hat{p}=0ならばDW=2, \hat{p}=1ならばDW=0, \hat{p}=-1ならばDW=4$

系列相関とDW統計量の関係

	p	DW
負の相関関係	-1<p<0	2<DW<4
系列相関なし	p=0	DW=2
正の相関関係	0<p<1	0<DW<2

DW検定

1階の正の系列相関を見つける場合

帰無仮説	H0	p=0
対立仮説	H1	p>0

$DW \lt d_L \rightarrow H0$ を棄却（1階の正の系列相関あり）

$d_L \leq DW \leq d_U \rightarrow H0$ を棄却も採択もできない（判定不能）

$d_L \lt DW \rightarrow H0$ を採択（系列相関なし）

1階の負の系列相関を見つける場合

帰無仮説	H0	p=0
対立仮説	H1	p<0

$4-d_L \lt DW \rightarrow H0$ を棄却（1階の負の系列相関あり）

$4-d_U \leq DW \leq 4-d_L \rightarrow H0$ を棄却も採択もできない（判定不能）

$DW \lt d_L \rightarrow H0$ を採択（系列相関なし）

DW検定留意点

・定数項のない回帰モデルではDW検定は利用できない。

・回帰モデルの説明変数の中に、ラグ付き説明変数が入っている時も利用できない。→ダービンのh統計量を用いる。

・高次の系列相関には利用できない。→ブロシュ・ゴドフレイ検定

例題で学ぶ初歩からの計量経済学

作者: 白砂堤津耶
出版社/メーカー: 日本評論社
発売日: 2007/03/30
メディア: 単行本
購入: 3人クリック: 13回
この商品を含むブログ (6件) を見る

2018-06-05

回帰分析モデルの診断

回帰分析の診断

モデルが必要な仮定を満たしているのかを確認する。満たしていない場合は回帰分析で得られた結果は信頼できない可能性があり、モデルを再考（変数変換や交互作用の追加など）する必要がある。

残差の仮定

回帰モデルが正しい推定であることを決める仮定。

仮定１　誤差項の期待値は0

$E(u_i)=0$

仮定２説明変数Xと誤差項の独立性

$E(u_i|x)=0$

仮定３　等分散性

$V(u_i)=E(u_{i}^{2})=\sigma^2$
誤差項の分散はすべてのiについて等しい。

仮定４　誤差項の独立性

$Cov(u_i, u_j)=E(u_i u_j)=0$
誤差項に系列相関は存在しない。

仮定５　正規分布に従う

$u_i\sim N(0,\sigma^2)$
分散は様々あるが、すべての和としての誤差項は中心極限定理により、正規分布に従うと仮定される。
仮定１、３、４とこの仮定を合わせると誤差項は互いに独立で、同一の正規分布に従う。i.i.d

仮定の診断

仮定２説明変数Xと誤差項の独立性、仮定３等分散性

モデル診断：散布図を描く

一般的にクロスセクションデータでは誤差項の分散が不均一であるケースが見られる。
残差と予測値、あるいは残差と説明変数による散布図を描いてみて、0を中心に均一に散らばっていれば等分散性に問題はない。

しかし、Xが増加（減少）するにつれ，残差のばらつきが増加（減少）しているような場合はモデルがうまく特定できていない。
チェック方法としては他に、Breusch-PaganテストやWhiteテストがある。

仮定３等分散性

モデル診断：予測値に対する標準化した残差の絶対値の平方根のプロット（Scale-Location）

残差の変動状況を見る。標準化した残差の絶対値の平方根を縦軸にし、予測値を横軸にした散布図。
モデルが正しければ、プロットは大体一定となる。プロットが予測値に対して増加または減少する傾向がある場合は等分散性が成り立っていないと判断される。

仮定１誤差項の期待値0、仮定３等分散性

モデル診断：予測値に対する残差のプロット（Residuals vs Fitted）

モデルがデータに完璧に当てはまるならば誤差は存在しない。残差はすべてx = 0の水平線上にプロットされる。
あるいは、誤差変動が均一ならば、残差はx = 0の水平線の上下に均等に散らばってプロットされ、一直線に近くなる。

仮定４独立性

特に時系列データの場合、１期前のデータから生じた残差に相関が存在することがある。これを系列相関といい、残差の独立性が失われることを意味する。系列相関が存在する場合、標準誤差を過小評価することで、回帰係数の検定で本来有意でない結果までも有意とする結果を生む可能性がある。ダービン・ワトソン比(DW)はこれをチェックする方法として知られている。

対応としては、ダミー変数を用いて除去する、コクラン・オーカット法、一般化最小二乗法(GLS)、最尤法などがある。