回帰分析モデルの診断 - 評価、分析について

回帰分析の診断

モデルが必要な仮定を満たしているのかを確認する。満たしていない場合は回帰分析で得られた結果は信頼できない可能性があり、モデルを再考（変数変換や交互作用の追加など）する必要がある。

残差の仮定

回帰モデルが正しい推定であることを決める仮定。

仮定１　誤差項の期待値は0

$E(u_i)=0$

仮定２説明変数Xと誤差項の独立性

$E(u_i|x)=0$

仮定３　等分散性

$V(u_i)=E(u_{i}^{2})=\sigma^2$
誤差項の分散はすべてのiについて等しい。

仮定４　誤差項の独立性

$Cov(u_i, u_j)=E(u_i u_j)=0$
誤差項に系列相関は存在しない。

仮定５　正規分布に従う

$u_i\sim N(0,\sigma^2)$
分散は様々あるが、すべての和としての誤差項は中心極限定理により、正規分布に従うと仮定される。
仮定１、３、４とこの仮定を合わせると誤差項は互いに独立で、同一の正規分布に従う。i.i.d

仮定の診断

仮定２説明変数Xと誤差項の独立性、仮定３等分散性

モデル診断：散布図を描く

一般的にクロスセクションデータでは誤差項の分散が不均一であるケースが見られる。
残差と予測値、あるいは残差と説明変数による散布図を描いてみて、0を中心に均一に散らばっていれば等分散性に問題はない。

しかし、Xが増加（減少）するにつれ，残差のばらつきが増加（減少）しているような場合はモデルがうまく特定できていない。
チェック方法としては他に、Breusch-PaganテストやWhiteテストがある。

仮定３等分散性

モデル診断：予測値に対する標準化した残差の絶対値の平方根のプロット（Scale-Location）

残差の変動状況を見る。標準化した残差の絶対値の平方根を縦軸にし、予測値を横軸にした散布図。
モデルが正しければ、プロットは大体一定となる。プロットが予測値に対して増加または減少する傾向がある場合は等分散性が成り立っていないと判断される。

仮定１誤差項の期待値0、仮定３等分散性

モデル診断：予測値に対する残差のプロット（Residuals vs Fitted）

モデルがデータに完璧に当てはまるならば誤差は存在しない。残差はすべてx = 0の水平線上にプロットされる。
あるいは、誤差変動が均一ならば、残差はx = 0の水平線の上下に均等に散らばってプロットされ、一直線に近くなる。

仮定４独立性

特に時系列データの場合、１期前のデータから生じた残差に相関が存在することがある。これを系列相関といい、残差の独立性が失われることを意味する。系列相関が存在する場合、標準誤差を過小評価することで、回帰係数の検定で本来有意でない結果までも有意とする結果を生む可能性がある。ダービン・ワトソン比(DW)はこれをチェックする方法として知られている。

対応としては、ダミー変数を用いて除去する、コクラン・オーカット法、一般化最小二乗法(GLS)、最尤法などがある。

仮定５残差の正規性

モデル診断：残差のQ-Qプロットを描く（Normal Q-Q)

データが正規分布しているかを判断するためのプロット。縦軸は標準化した残差の値を表し、横軸は残差の期待値を標準化した値（正規分布の理論値で、残差が正規分布している場合、プロットは対角線上一直線に並ぶ。

外れ値

モデル診断：leverageに対する標準化したプロット（Residuals vs Leverage）

クック距離。個々のデータが推定に与える影響を表した距離（そのデータがない場合とある場合の予測値の変化量）。大きいと外れ値の可能性がある。0.5 を超えると影響力あり、1を超えると異常に影響力があるとされる。
横軸は梃子値で、縦軸は標準化した残差。点線がクックの距離を示す。

回帰分析の診断

残差の仮定

仮定１ 誤差項の期待値は0

仮定２ 説明変数Xと誤差項の独立性

仮定３ 等分散性

仮定４ 誤差項の独立性

仮定５ 正規分布に従う