評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

Excelによる実証分析

記述統計学

基本統計量とは

データの特徴を見るために必要な数値。記述統計量、要約統計量とも呼ばれる。平均、中央値、最頻値、分散、標準偏差などがある。特に、標本データの分布の特徴を見るためには平均値、中央値、さらに平均からどのくらいばらつきがあるかを示す分散・標準偏差は必須。また、基本統計量を出すことで前例や全国平均と比較しどのような違い(類似)があるかがわかる。

基本統計量でわかること
(1)どのような分布か?
(2)他のデータとどのような違いがあるか?

単純平均値

 \overline{x}=\sum_{i=1}^n \displaystyle \frac{x_i}{n}

ただし平均値は必ずしもデータの真ん中にくるわけではないことに注意。有名な例は日本国民世帯の平均所得。平均値は約400万円ですが、中央値を調べると約300万円。平均値は最も重要な統計量ですが合わせて中央値や最頻値を見ることも大切。

平均成長率

平均成長率=\sqrt[データの個数]{1番目のデータx2番目のデータx…最後のデータ}

加重平均

調和平均率= \displaystyle \frac{データの個数}{ \frac{1}{1番目のデータ}+\frac{1}{2番目のデータ}+\frac{1}{最後のデータ}}

標本分散

・限られたデータの平均を\overline{x}、データをx_i、サンプルサイズをnとする。
 {σ}^2=\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2

nが十分に大きくない場合には標本分散の期待値は母分散に一致しないため、標本分散は母分散より小さくなる。これを克服するためにn-1で割り調節する不偏分散を使用することが多い。

不偏分散

S^2=\displaystyle\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2

★標本分散と不偏分散の使い分け
母集団のデータを知ることが統計学の目的。ただし全数を調査できない、データを利用できない場合標本を使う。母集団から抽出した標本をしようする場合は「不偏分散」を使う。反対に全数調査の場合は「標本分散」を使う。

基本統計量の算出方法

ヒストグラム

・データ分析
・横軸の階級はデータの間隔、縦軸の度数はデータの個数を示す。
・特徴:(1)面積と度数が一致、(2)連続する量を示し、大小比較ではない

分析ツールでの算出方法

・データタブ>分析ツール>ヒストグラム
・データ区間は階級ごとの上限のため、最小値よりも小、最大値よりも大で設定
・ラベル含む
・凡例の削除、横の感覚を詰める、次の級をドラッグして外す

ピボットテーブルでの算出方法

・単純集計でデータの個数を出す
・グループ化
・グラフ作成

その他

・平均:AVERAGE関数
・中央値:MODE.SNGL or MODE.MULT
・パーセンタイル:PERCENTILEINC
・標準化:STANDARDIZE(データの個数、平均値、標準偏差
標準偏差:STDEV.S関数


【参考文献】