評価、分析について

国際開発学分野の評価や統計的分析手法について勉強しています。日々学んだことを記録していきます。

Excelによる実証分析

統計手法を用いて分析する際にExcelSPSS, STATA, Rなど様々な分析ツールがあると思いますが、初めは基本を学びたいと思い、Excel分析入門を読んでみることにしました。

7日間で基本的な分析を一通り学べるという書籍に出会い、今日から読んでいきたいと思います。

1日目:データ活用

データ活用の利点

 1 現状把握
 2 成功、失敗の要因
 3 意志決定の根拠

→(3)は特に重要だと思います。よくエビデンスベーストで決定をと言いますが、数字やデータで示せていません…

さらに意思決定に結びつけるためには次のことを念頭におくことが重要。

(1)分析の目的をはっきりとさせる、その上でデータを集める
(2)データクリーニングを考慮する
(3)グラフでデータの特徴を明らかにする
(4)相関関係に注目する
(5)全体の傾向だけでなく、年齢別・性別などの属性別に層別する

統計学とは

統計学には一部のデータを抽出しその背後にある全体の特徴を予測するという「推定」、偶然抽出したデータの結果が全体にも利用できるかを調べる「検定」からなる「推測統計」と、統計量などデータの特徴を調べる「記述統計」の2種類があります。
実証研究などでデータを扱うとき、まず入手したデータの特徴を調べる(記述統計)→推定→検定というような流れで仮説を検証します。


(1)推測統計:標本から母集団の特徴を予測(推定)
        標本のデータが全体にも利用できるか(検定)
(2)記述統計:データの特徴を調べる

データの分析

単純集計表

・項目別に集計する

クロス集計

・特定の2項目について集計し、交わる部分に該当する件数を見る。
・カテゴリーデータが基本。
・数値はカテゴリー化し集計する。その際ピボットテーブルが便利。

データの種類

種類 特徴 数の大小 比率
名義尺度 カテゴリーデータ A, B, O, AB  
順位尺度 順位、評価 満足度    
間隔尺度 時刻、気温、西暦 8時→9時
比例尺度 金額、人数、倍率 0円
外れ値

・集団とはかけ離れて極端に大きい(小さい)
ヒストグラムを作成し、分布具合から外れ値の有無を確認。
・大事なのはなぜ集団とかけ離れているのかの理由を把握すること。
・データ分析の目的に合わせて取り除くか残すか決める。

データクリーニング

表記統一

・カナ表記や数字の半角(全角)を統一
・有り・アリ・有 同じ内容は同じ表記に

外れ値処理

・入力ミスは修正。
・原因特定は変数として取り入れるか検討

欠損値処理

・欠損値は全体の平均値か周辺の平均値を利用
・無回答処理

Excel データベース作成

・データの単位は直接入力せず表示形式
・データの項目はなるべく細かい単位で
・全角→半角はASC関数、半角→全角はJIS関数が便利

【参考文献】

<今後学びたいこと>
・データクリーニング