標本平均とランダム・サンプリング
母集団と標本
例えば日本の平均賃金を知りたいとき、労働者の賃金情報を入手する必要がありますが、全国すべての就労男性、女性にアンケートをとることは難しいです。時間と費用がかかり現実的ではありません。
統計学ではすべての人にアンケートを取らなくてもランダムに選んだ人たちに聞くことで、その人数がある程度多ければ、その平均がすべての人に聞いた時の平均と近似するという前提があります。
このランダムに選んだ人たちのことを標本(サンプル)と呼び、もともとの大きな塊、つまりここでは日本全国の就労者を母集団と呼びます。
この前提はとても便利で標本から母集団の分布(平均や分散)を知ることができます。
ただし、標本がどのくらい大きければ良いのかということですが、標本の結果をどれだけ厳しく見るかということによります。例えばたまたま選んだサンプルが母集団の真の平均に近いかもしれませんし、もう一度別の標本を選んだら1回目よりも母集団から離れた平均が出るかもしれません。しかし標本サイズが多ければ多いほどばらつきがなくなり、母集団の真の平均に近づくと言われています。
標本分布
標本は母集団からランダムに選ばれたものなので、標本自体も変化する量、つまり確率変数です。先ほどの例だと全国から無作為に選ぶので、選ばれた人たちの選ばれる確率は等しく、独立した分布に従います。さらに、異なる人たちが選ばれているのでその平均賃金も異なると考えられます。
n個の観測値Y1.....,Ynの標本平均Yは、
Y=n/1(Y1+Y2+Y3+....+Yn)=n/1ΣYi
と表されます。ここで重要なのがYの値は抽出するサンプルによって異なるため、Yも確率変数となるということです。
Yがランダムであれば、それは確率分布に従います。Yの分布はYの標本分布と呼ばれます。異なった標本に対してYはそれぞれ異なる値を取りうるわけで、起こりうるさまざまなYの値に関する確率分布が標本分布です。
標本平均と標本分散
標本平均
観測値Y1....Ynが独立で同一の分布に従うとき、n=2の場合にはY1+Y2の期待値は
E(Y1+Y2)=μ+μ=2μとなります。
したがって、
標本平均の期待値はE[1/2(Y1+Y2)]=1/2x2μ=μ
一般には
E(Y)=1/n×ΣE(Yi)=μ
と表されます。
標本分散
var(Y)=var(1/nΣYi)=1/n^2×Σvar(Yi)+1/n^2×ΣΣcov(Yi,Yj)
独立なのでcov(Yi,Yj)=0, また、Σvar(Yi)=n (σ^2)より1/n^2×n(σ^2)
したがって
var(Y)=σ^2/n
となります。
<今後学ぶこと>
・サンプリング