静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

標本平均の分布が正規分布になることをシミュレーションで確かめてみた2

前回は、N=1000の母集団からn=10の標本を1000回抽出し、標本分布を作るところまで行いました。

今回は、サンプルサイズnの大きさや母集団の分布の形によって、標本分布の形・標本平均の平均・標本平均の分散がどう変わるかを確認してみたいと思います。

 

  1. 前回の最後に作成したヒストグラムに、N(49.401,\frac{736.106199}{10})正規分布曲線を重ねてみます。

    f:id:cyclo-commuter:20190212133935p:plain

    n=10の標本分布とN(49,73.6)の正規分布

    うん、大体重なってますね。理論どおりと言ってよいでしょう。

     

  2. 次に、サンプルサイズをn=5にして、同じようにグラフにしてみます。

    f:id:cyclo-commuter:20190212135016p:plain

    n=5の標本分布とN(49,147.2)の正規分布

    標本分布が正規分布に対して少し歪んでいますね。でも、これくらいならまだ「正規分布に従っている」と言ってもよさそうです。

     

  3. では、サンプルサイズをもっと小さく、n=3にしてみましょう。

    f:id:cyclo-commuter:20190212140821p:plain

    n=3の標本分布N(49,245.3)の正規分布

    分散が大きくなったぶん階級幅も広がったため、もさっとした印象ですが、思ったよりも正規分布に近い形を保っているように見えます。

     

  4. では、母集団の分布を変えてみましょう。

    f:id:cyclo-commuter:20190212142500p:plain

    N=1000, べき分布の母集団

    今度は、母集団をべき分布にしてみました。

     

    f:id:cyclo-commuter:20190212151633p:plain

    n=10の標本分布とN(20,63.3)の正規分布

     

    f:id:cyclo-commuter:20190212152001p:plain

    n=5の標本分布とN(20,126.6)の正規分布

     

    f:id:cyclo-commuter:20190212152456p:plain

    n=3の標本分布とN(20,211)の正規分布

    n=5で既に歪みが感じられますが、n=3になると完全に正規分布からずれてしまってますね。

     

  5. 今回のシミュレーションでは、サンプルサイズn=10でも、分布は正規性を保っているように見えましたが、 一般的には、母集団の分布が未知または正規分布に従わない場合、標本平均の分布が正規分布に(近似的に)従うと言えるのは、サンプルサイズがn\geq30のときだそうです。

 

今回のシミュレーションでは、標本平均の分布は正規性について意外と頑健という結果になりましたが、小さいサンプルサイズでは信頼区間の幅がやたらと大きくなって(バラツキが大きくなって)*1、分析結果が実用に耐えないと思われますので、その点はご留意ください。

*1:母平均の95%信頼区間\bar{X}-1.96\dfrac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+1.96\dfrac{\sigma}{\sqrt{n}}ですから、4.の例について、サンプルサイズ10のときの母平均の95%信頼区間は、標本平均の平均を使ったとしても、20.2887-1.96\sqrt{\dfrac{633.3739}{10}}\leq\mu\leq20.2887+1.96\sqrt{\dfrac{633.3739}{10}}
これを解いて、4.69以上35.89以下となります。