静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

不偏じゃないほうの標本分散も一致推定量だった

前回、母分散の不偏推定量が不偏分散 \dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2 であることをようやく理解したわけですが、推定量の望ましい性質は、不偏性のほかに一致性というのもあります。

一致性というのは、推定量大数の法則に従っている場合に指す言葉で、

サンプルサイズが大きくなれば、推定値は母集団が持つ真の値に近づくよね。

という、感覚的にも至極とうぜんのことを言っていたりするわけですが、統計学的にはn→∞で証明されているわけで、無限大の前には不偏分散の分母にあるマイナス1なんて、文字どおり物の数じゃなかったりします。(このことは前々回、オオカミ先生も言ってましたね。)

というわけで今回は、不偏じゃないほうの標本分散も一致推定量であることをシミュレーションで確かめてみたいと思います。

 

シミュレーションにあたり、

で作った無作為抽出のマクロに改良を加えました。

 


Sub Random_Sampling()

    Dim h As Integer, i  As Integer, j As Integer, k As Integer
    Dim RNK As Integer
    
    Application.ScreenUpdating = False
    
    Randomize   '乱数ジェネレータを初期化
    
    For h = 1 To 10000   '1000行分繰り返す
    
        For i = 1 To 10000
            Cells(i, 2).Value = Rnd   '1000行分の乱数を作る
        Next
        
        k = 100   'サンプルサイズを指定
    
        With Application.WorksheetFunction
            '標本を無作為抽出する
            For j = 3 To k + 2
                RNK = .Rank_Eq(Cells(j, 2), Range("B1:B10000"))
                Cells(h, j).Value = .Index(Range("A1:A10000"), RNK)
            Next
            '標本平均を計算する
            Cells(h, k + 3).Value = .Average(Range(Cells(h, 3), Cells(h, k + 2)))
            '標本分散を計算する
            Cells(h, k + 4).Value = .Var_P(Range(Cells(h, 3), Cells(h, k + 2)))
            '不偏分散を計算する
            Cells(h, k + 5).Value = .Var_S(Range(Cells(h, 3), Cells(h, k + 2)))
        End With
        
        Application.StatusBar = h & "/10000"
        DoEvents
        
    Next
    
    '乱数を消去
    Range("B1:B10000").ClearContents
    
    Application.ScreenUpdating = True
    Application.StatusBar = False
    
    MsgBox "終了"

End Sub

サンプルサイズを変数kでコントロールできるようにしたのがミソですかね。

あとは、分散の計算結果を出力とか、「応答なし」の回避とか。

精度を高めようと思い、標本の抽出回数を一万回にしました*1。× \frac{1}{10000}なら、期待値に準じる値として不足はないんじゃないでしょうか。

 

で、結果がこちら。
(以下、不偏じゃないほうの標本分散の「不偏じゃないほうの」は省略してます。)

f:id:cyclo-commuter:20190313144651p:plain

 

f:id:cyclo-commuter:20190313144114p:plain

母平均,標本平均の期待値

 

f:id:cyclo-commuter:20190313144300p:plain

母分散,標本分散の期待値,不偏分散の期待値

 

標本平均と不偏分散は、不偏推定量にして一致推定量なので、母平均・母分散にまとわりついていますね。

一方、標本分散はサンプルサイズが小さいうちは母分散からかけ離れていますが、サンプルサイズが大きくなるにつれてグングン母分散に近づいていきます。

そりゃあ、2で割るのと1で割るのじゃ大違いだけど、100で割るのと99で割るのじゃ差も小さくなるってもんですよね。当たり前です。

 

でも、フヘンスイテイリョウだとかイッチスイテイリョウだとか、がっちがちの専門用語を目の前にすると、その当たり前が見えなくなっちゃうから、困るんですよねえ。

*1:ついでに母集団のサイズも10000にしてます。