静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

標本の不偏分散はやっぱり母分散の不偏推定量だった2

前回、

不偏分散について学びなおすぞ!

と決意して、わりとたくさん持ってる『マンガで(ほにゃらら)統計学』を片っ端から読み返してみたけれども、全然わからなかった、というお話をしました。

 

今回は、もう少しハードな本とか親切なWEBサイトとかを駆使して、何が何でも不偏分散の本質を理解してやろうと思います。

 

ハードな入門書の代表格といえば、こちら。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

通称<赤本>です。名著の呼び声高いこの本でスッキリ解決!
といけばよかったのですが、練習問題9.4の解答(p295)に

 Y_i=X_i-\mu(i=1,2,\cdots)とおく. E(Y_i)=0,E(\bar Y)=0となる.そこで \sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2に対し, E(Y_i^2)=V(Y_i)=V(X_i)=\sigma^2,E(\bar Y^2)=V(\bar Y)=V(Y_i)/n=\sigma^2/nを用いる.

とあるだけで、ますます分からなくなるばかり。
数式で「ほら証明したぞ」と言われても、文系にはその意味は伝わらないのです。

 

そこで、概念的な説明を求めて読んでみたのがこちら。 

統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)

統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)

涌井夫妻の本としてはあまりメジャーじゃないほうでしょうか。 この本のp109には、

もし(引用者注:S^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2のこと)の分子を構成する X_1-\bar X,X_2-\bar X,\cdots,X_n-\bar Xに何か関係があり、結果として乗法に重複があったらどうであろう。このとき、の分子の「変動」を平らに均す・・・・・には、要素の個数 nからその重複分を減じた数、すなわち変動の自由度で、「変動」を割らなければならない。こうすることで不偏性が確保されるのだ。

とあります。さらに、

大きさ nの標本{ X_1,X_2,\cdots,X_N}においては X_1-\bar X,X_2-\bar X,\cdots,X_n-\bar Xには常に次の関係が成立する。

 (X_1-\bar X)+(X_2-\bar X)+\cdots+(X_n-\bar X)=0

実際、これは平均値の定義から明らかである。

と続けられます。

ふ~む。

どうやら「偏差の合計が0である」という関係があるせいで、関係の個数1をnから引いてやる必要がある、ということのようです。

でも、わたしの中の「なんで?」はまだ解消されません。

 

なので、もう一段かみ砕いて説明してくれるこの本に頼ってみましょう。 

統計のはなし―基礎・応用・娯楽 (Best selected business books)

統計のはなし―基礎・応用・娯楽 (Best selected business books)

初版1969年にもかかわらず、改訂増刷でいまだに売れ続けているこちらも名著ですね。

そのp108にこうあります。

この2つのデータが取り出された母集団の本当の平均が 4 であるという保証はどこにもありません.(略)本当の平均値が 4 よりひどく大きかったり小さかったりすることは,めったにないにしても,多分, 4 よりは多少は大きかったり小さかったりしているでしょう.(略)もし,本当の平均値が 4 より大きく 4.5 であるとすれば,母標準偏差

\sqrt{\dfrac{(3-4.5)^2+(5-4.5)^2}{2}}=1.12

と考えるのが公平なところです.また,本当の平均値が 4 より小さく 3 であるとすると

\sqrt{\dfrac{(3-3)^2+(5-3)^2}{2}}=1.41

とすべきでしょう.いずれにしても,本当の平均値が 4 でないとすればさきほど計算した

s=1

よりは大きな値が標準偏差として適当だ,ということになります.

おお!

得心が行きました!

母平均を標本平均で推定したときに生じる誤差が、不偏分散の分母を小さくする理由なのですね!

涌井夫妻の説明と食い違っているようにも見えますが、偏差の合計が0という関係だって、標本平均があってこそですし、きっとそういうことなのでしょう。

 

さあ、最後の?です。なぜマイナス1なのか?

それは、以下のWEBサイト

で教えてもらうことができました。

詳しくは上記サイトを読んでいただくとして、要するに

標本の偏差平方和は標本平均の分散 \dfrac{\sigma^2}{n} \times nの分だけ引いてやらなくてはいけないから。

ということだったんですね!

あれ? 赤本の証明に戻りましたよ?

 

じゃあ、せっかくですから、不偏分散の導出過程を追体験してみましょう。

 

  1.  Y_i=X_i-\mu(i=1,2,\cdots)は、標本の真の偏差 Y_iとする、ということですね。

  2. 偏差の合計は0ですから、とうぜん偏差の期待値と偏差の平均の期待値も0になりますね。 E(Y_i)=0,E(\bar Y)=0
    とはいえ私、この部分よくわかってません。だから何なんだという感じ。

  3.  \sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2は、式を分けて考えましょう。
    まずは \sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2から。
     \bar Y=\dfrac{\sum {X_i}-n\mu}{n}=\bar X-\muですから、
     \sum(X_i-\bar X)^2=\sum\begin{Bmatrix}(X_i-\mu)-(\bar X-\mu)\end{Bmatrix}^2=\sum(Y_i-\bar Y)^2

  4. 次に、 \sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2について。
    これは単純に2次方程式を開く式変換ですね。
     \sum(Y_i-\bar Y)^2=\sum(Y_i^2-2Y_i\cdot\bar Y+\bar Y^2)=\sum Y_i^2-2\sum Y_i\cdot\bar Y+\sum\bar Y^2
     \sum Y_i=\sum\bar Y=n\bar Yですから、
     \sum Y_i^2-2\sum Y_i\cdot\bar Y+\sum\bar Y^2=\sum Y_i^2-2n\bar Y^2+n\bar Y^2=\sum Y_i^2-n\bar Y^2

  5. 標本の偏差平方和 \sum Y_i^2-n\bar Y^2の期待値を見てみます。
     E\begin{bmatrix}\sum Y_i^2-n\bar Y^2\end{bmatrix}=E\begin{bmatrix}\sum Y_i^2\end{bmatrix}-E\begin{bmatrix}n\bar Y^2\end{bmatrix}=\sum E(Y_i^2)-nE(\bar Y^2)
     E(Y_i^2)=\sigma^2は、偏差の二乗の平均=分散ですから当然として、
     E(\bar Y^2)=\sigma^2/nも、 E(\bar Y^2)=E\begin{bmatrix}(\bar X-\mu)^2\end{bmatrix}で、これは標本平均の分散のことですから、

     V\begin{bmatrix}\bar{X}\end{bmatrix}=V\begin{bmatrix}\frac{X_1+X_2+ \cdots + X_n}{n}\end{bmatrix}=\frac{V\begin{bmatrix}X_1\end{bmatrix}+V\begin{bmatrix}X_2\end{bmatrix}+ \cdots +V\begin{bmatrix}X_n\end{bmatrix}}{n^2}=\frac{\sigma^2+\sigma^2+ \cdots +\sigma^2}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}

     \sum E(Y_i^2)-nE(\bar Y^2)=n\sigma^2-n\sigma^2/n=n\sigma^2-\sigma^2=(n-1)\sigma^2
    やっぱり \sigma^21コぶん小さくなるんですね!

  6. 不偏推定量の定義は  E(\hat \theta)=\theta ですから、不偏分散の期待値は
     E\begin{bmatrix}\dfrac{\sum(X_i-\bar X)^2}{n-1}\end{bmatrix}=E\begin{bmatrix}\dfrac{(n-1)\sigma^2}{n-1}\end{bmatrix}=\sigma^2
    となるんですねえ。

 

こんなことを考えついたフィッシャー先生は、ほんとにすごいなあ。