標本の不偏分散はやっぱり母分散の不偏推定量だった２

前回、

不偏分散について学びなおすぞ！

と決意して、わりとたくさん持ってる『マンガで（ほにゃらら）統計学』を片っ端から読み返してみたけれども、全然わからなかった、というお話をしました。

今回は、もう少しハードな本とか親切なＷＥＢサイトとかを駆使して、何が何でも不偏分散の本質を理解してやろうと思います。

ハードな入門書の代表格といえば、こちら。

統計学入門 (基礎統計学?)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (79件) を見る

通称＜赤本＞です。名著の呼び声高いこの本でスッキリ解決！
といけばよかったのですが、練習問題9.4の解答（p295）に

$Y_i=X_i-\mu(i=1,2,\cdots)$ とおく． $E(Y_i)=0,E(\bar Y)=0$ となる．そこで $\sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2$ に対し， $E(Y_i^2)=V(Y_i)=V(X_i)=\sigma^2,E(\bar Y^2)=V(\bar Y)=V(Y_i)/n=\sigma^2/n$ を用いる．

とあるだけで、ますます分からなくなるばかり。
数式で「ほら証明したぞ」と言われても、文系にはその意味は伝わらないのです。

そこで、概念的な説明を求めて読んでみたのがこちら。

統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)

作者: 涌井良幸,涌井貞美
出版社/メーカー: 技術評論社
発売日: 2013/02/02
メディア: 単行本（ソフトカバー）
クリック: 7回
この商品を含むブログ (1件) を見る

涌井夫妻の本としてはあまりメジャーじゃないほうでしょうか。この本のp109には、

もし２（引用者注： $S^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(X_i-\bar X)^2$ のこと）の分子を構成する $X_1-\bar X,X_2-\bar X,\cdots,X_n-\bar X$ に何か関係があり、結果として乗法に重複があったらどうであろう。このとき、２の分子の「変動」を平らに均す・・・・・には、要素の個数 $n$ からその重複分を減じた数、すなわち変動の自由度で、「変動」を割らなければならない。こうすることで不偏性が確保されるのだ。

とあります。さらに、

大きさ $n$ の標本{ $X_1,X_2,\cdots,X_N$ }においては $X_1-\bar X,X_2-\bar X,\cdots,X_n-\bar X$ には常に次の関係が成立する。

$(X_1-\bar X)+(X_2-\bar X)+\cdots+(X_n-\bar X)=0$

実際、これは平均値の定義から明らかである。

と続けられます。

ふ～む。

どうやら「偏差の合計が０である」という関係があるせいで、関係の個数１を $n$ から引いてやる必要がある、ということのようです。

でも、わたしの中の「なんで？」はまだ解消されません。

なので、もう一段かみ砕いて説明してくれるこの本に頼ってみましょう。

統計のはなし―基礎・応用・娯楽 (Best selected business books)

作者: 大村平
出版社/メーカー: 日科技連出版社
発売日: 2002/05/01
メディア: 単行本
購入: 25人クリック: 386回
この商品を含むブログ (20件) を見る

初版1969年にもかかわらず、改訂増刷でいまだに売れ続けているこちらも名著ですね。

そのp108にこうあります。

この２つのデータが取り出された母集団の本当の平均が 4 であるという保証はどこにもありません．（略）本当の平均値が 4 よりひどく大きかったり小さかったりすることは，めったにないにしても，多分， 4 よりは多少は大きかったり小さかったりしているでしょう．（略）もし，本当の平均値が 4 より大きく 4.5 であるとすれば，母標準偏差は
$\sqrt{\dfrac{(3-4.5)^2+(5-4.5)^2}{2}}=1.12$
と考えるのが公平なところです．また，本当の平均値が 4 より小さく 3 であるとすると
$\sqrt{\dfrac{(3-3)^2+(5-3)^2}{2}}=1.41$
とすべきでしょう．いずれにしても，本当の平均値が 4 でないとすればさきほど計算した
$s=1$
よりは大きな値が標準偏差として適当だ，ということになります．

おお！

得心が行きました！

母平均を標本平均で推定したときに生じる誤差が、不偏分散の分母を小さくする理由なのですね！

涌井夫妻の説明と食い違っているようにも見えますが、偏差の合計が０という関係だって、標本平均があってこそですし、きっとそういうことなのでしょう。

さあ、最後の？です。なぜマイナス１なのか？

それは、以下のＷＥＢサイト

で教えてもらうことができました。

詳しくは上記サイトを読んでいただくとして、要するに

標本の偏差平方和は標本平均の分散 $\dfrac{\sigma^2}{n} \times n$ の分だけ引いてやらなくてはいけないから。

ということだったんですね！

あれ？　赤本の証明に戻りましたよ？

じゃあ、せっかくですから、不偏分散の導出過程を追体験してみましょう。

$Y_i=X_i-\mu(i=1,2,\cdots)$ は、標本の真の偏差を $Y_i$ とする、ということですね。
偏差の合計は０ですから、とうぜん偏差の期待値と偏差の平均の期待値も０になりますね。 $E(Y_i)=0,E(\bar Y)=0$
とはいえ私、この部分よくわかってません。だから何なんだという感じ。
$\sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2$ は、式を分けて考えましょう。
まずは $\sum(X_i-\bar X)^2=\sum(Y_i-\bar Y)^2$ から。
$\bar Y=\dfrac{\sum {X_i}-n\mu}{n}=\bar X-\mu$ ですから、
$\sum(X_i-\bar X)^2=\sum\begin{Bmatrix}(X_i-\mu)-(\bar X-\mu)\end{Bmatrix}^2=\sum(Y_i-\bar Y)^2$
次に、 $\sum(Y_i-\bar Y)^2=\sum Y_i^2-n\bar Y^2$ について。
これは単純に２次方程式を開く式変換ですね。
$\sum(Y_i-\bar Y)^2=\sum(Y_i^2-2Y_i\cdot\bar Y+\bar Y^2)=\sum Y_i^2-2\sum Y_i\cdot\bar Y+\sum\bar Y^2$
$\sum Y_i=\sum\bar Y=n\bar Y$ ですから、
$\sum Y_i^2-2\sum Y_i\cdot\bar Y+\sum\bar Y^2=\sum Y_i^2-2n\bar Y^2+n\bar Y^2=\sum Y_i^2-n\bar Y^2$
標本の偏差平方和 $\sum Y_i^2-n\bar Y^2$ の期待値を見てみます。
$E\begin{bmatrix}\sum Y_i^2-n\bar Y^2\end{bmatrix}=E\begin{bmatrix}\sum Y_i^2\end{bmatrix}-E\begin{bmatrix}n\bar Y^2\end{bmatrix}=\sum E(Y_i^2)-nE(\bar Y^2)$
$E(Y_i^2)=\sigma^2$ は、偏差の二乗の平均=分散ですから当然として、
$E(\bar Y^2)=\sigma^2/n$ も、 $E(\bar Y^2)=E\begin{bmatrix}(\bar X-\mu)^2\end{bmatrix}$ で、これは標本平均の分散のことですから、

$V\begin{bmatrix}\bar{X}\end{bmatrix}=V\begin{bmatrix}\frac{X_1+X_2+ \cdots + X_n}{n}\end{bmatrix}=\frac{V\begin{bmatrix}X_1\end{bmatrix}+V\begin{bmatrix}X_2\end{bmatrix}+ \cdots +V\begin{bmatrix}X_n\end{bmatrix}}{n^2}=\frac{\sigma^2+\sigma^2+ \cdots +\sigma^2}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$

$\sum E(Y_i^2)-nE(\bar Y^2)=n\sigma^2-n\sigma^2/n=n\sigma^2-\sigma^2=(n-1)\sigma^2$
やっぱり $\sigma^2$ １コぶん小さくなるんですね！
不偏推定量の定義は　 $E(\hat \theta)=\theta$ 　ですから、不偏分散の期待値は
$E\begin{bmatrix}\dfrac{\sum(X_i-\bar X)^2}{n-1}\end{bmatrix}=E\begin{bmatrix}\dfrac{(n-1)\sigma^2}{n-1}\end{bmatrix}=\sigma^2$
となるんですねえ。