標本の不偏分散はやっぱり母分散の不偏推定量だった2
前回、
不偏分散について学びなおすぞ!
と決意して、わりとたくさん持ってる『マンガで(ほにゃらら)統計学』を片っ端から読み返してみたけれども、全然わからなかった、というお話をしました。
今回は、もう少しハードな本とか親切なWEBサイトとかを駆使して、何が何でも不偏分散の本質を理解してやろうと思います。
ハードな入門書の代表格といえば、こちら。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (79件) を見る
通称<赤本>です。名著の呼び声高いこの本でスッキリ解決!
といけばよかったのですが、練習問題9.4の解答(p295)に
とおく.となる.そこでに対し,を用いる.
とあるだけで、ますます分からなくなるばかり。
数式で「ほら証明したぞ」と言われても、文系にはその意味は伝わらないのです。
そこで、概念的な説明を求めて読んでみたのがこちら。
統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)
- 作者: 涌井良幸,涌井貞美
- 出版社/メーカー: 技術評論社
- 発売日: 2013/02/02
- メディア: 単行本(ソフトカバー)
- クリック: 7回
- この商品を含むブログ (1件) を見る
涌井夫妻の本としてはあまりメジャーじゃないほうでしょうか。 この本のp109には、
もし2(引用者注:のこと)の分子を構成するに何か関係があり、結果として乗法に重複があったらどうであろう。このとき、2の分子の「変動」を
平らに均す には、要素の個数からその重複分を減じた数、すなわち変動の自由度で、「変動」を割らなければならない。こうすることで不偏性が確保されるのだ。
とあります。さらに、
大きさの標本{}においてはには常に次の関係が成立する。
実際、これは平均値の定義から明らかである。
と続けられます。
ふ~む。
どうやら「偏差の合計が0である」という関係があるせいで、関係の個数1をから引いてやる必要がある、ということのようです。
でも、わたしの中の「なんで?」はまだ解消されません。
なので、もう一段かみ砕いて説明してくれるこの本に頼ってみましょう。
統計のはなし―基礎・応用・娯楽 (Best selected business books)
- 作者: 大村平
- 出版社/メーカー: 日科技連出版社
- 発売日: 2002/05/01
- メディア: 単行本
- 購入: 25人 クリック: 386回
- この商品を含むブログ (20件) を見る
初版1969年にもかかわらず、改訂増刷でいまだに売れ続けているこちらも名著ですね。
そのp108にこうあります。
この2つのデータが取り出された母集団の本当の平均が 4 であるという保証はどこにもありません.(略)本当の平均値が 4 よりひどく大きかったり小さかったりすることは,めったにないにしても,多分, 4 よりは多少は大きかったり小さかったりしているでしょう.(略)もし,本当の平均値が 4 より大きく 4.5 であるとすれば,母標準偏差は
と考えるのが公平なところです.また,本当の平均値が 4 より小さく 3 であるとすると
とすべきでしょう.いずれにしても,本当の平均値が 4 でないとすればさきほど計算した
よりは大きな値が標準偏差として適当だ,ということになります.
おお!
得心が行きました!
母平均を標本平均で推定したときに生じる誤差が、不偏分散の分母を小さくする理由なのですね!
涌井夫妻の説明と食い違っているようにも見えますが、偏差の合計が0という関係だって、標本平均があってこそですし、きっとそういうことなのでしょう。
さあ、最後の?です。なぜマイナス1なのか?
それは、以下のWEBサイト
で教えてもらうことができました。
詳しくは上記サイトを読んでいただくとして、要するに
標本の偏差平方和は標本平均の分散の分だけ引いてやらなくてはいけないから。
ということだったんですね!
あれ? 赤本の証明に戻りましたよ?
じゃあ、せっかくですから、不偏分散の導出過程を追体験してみましょう。
- は、標本の真の偏差をとする、ということですね。
- 偏差の合計は0ですから、とうぜん偏差の期待値と偏差の平均の期待値も0になりますね。
とはいえ私、この部分よくわかってません。だから何なんだという感じ。 - は、式を分けて考えましょう。
まずはから。
ですから、 - 次に、について。
これは単純に2次方程式を開く式変換ですね。
ですから、 - 標本の偏差平方和の期待値を見てみます。
は、偏差の二乗の平均=分散ですから当然として、
も、で、これは標本平均の分散のことですから、
やっぱり1コぶん小さくなるんですね! - 不偏推定量の定義は ですから、不偏分散の期待値は
となるんですねえ。
こんなことを考えついたフィッシャー先生は、ほんとにすごいなあ。