静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

『マンガで学べる!統計解析』を読み返してみた

前回までの2回で、分散分析の多重比較を実行するプログラムを作成したわけですが、分散分析は平均値を比較する検定だから、データは正規分布に従っていなければならない、と言われます。*1
ところが一方で、分散分析は正規性からの逸脱には頑健なので、データが正規分布に従っていなかったとしても問題ない、と言われたりもします。*2
両陣営の解説を読んだ私は、正規分布に従わないデータでも(等分散性と独立性が仮定できれば)平均値の差の検定はできる。が、その平均値自体は当てにしてはいけない。と解釈しましたが、果たして合っているでしょうか?

 

正規分布に従わないデータの平均値が<代表値>として当てにならないことの解説は、既にいくつもあり、どれも具体例を交えて分かりやすく書かれています。それらの記事では、以下2点について指摘されることが多いようです。

  • 平均値は外れ値に弱い
  • 平均値は分布の歪みに弱い

『マンガで学べる!統計解析』もまた、具体例によって上記2点の特徴を示しますが、この本がすごいのは、平均値はそもそも真の値を仮定しているのだと、数理的に証明してみせてくれるところです。

マンガで学べる!統計解析

マンガで学べる!統計解析

 真の値と言うと、なんだか大げさに聞こえるかもしれませんが、品質管理を思い浮かべれば、イメージしやすいのではないでしょうか。
例えば、長さ10mmのねじを作る工場があったとして、製品の抜き取り検査をしたとき、ピッタリ10mmであることが理想でしょう。でも実際には、10.05mmだったり、9.96mmだったりすることもあるでしょう。できれば10mmピッタリに作りたいけれど、どうしても誤差は出てしまいます。
このとき、検査データをヒストグラムにすれば、10mmにごく近い値を頂点とした左右対称の山を描くはずです。
f:id:cyclo-commuter:20180108134644j:plain
つまり、正規分布ですね。↑こんな感じの分布です。*3

で、どうも人は平均値と聞いたときに、無意識にそれが山の頂点にあると思い込んでしまうようなのです。
よくあるのが、平均寿命の勘違い。
織田信長で有名な「人間五十年、下天の内を比ぶれば~」の舞(敦盛)の一節から、あの時代の日本人の平均寿命はだいたい50歳くらいだったのかなあ、と思う方は多いのではないでしょうか。実際はもっと低かったようですが、問題はそこではなく、徳川家康の寿命が75歳と聞いて「なんと長生きな! 激レア?」と思ってしまうこと。それが勘違いなんです。
平均寿命が50歳なら、50歳で死ぬ人が一番多い、すなわち寿命の分布の頂点にあると思いたくなりますが、実はそうではありません。山の頂きはもっと右(高年齢)側にあるのです。
f:id:cyclo-commuter:20180108150111g:plain こんな感じに。

基礎データのない戦国時代や江戸時代の話では証明はできませんが、日本人の平均寿命はわりと最近まで50歳を下回っていたようで、昭和22年の平均寿命は男性50.06歳、女性 53.96歳とあります。昭和25~27年で男性59.57歳、女性62.97歳。*4
ところが、別の資料を見ると*5、少し年代はズレますが、昭和25~30年の日本人女性の死亡者数分布の頂点は0歳! 2番目が79歳です。つまり、分布が左に歪んでいることに加え、昔の日本では新生児の死亡率がものすごく高くて、それが平均寿命を押し下げていた*6。寿命の分布は、実は二峰性だったのです。
いかがでしょう。平均寿命約63歳が、当時の寿命の真の姿をまったく反映していないことが、お分かりいただけたのではないでしょうか?

 

『マンガで学べる!統計解析』には、平均値のほか入門書でおなじみの項目が並びますが、数理的に一段深い印象があります。微分積分とかベクトルとか、高校数学をしっかり復習してから読みたい本ですね。絶版ですが・・・*7

*1:http://www-01.ibm.com/support/docview.wss?uid=swg21618756

*2:http://www4.kke.co.jp/minitab/support/newsletter/mt201506.html

*3:この図はエクセルExcelで1000個の乱数を発生させて作りました。

*4:http://www.mhlw.go.jp/toukei/saikin/hw/life/life11/dl/life11-02.pdf

*5:http://www.ipss.go.jp/seminar/j/seminar14/program/horiuchi.pdf6ページ

*6:現代でも0歳児の死亡率はやや高いです。

*7:古本は流通しているみたいです。私も古本で入手しました。