静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

サンプルサイズと標本数のはなし1

統計学の勉強を始めて驚いたことの一つは、実にたくさんの人がサンプルサイズと標本数を取り違えて用いていることです。*1
それも、「○○大学教授」みたいな立派な肩書を持つ人たちが、さも当たり前のように。

これは一体どうしたことでしょうか? 仮にも最高学府である大学で人に教えることを生業(なりわい)とする「学者様」が、間違いを平然と世に公開しているとは?

 

私が入門書を読んだり、参考になるWEBサイトを閲覧したり、大学のセンセイが学生向けにアップロードしたPDFを勝手にダウンロードしたりした範囲での推測になりますが、一つには、大学で統計学を教えたり、入門書を書いている人の多くが、実は統計学の専門家ではないことが挙げられます。

統計学は、入門書のまえがきなどによく書かれているように、それ自体「道具」なので、さまざまな学問分野における「分析の手法」として用いられます。
生物学、医学、薬学、心理学、工学、経済学、経営学社会学、教育学、etc・・・

で、各分野の専門家が自分たちの研究への必要から統計学を学び、今度は自分の学生たちにそれを教えているわけです。つまり、もともと「道具」として便利に使っているだけのものだから、センセイ方は統計学に関する用語の適切さを充分に吟味していない、のではないでしょうか?

 

そしてもう一つは、用語そのものの分かりにくさにあると思います。
「標本」という言葉を使いはじめたのは、積率相関係数でおなじみのピアソン、ではなくその友人のダーウィン派動物学者、W.F.R.ウェルドンさんだそうです。*2

そう、動物学者が言い出したのです!
標本を辞書で引けば、と出ますね。「標本」の一般的なイメージとしては、

f:id:cyclo-commuter:20180124140146j:plainこんなとか、

f:id:cyclo-commuter:20180124140240j:plainこんなのでしょう。

写真の恐竜骨格は標本数2体、カブトムシなら標本数3匹と数えますから、

f:id:cyclo-commuter:20180124144309j:plain

1,000人対象のアンケートデータなら、標本数1,000人と言いたくなるのも無理ありません。間違いですけど。

*1:総務省統計局ですら間違えてます。http://www.stat.go.jp/koukou/trivia/careers/career8.htm

*2:『マンガ統計学入門』アイリーン・マグネロ,ボリン・V・ルーン(講談社)90ページ