静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

サンプルサイズと標本数のはなし2

前回、サンプルサイズと標本数を取り違える人がとても多いという話をしました。

そこで今回、初学者も初学者、ズブの素人も同然のわたくしですが、僭越を承知でサンプルサイズと標本数という用語の正しい使い方を解説してみたいと思います。

 

標本はたいていの場合、母集団から無作為に抽出されるわけですが、母集団は分析対象となるヒト、モノ、コト、などなどのグループ全体を表します。

例えば、 

  • 内閣府が行なう国民生活に関する世論調査なら、母集団は「日本人」になります。*1 
  • 秋田県が行なう県民意識調査の母集団は「秋田県民」です。
  • フィッシャー先生が残したiris(アヤメ)データの母集団は、おそらく「イギリスに植生するアヤメ属の植物」でしょう。あるいは、もっと狭いエリアのかもしれませんが、ネットでは調べきれませんでした。

 

ここでは、ある架空の小学校の1年生を母集団として話を進めます。

この小学校には、1年生が合計で100人います。ここから10人を無作為抽出して身長を計測することにしました。

 ▼母集団:1年生100人f:id:cyclo-commuter:20180124160134j:plain

▼標本:ランダムに抽出された1年生10人
f:id:cyclo-commuter:20180124160325j:plain

このとき、標本数は「1」です。抽出された10人をひとかたまりとして1標本と数えます。で、10人という人数は「サンプルサイズ(標本の大きさ)」で表します。
「1標本、サンプルサイズ10」という言い方になりますね。

では、この中の一人ひとりはというと、「観測 observation」と呼ばれます。

▼観測:標本の中の個々
f:id:cyclo-commuter:20180124161458j:plain
なので、「この標本の観測数 number of observations は10人だ。」という言い方も有りです(のハズです)。
また、今回は身長を計測しますので、標本は身長という「変量(変数)」を持ちます。
さらに、測定された個々の身長(◯◯cm)を「観測値」と呼びます。

 さて、こうして10人の身長を計測し終えたとき、ある先生が言いました。
「6年生の身長も計測してみよう。」
ずいぶん行き当たりばったりな学校ですねえ。
ともあれ、今度は6年生を母集団として、9人を無作為抽出して身長を測ります。
(9人になったのはフリー素材集からやっと見つけ出せた画像の都合によりますが、この小学校の6年生は合計90人だ、として帳尻を合わせることにします。)

▼母集団:6年生90人
f:id:cyclo-commuter:20180125111229j:plain

▼標本:ランダムに抽出された6年生9人
f:id:cyclo-commuter:20180124164059j:plain

このとき、1年生と6年生の標本を合わせて、「2つの独立した母集団から抽出した2標本」という言い方をします。標本数は2、各標本のサンプルサイズ10010と909です。*2

1年生と6年生の平均身長の差を知りたいと思ったら、等分散を仮定した2標本による母平均の差の検定をすることになるでしょう。
男女を分けないのか、というツッコミが来そうですね。

もちろん、分けたほうがいいと思います。その場合は、各学年ごとの男女比に基づいた層化無作為抽出を行なうことになりますが、それについてはウィキペディア等でご確認ください。

*1:厳密には「全国の市区町村に居住する満18歳以上の日本国籍を有する者」です。

*2:2018/1/27間違いを直しました(汗)