静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAで3群以上の比率の差の多重検定ができるマクロを作ってみた1

2ヶ月ほど前にこんな記事を書きました。

わざわざ「2群の」と断っているのは、関数の仕様だけの話ではありません。
この関数は、3群以上の比率の差の検定に使ってはいけないのです。

 

たとえば、こんなデータがあったとき、
f:id:cyclo-commuter:20180704093118p:plain
以下のように、
f:id:cyclo-commuter:20180704093359p:plain f:id:cyclo-commuter:20180704093452p:plain f:id:cyclo-commuter:20180704093544p:plain
組み合わせを変えて3回2群の比率の差の検定を繰り返せばよさそうなものですが、それは統計学的には御法度とされています。

何故かというと、多重性の問題が発生してしまうから、なのだそうです。 

 

多重性の問題

3群以上の場合に2群の比率の差の検定を繰り返すと、設定した有意水準よりも高い確率で有意となってしまう。

と聞いてピンとくる方はいるでしょうか?
私は最初、全然腑に落ちませんでした。

有意水準を0.05として)3群で3回検定を行うと、有意とならない確率は
(1-0.05)×(1-0.05)×(1-0.05)=0.86となり、有意水準が0.14に上昇する。
統計検定を理解せずに使っている人のために III - J-Stage

と言われても、なぜ同時確率になるのか?
群どうしを個別に検定したんだから、有意水準は0.05のままじゃないの? と。

でも、これが大間違いなんですね。
統計的仮説検定は、「ひとつの母集団から抽出された標本」を仮定していますから、群が増えるということは標本の抽出回数が増えることと同義です。

そして、有意水準0.05というのは、

本当は差がなくても差が出てしまう確率が、標本抽出20回につき1回

のことですから、群が増えれば増えるほど、どこかの群でたまたま差が生じる確率が高まるのは、道理というものです。
サイコロを1回振ったときと3回連続して振ったとき、どちらが1の目が出る確率が高いか、というのと同じですね。

 

では、3群以上の比率の差を検定したいときはどうするのか?
そんなときのために3群以上の比率の差の多重検定というものがあります。
次回は、そのやり方を学んでみたいと思います。