静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

t検定統計量が大きくなる(有意差が出やすい)条件を見た目にもわかりやすくしてみた

t検定といえば母平均の差の検定のことですが、先日、これについて私が知る限り最もわかりやすい説明を見つけることができました。

ここまで噛み砕いて数理を説いてくれる解説には、そうはお目にかかれないと思います。

いい機会なので、おさらいを兼ねてt検定統計量を求める数式を(私自身が)覚えやすくなるよう、ひと工夫加えてみました。

 

1群のt検定

最もシンプルなパターンですね。

t統計量は、標本平均を{\bar{x}}標準偏差{s}、サンプルサイズを{n}として({\mu_{0}}は定数)、

{\Large{t=\dfrac{\bar{x}-\mu_{0}}{\sqrt{\dfrac{s^2}{n}}}=\dfrac{\bar{x}-\mu_{0}}{\dfrac{s}{\sqrt{n}}}=\dfrac{\sqrt{n}(\bar{x}-\mu_{0})}{s}}}

で求められます。tの値が大きいほど「有意に差がある」と判定されやすくなるのですが、このとき、t値が大きくなる条件は3つ。

  1. 平均値の差が大きい
    f:id:cyclo-commuter:20180301140651p:plain

  2. 分散(標準偏差)が小さい
    f:id:cyclo-commuter:20180301141137p:plain

  3. サンプルサイズが大きい

    f:id:cyclo-commuter:20180301141402p:plain

もちろん、この3条件が複数組み合わさる場合もあります。
いずれにせよ、相対的に分母が小さく分子が大きければt値は大きくなり、有意差は出やすい、というわけです。 

 

2群のt検定(等分散を仮定しない)

対応のある2群の場合は、1群とほぼ同じなので割愛します。
また、等分散を仮定した検定は仮定しない検定で代替できるので、これまた割愛します。

変数{x}{y}のt統計量は、標本平均を{\bar{x}}{\bar{y}}、不偏分散を{s_{x}^2}{s_{y}^2}、サンプルサイズを{n_{x}}{n_{y}}として、

{\Large{t=\dfrac{\bar{x}-\bar{y}}{\sqrt{\dfrac{s_{x}^2}{n_{x}}+\dfrac{s_{y}^2}{n_{y}}}}}}

で求められます。このとき、t値が大きくなる条件は、

  1. 平均値の差が大きい
    f:id:cyclo-commuter:20180301152854p:plain

  2. 分散(標準偏差)が小さい
    f:id:cyclo-commuter:20180301153112p:plain

  3. サンプルサイズが大きい
    f:id:cyclo-commuter:20180301153551p:plain

式変換でサンプルサイズを分子にもってこれなかった分だけややこしくなってますが、サンプルサイズが大きくなれば平均値の差に対して分母が小さくなるのがお分かりいただけると思います。