静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

ｔ検定統計量が大きくなる（有意差が出やすい）条件を見た目にもわかりやすくしてみた

統計学

ｔ検定といえば母平均の差の検定のことですが、先日、これについて私が知る限り最もわかりやすい説明を見つけることができました。

ここまで噛み砕いて数理を説いてくれる解説には、そうはお目にかかれないと思います。

いい機会なので、おさらいを兼ねてｔ検定統計量を求める数式を（私自身が）覚えやすくなるよう、ひと工夫加えてみました。

１群のｔ検定

最もシンプルなパターンですね。

ｔ統計量は、標本平均を ${\bar{x}}$ 、標準偏差を ${s}$ 、サンプルサイズを ${n}$ として（ ${\mu_{0}}$ は定数）、

${\Large{t=\dfrac{\bar{x}-\mu_{0}}{\sqrt{\dfrac{s^2}{n}}}=\dfrac{\bar{x}-\mu_{0}}{\dfrac{s}{\sqrt{n}}}=\dfrac{\sqrt{n}(\bar{x}-\mu_{0})}{s}}}$

で求められます。ｔの値が大きいほど「有意に差がある」と判定されやすくなるのですが、このとき、ｔ値が大きくなる条件は３つ。

平均値の差が大きい
分散（標準偏差）が小さい
サンプルサイズが大きい

もちろん、この３条件が複数組み合わさる場合もあります。
いずれにせよ、相対的に分母が小さく分子が大きければｔ値は大きくなり、有意差は出やすい、というわけです。

２群のｔ検定（等分散を仮定しない）

対応のある２群の場合は、１群とほぼ同じなので割愛します。
また、等分散を仮定した検定は仮定しない検定で代替できるので、これまた割愛します。

変数 ${x}$ と ${y}$ のｔ統計量は、標本平均を ${\bar{x}}$ ， ${\bar{y}}$ 、不偏分散を ${s_{x}^2}$ ， ${s_{y}^2}$ 、サンプルサイズを ${n_{x}}$ ， ${n_{y}}$ として、

${\Large{t=\dfrac{\bar{x}-\bar{y}}{\sqrt{\dfrac{s_{x}^2}{n_{x}}+\dfrac{s_{y}^2}{n_{y}}}}}}$

で求められます。このとき、ｔ値が大きくなる条件は、

平均値の差が大きい
分散（標準偏差）が小さい
サンプルサイズが大きい

式変換でサンプルサイズを分子にもってこれなかった分だけややこしくなってますが、サンプルサイズが大きくなれば平均値の差に対して分母が小さくなるのがお分かりいただけると思います。