『マンガでわかる統計学 回帰分析編』に従って単回帰分析の手順を追ってみた1 ~回帰係数のF検定~
前回紹介した『マンガでわかる統計学 回帰分析編』では、回帰分析の手順には以下の6つのステップがある、と説明されます。
- そもそも回帰式を求める意義があるかどうかを検討するために、説明変数と目的変数の点グラフ(引用者註:散布図のこと)を描く。
- 回帰式を求める。
- 回帰式の精度を確認する。
- 「回帰係数の検定」を行う。
- 母回帰Ax + B を推定する
- 予測する。
Step1 から Step3 までは、エクセルExcelの散布図で簡単に進めることができます。
Step3 の「回帰式の精度」って何じゃらほい? という感じですが、なんのことはない、寄与率=決定係数を確認しなさい、ということです。
Step3 までの手順については、こちらをご参照ください。
Step4 と Step5 は、データが母集団から抽出された標本データである場合に必要な手順になります。
Step4「回帰係数の検定」は、F 検定による方法とt 検定による方法があり、どちらも結果は同じになるのだそうです。t 検定の説明は『マンガでわかる統計学 回帰分析編』にはありませんが、すごく気になるので両方やってみます。
まずは F 検定から
第2章*1と同じデータを用意してみました。
こちらで単回帰分析を行い、回帰係数を F 検定してみます。
84ページには、F 検定統計量は
である、とあります。*2 ここで、
a 回帰係数
Sxx 最高気温xの偏差平方和
Se アイスティーの注文数yとyの予測値ŷの差の平方和(=残差平方和)
です。yの予測値ŷを求めるためには、切片bも必要ですね。
以上について、エクセルExcelで計算した結果がこちらになります。
84ページの計算結果と一致、有意水準0.05で帰無仮説「母回帰係数A=0」は棄却されました。
便利な関数の存在を知ったおかげで、だいぶ表がスッキリしましたね。
FとPについて、少し解説すると、
Fについて、COUNT(C2:C15)は観測数(個体の個数)、COUNTA(B1)は説明変数の数です。残差平方和Se を[観測数-説明変数の数-1]で割った値を「残差分散」と言います。*3「-1」は残差の平均が0になる分をマイナスするのだそうです。*4
また、Pについて、F.DIST.RTの引数は[F値,第1自由度,第2自由度]ですが、
第1自由度:説明変数の数(群間分散に対応)
第2自由度:観測数-説明変数の数-1(郡内分散に対応)
次回は、t 検定をしてみようと思います。