静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

『マンガでわかる統計学 回帰分析編』に従って単回帰分析の手順を追ってみた1 ~回帰係数のF検定~

前回紹介した『マンガでわかる統計学 回帰分析編』では、回帰分析の手順には以下の6つのステップがある、と説明されます。

  1. そもそも回帰式を求める意義があるかどうかを検討するために、説明変数と目的変数の点グラフ(引用者註:散布図のこと)を描く。
  2. 回帰式を求める。
  3. 回帰式の精度を確認する。
  4. 「回帰係数の検定」を行う。
  5. 母回帰Ax + B を推定する
  6. 予測する。

『マンガでわかる統計学 回帰分析編』高橋信,井上いろは,トレンドプロオーム社62,94ページ

Step1 から Step3 までは、エクセルExcelの散布図で簡単に進めることができます。
Step3 の「回帰式の精度」って何じゃらほい? という感じですが、なんのことはない、寄与率=決定係数を確認しなさい、ということです。

Step3 までの手順については、こちらをご参照ください。

Step4 と Step5 は、データが母集団から抽出された標本データである場合に必要な手順になります。
f:id:cyclo-commuter:20180130165204g:plain

 Step4「回帰係数の検定」は、検定による方法と検定による方法があり、どちらも結果は同じになるのだそうです。検定の説明は『マンガでわかる統計学 回帰分析編』にはありませんが、すごく気になるので両方やってみます。

 

まずは F 検定から

第2章*1と同じデータを用意してみました。

f:id:cyclo-commuter:20180131092634j:plain

こちらで単回帰分析を行い、回帰係数を 検定してみます。

84ページには、検定統計量は

{ F=\dfrac{a^2}{\Bigl(\dfrac{1}{S_{xx}}\Bigr)}÷\dfrac{S_{e}}{個体の個数-2} }

である、とあります。*2 ここで、
a  回帰係数
Sxx  最高気温xの偏差平方和
S  アイスティーの注文数yとyの予測値ŷの差の平方和(=残差平方和)
です。yの予測値ŷを求めるためには、切片bも必要ですね。
以上について、エクセルExcelで計算した結果がこちらになります。

f:id:cyclo-commuter:20180131110817j:plain

84ページの計算結果と一致、有意水準0.05で帰無仮説「母回帰係数A=0」は棄却されました。
便利な関数の存在を知ったおかげで、だいぶ表がスッキリしましたね。

FとPについて、少し解説すると、

Fについて、COUNT(C2:C15)は観測数(個体の個数)、COUNTA(B1)は説明変数の数です。残差平方和Sを[観測数-説明変数の数-1]で割った値を「残差分散」と言います。*3「-1」は残差の平均が0になる分をマイナスするのだそうです。*4

また、Pについて、F.DIST.RTの引数は[F値,第1自由度,第2自由度]ですが、
第1自由度:説明変数の数(群間分散に対応)
第2自由度:観測数-説明変数の数-1(郡内分散に対応)

次回は、t 検定をしてみようと思います。

*1:『マンガでわかる統計学 回帰分析編』の、です。以下特に断りない場合は同書を指します。

*2:Mathjaxを導入しました。慣れないのでめちゃめちゃ時間がかかります。

*3:『統計処理ポケットリファレンス』涌井良幸,涌井貞美(技術評論社)204ページ

*4:『統計処理ポケットリファレンス』涌井良幸,涌井貞美(技術評論社)205ページ