静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

偏相関係数は残差の相関係数だった2

前回は、手持ちの入門書で偏相関係数のことを学びなおそうとしたけれども、いま一つピンとこなかった、というお話をしました。

そこで今回は、統計検定2級試験の2018年6月 問2で取り上げられているデータにとことん向き合うことで、相関係数は残差どうしの相関係数であることを実感したい! と思います。

 

まず最初にデータを手に入れます。試験問題には、データ元として

資料:総務省「社会生活統計指標一都道府県の指標一 2015」

と書かれていますので、総務省のWEBサイト

から、以下3つのファイルをダウンロードします。

f:id:cyclo-commuter:20190624141735p:plain

3つのEXCELファイルを全て開いて、2010年における人口・常設映画館数・一般病院病床数を新しいワークシートにコピペします。

f:id:cyclo-commuter:20190624142640p:plain

単位を問題に合わせて、ついでに表を少し整えましょう。

f:id:cyclo-commuter:20190624144106p:plain

問題にならって、散布図を作ります。

f:id:cyclo-commuter:20190624145314p:plain

f:id:cyclo-commuter:20190624145352p:plain

f:id:cyclo-commuter:20190624145444p:plain

これら3変数の相関係数は以下のとおりとなります。

f:id:cyclo-commuter:20190624150038p:plain


さあ、ここからが本題です!

常設映画館数と一般病院病床数を各々人口に回帰させる単回帰モデルを最小二乗法で推定した時の残差うしの相関係数を計算しなければならないのですから、それぞれの残差を導くために、回帰式の切片と傾きの値が必要になります。

  •  e1 = (常設映画館数) - a + b × (人口)
  •  e2 = (一般病院病床数) - c + d × (人口)

EXCELでは、単回帰モデルの切片はINTERCEPT関数で、傾きはSLOPE関数で求めることができます。

f:id:cyclo-commuter:20190624155431p:plain
この値を上の式に当てはめて、残差の表を作ります。

f:id:cyclo-commuter:20190624153920p:plain

さらに、この表から e1とe2の散布図を作ります。

f:id:cyclo-commuter:20190624154102p:plain

ようやく、試験問題に載っているグラフが全て整いました。

 

では、  e1とe2相関係数が、偏相関係数の定義
 r_{12・3}=\dfrac{r_{12}-r_{13}r_{23}}{\sqrt{1-r_{13}^2}\sqrt{1-r_{23}^2}}
で求められる値と一致するか、確かめてみましょう。

f:id:cyclo-commuter:20190624155317p:plain

おお! ぴったり一致しました!*1

*1:ちなみに、P_Correl関数は、私がVBAで作ったユーザー定義関数です。詳しくはこちら