静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

偏相関係数は残差の相関係数だった1

統計検定2級試験、2018年6月 問2〔3〕の一番目の選択肢には、こう書かれています。

残差e1 と残差 e2相関係数は,人口の影響を除去した時の相関係数であり,常設映画館数と一般病院病床数の偏相関係数とよばれるものである。

これだけだと「残差e1 と残差 e2ってなんじゃい!」ってなってしまいますので、問題文をかいつまんで説明しますと、都道府県別の

  • 人口
  • 常設映画館数
  • 一般病院病床数

という3つの変数がありまして、

  • 人口と常設映画館数
  • 人口と一般病院病床数
  • 常設映画館数と一般病院病床数

のいずれも正の相関が認められます。でも、常設映画館数と一般病院病床数って関係があるとは思えませんよね?

見るからに、擬相関(見かけ上の相関)が疑われるわけです。

そこで問題では、常設映画館数と一般病院病床数を各々人口に回帰させる単回帰モデルを最小二乗法で推定した時の残差、つまり

 e1 = (常設映画館数) - (a + b × (人口))
 e2 = (一般病院病床数) - (c + d × (人口))

を求めて、e1 e2相関係数を計算したら、それは偏相関係数? と問うているわけです。

 

まあ例によってタイトルでネタバレしているわけですが、ちょっと驚くのは、このことをきちんと解説してくれている入門書が意外に少ないことです。

 

みんな大好き<赤本>

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

には、

相関係数とは,いま,変数1から変数まで三つの変数があるとき,変数3の影響を除いたあとの変数1と変数2の間の相関係数のことで,一般に r_{12・3}と書き

 r_{12・3}=\dfrac{r_{12}-r_{13}r_{23}}{\sqrt{1-r_{13}^2}\sqrt{1-r_{23}^2}}

と定義される.(p52-53)

とありますが、回帰分析と残差についてはまったく触れられていません。

このタイプの説明だと、こちらの本

マンガでわかるやさしい統計学 (池田書店のマンガでわかるシリーズ)

マンガでわかるやさしい統計学 (池田書店のマンガでわかるシリーズ)

が、『マンガでわかる~』系の中では唯一、偏相関係数について扱っていて、わかりやすさでは赤本の上を行っています。

 

<公式>なのに人気がないこちらの本

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

だと、

第3の変数 xの影響を除く方法として,(略)回帰直線を応用した方法を用いる.(p32)

というふうに、回帰分析の利用を匂わせますが、これ以上は突っ込まず、あとは赤本と同様の説明が続きます。

もう一歩踏み込んだ説明だと、この本

統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)

統計処理ポケットリファレンス ~Excel&R対応 (POCKET REFERENCE)

には、

 x,yから zの影響を回帰分析で除去し、残差部分だけの相関係数を考える。それが偏相関係数。(p186)

とありますが、回帰分析と残差への言及は見られるものの、概念の説明に留まってるので、正直印象は薄いですね。

私の手持ちの入門書の中で最も詳細にこのことを解説してくれているのは、こちらの本

統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)

統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)

になります。この本では偏相関係数の説明に丸々一章を費やし、「残差同士の相関」についても図解入りで念入りに解説されています。

ただ、ハードルを下げようとするあまり数式を避けすぎて、かえってわかりにくくしてしまっている感じがします。さらに、最高気温・最低気温・客数という3変数を例にしているのも、いまいちピンときません。*1

 

というわけで今回は、相関係数は残差どうしの相関係数であることを実感すべく、統計検定2級試験の2018年6月 問2〔3〕にトコトン向き合ってみようと思います。

*1:“最低気温もまた最高気温の影響を受けている”(p85)ってやっぱり変じゃないですか。アイスクリームショップを舞台にしてる都合上、しかたないんでしょうけども。