偏相関係数は残差の相関係数だった3
前回、統計検定2級試験の2018年6月 問2で取り上げられたデータを使って、実際に、常設映画館数と一般病院病床数を各々人口に回帰させる単回帰モデルを最小二乗法で推定した時の残差、の相関係数が、偏相関係数の定義
で求められる値と一致することを確かめることができました。
今回は、このことが数理の上でも証明されることを確認してみたいと思います。
導出のプロセスを勉強にするにあたっては、こちら
のPDF「VI-1-2. 偏相関分析」を参考にさせていただきました。ありがとうございました。
最初に、3つの変数を偏差(平均値を差し引いた値)に変えてしまいます。
これで、各データのベクトルはそのままに、平均が0になるわけですね。
3変数の偏差をそれぞれ とすると、上の式は以下のとおりとなります。
また、残差を求める数式を
とします。
このとき、は、それぞれ以下であることが知られています。(ただし、の偏差積和、の偏差平方和を表し、以下同様です。)
よって、 残差は、それぞれ
と表すことができます。
しかし、偏差であるは平均が0なので、
というふうに、あらかじめ切片を除いておけます。
最初に変数を偏差にしておくことで、式変換がめちゃめちゃ楽になるわけですね!
求めたいのは残差の相関係数ですから、
となります。分子と分母をそれぞれ式変換していきます。
まず分子から。の偏差積和は、
と表すことができます。が、の表記は煩雑なので、これ以降は省略させていただきます。
右辺のカッコを開くと、
ここでも、変数を偏差にしておいたことが効いてきます。
次に、分母のの中を式変換します。
同様に、
ここで困ったことに、黒倉先生のPDFでは線形代数(行列式)を使って、私が求めたいのとは別の数式に導いてしまいます。*1
なので、今度はこちらのWEBサイト
を参考にさせていただきます。といっても最後のほうだけですが・・・
さて、分子をさらに式変換します。
を掛けることで、相関係数を含む式に変換することができました!
同様に、分母も。
以上をを求める式に代入すると、
というわけで、なんとか証明できました!
いやあ、苦労した~。
こうして自分の手で確認してみると、赤本や『統計学基礎』って不親切だよな、とか思っちゃいますね。
偏相関係数について言えば、回帰分析の説明の前に持ってくるのは大間違いだよ! と声を大にして言いたいですねえ。