相関係数を求める数式をとことん噛み砕いてみた1
ピアソンの積率相関係数を求める数式がちっとも覚えられません。
いや、別に覚えなくたって、エクセルExcelでCORREL関数やPEARSON関数を使えば自動的に計算してくれるのだから、困りはしないんですが。
でも、統計学を学ぶにつけ度々感じる誤用のリスク(ていうかほとんど罠)を避けるためには、できるだけ数理を把握しておきたいところです。そして、数式を覚えられないのは、その理屈が理解できていない証左でしょう。
そこで、千里の道も一歩から。相関係数を求める数式について腰を据えて取り組んでみました。
まずは数式の確認です。
正の分散を持つ確率変数 X, Y が与えられたとき、共分散を σXY, 標準偏差をσX, σY とおく。このとき
を確率変数 X, Y の相関係数という。
日本語で書くと
ですね。共分散は、
共分散(きょうぶんさん、covariance)は、2 組の対応するデータ間での、平均からの偏差の積の平均値である。2 組の確率変数 X, Y の共分散 Cov(X, Y) は、E で期待値を表すことにして、
]]]
で定義する。
だいぶややこしいですが、
です。偏差積和というのは、
A, B, C それぞれについて、Xの偏差(X-Xの平均)× Yの偏差(Y-Yの平均)=偏差積を計算し、それを合計した値です。
よりイメージしやすくするためにグラフにしてみましょう。
Xの偏差
Yの偏差
A, B, C で丸の色を変えてあります。で、この二つを合体させると
こう。
黄色の象限にある丸のXとYをかけ合わせる(偏差積)と正の値になりますね。
(正×正=正、負×負=正)
上の例では超単純化してありますので、黄色の象限にしか丸がありませんが、実際のデータなら白い象限に入る丸もあったりするでしょう。例えばこんな感じ。
白い象限に丸がある場合は、XとYをかけ合わせる(偏差積)と負の値になります。
(正×負=負、負×正=負)
そこで、偏差積を全部足しあわせてしまいます(偏差積和)。
この偏差積和が『正の値なら「正の相関」、負の値なら「負の相関」』の正体です。
2番めの例では偏差積和が75で正の値ですから、DとEの偏差積が負の値でもトータルとして「正の相関」があることがわかります。で、分散が偏差平方和の平均であるように、偏差積和の平均が共分散。さらに、共分散を標準偏差の積で割ったのが相関係数、なのだそうです。
ところで、相関係数を求める数式は
と記述されることもありますが、これはごく簡単な式変換によるものです。
分母と分子でを約分すれば(2)の式になります。相関係数は、データの個数によることなく計算できるんですね。
さて、ここからが文系にはめちゃくちゃ難しいところです。
相関係数はなぜいい感じに-1から1の間に収まるのか?
これを証明する方法はいくつかあって、しかも数学を知る人には簡単なことらしいのですが、シュワルツの不等式とかモーメント法とか全くついていけません。*1
そこで、一番イメージのしやすそうなベクトルの内積を利用する方法を選んでチャレンジしてみることにしました。続きは次回。