静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

相関係数を求める数式をとことん噛み砕いてみた1

ピアソンの積率相関係数を求める数式がちっとも覚えられません。

いや、別に覚えなくたって、エクセルExcelCORREL関数やPEARSON関数を使えば自動的に計算してくれるのだから、困りはしないんですが。
でも、統計学を学ぶにつけ度々感じる誤用のリスク(ていうかほとんど罠)を避けるためには、できるだけ数理を把握しておきたいところです。そして、数式を覚えられないのは、その理屈が理解できていない証左でしょう。
そこで、千里の道も一歩から。相関係数を求める数式について腰を据えて取り組んでみました。

 

まずは数式の確認です。

正の分散を持つ確率変数 X, Y が与えられたとき、共分散を σXY, 標準偏差をσX, σY とおく。このとき

{ρ =\frac{σXY}{σXσY}}

を確率変数 X, Y の相関係数という。

相関係数 - Wikipedia

日本語で書くと

{相関係数 =\frac{共分散}{Xの標準偏差×Yの標準偏差}\tag{1}}

ですね。共分散は、

共分散(きょうぶんさん、covariance)は、2 組の対応するデータ間での、平均からの偏差の積の平均値である。2 組の確率変数 X, Y の共分散 Cov(X, Y) は、E で期待値を表すことにして、

Cov(X,Y) =E[(X-E[X])(Y-E[Y])]

で定義する。

共分散 - Wikipedia

 だいぶややこしいですが、

 {共分散 =\frac{X,Yの偏差積和}{データの個数}}

です。偏差積和というのは、
f:id:cyclo-commuter:20180223160847j:plain
A, B, C それぞれについて、Xの偏差(X-Xの平均)× Yの偏差(Y-Yの平均)=偏差積を計算し、それを合計した値です。
よりイメージしやすくするためにグラフにしてみましょう。

f:id:cyclo-commuter:20180223161225p:plain Xの偏差

f:id:cyclo-commuter:20180223161447p:plain Yの偏差

A, B, C で丸の色を変えてあります。で、この二つを合体させると

f:id:cyclo-commuter:20180223161957p:plain こう。

黄色の象限にある丸のXとYをかけ合わせる(偏差積)との値になりますね。
××
上の例では超単純化してありますので、黄色の象限にしか丸がありませんが、実際のデータなら白い象限に入る丸もあったりするでしょう。例えばこんな感じ。
f:id:cyclo-commuter:20180227155733p:plain
白い象限に丸がある場合は、XとYをかけ合わせる(偏差積)との値になります。
××
そこで、偏差積を全部足しあわせてしまいます(偏差積和)。

この偏差積和が『の値なら「の相関」、の値なら「の相関」』の正体です。

2番めの例では偏差積和が75での値ですから、DとEの偏差積の値でもトータルとして「の相関」があることがわかります。で、分散が偏差平方和の平均であるように、偏差積和の平均が共分散。さらに、共分散標準偏差の積で割ったのが相関係数、なのだそうです。

ところで、相関係数を求める数式は

{r = \frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})^2}\sqrt{\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^2}}\tag{2}}

と記述されることもありますが、これはごく簡単な式変換によるものです。

{ r = \frac{\dfrac{1}{n}\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\dfrac{1}{n}\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})^2}\sqrt{\dfrac{1}{n}\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^2}}}

{=\frac{\dfrac{1}{n}\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\dfrac{1}{n}}^2\sqrt{\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})^2}\sqrt{\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^2}}}

分母と分子で{\frac{1}{n}}を約分すれば(2)の式になります。相関係数は、データの個数によることなく計算できるんですね。

 

さて、ここからが文系にはめちゃくちゃ難しいところです。

相関係数はなぜいい感じに-1から1の間に収まるのか?

これを証明する方法はいくつかあって、しかも数学を知る人には簡単なことらしいのですが、シュワルツの不等式とかモーメント法とか全くついていけません。*1

そこで、一番イメージのしやすそうなベクトルの内積を利用する方法を選んでチャレンジしてみることにしました。続きは次回。

*1:ピアソンはモーメント法を基礎として積率相関係数を求める数式を構築したそうです。(『マンガ統計学入門』アイリーン・マグネロ他(講談社)142ページ)