静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

相関係数を求める数式をとことん噛み砕いてみた2

前回からの続き、

相関係数はなぜいい感じに-1から1の間に収まるのか?

これを高1で数学と決別した文系オヤジが、ベクトルの内積を利用した方法で学びます。
わからないことが出てくる度にグーグル先生にお伺いを立てる泥縄式勉強法でやってますので、至らぬ点があることはご承知おきください。

 

ベクトルの内積を利用する方法にしたのは、以前読んだ『マンガで学べる!統計解析』でそのやり方が解説されていたからですが、

そのときは雰囲気だけ味わってよしとしていました。
いざ、ちゃんと理解しようと思って読み返すと、いやもうサッパリわからん。 
内積って? から始まり、余弦定理→三平方の定理三角関数まで遡ってもまだ腑に落ちません。そもそもベクトルとは? まで調べてようやくイメージが掴めてきました。

 

ベクトルって?

ベクトルというと、こちらにあるように{\overrightarrow{矢印}}をイメージするわけですが、

一方でこちらにあるように

1次元配列とてしても表せるようです。

ベクトルは、

f:id:cyclo-commuter:20180228135529p:plain 矢印でもあり、

f:id:cyclo-commuter:20180228135712p:plain  一次元配列でもある。*1

ここを抑えておかないと、その先の説明に付いていけなくなります。

 

コサイン{cosθ}って?

遠い昔の記憶がかすかに残る三角関数
f:id:cyclo-commuter:20180301094105p:plain
{cosθ} は、直角三角形をCの形になぞって、底辺の長さ÷斜辺の長さでしたね。

f:id:cyclo-commuter:20180228131531p:plain
ざっくり、半径1の円内で中心から円まで直線を引き、その終点からX軸と垂直になる直線を引いたとき、{cosθ=\frac{\overrightarrow{AC'}}{\overrightarrow{AB}}=\overrightarrow{AC'}} で表すとイメージしやすいです。

 

内積って?

の前に本当は、余弦定理って? が挟まるのですが、ここでは割愛します。
こちらに詳しい説明がありますので、知りたい方はどうぞ。

さらに、内積の詳しい解説がこちらにありますので、読んでおいてください。

ポイントは、内積の求め方には2種類ある、ということです。
内積が何であるかは、この際あまり重要ではありません。)

ベクトル a,b f:id:cyclo-commuter:20180228144453p:plain  があるとき、内積 {a \cdot b} は、

1つめの求め方

\displaystyle a \cdot b = \sum_{i=1}^{n}a_{i}b_{i}\tag{1}

2つめの求め方

{a \cdot b=|a||b|cosθ\tag{2}}

こちらは、余弦定理から導出される求め方になります。
ここで |a|  |b| はベクトル a,b の長さを表し、

{\displaystyle |a|=\sqrt{\sum_{i=1}^{n}a_{i}^2}\tag{3}}

{\displaystyle |b|=\sqrt{\sum_{i=1}^{n}b_{i}^2}\tag{4}}

で求められるのだそうです。

 

いよいよ相関係数

ここからがスペクタクルです。

(2)から、

{\displaystyle cosθ=\frac{a \cdot b}{|a||b|}\tag{5}}

成分(座標)がわからなくてもベクトルの要素から2片の長さとその間の角が計算できてしまうのが驚異的ですが、ここで(5)の分子に(1)、分母に(3)(4)を代入すると、

{cosθ=\frac{\displaystyle \sum_{i=1}^{n}a_{i}b_{i}}{\sqrt{\displaystyle \sum_{i=1}^{n}a_{i}^2}\sqrt{\displaystyle \sum_{i=1}^{n}b_{i}^2}}\tag{6}}

もうおわかりですね? a,b を{(x_{i}-\overline{x}),(y_{i}-\overline{y})} に置き換えれば、

r = cosθ=\dfrac{\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\displaystyle \sum_{i=1}^{n}(x_{i}-\overline{x})^2}\sqrt{\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^2}}\tag{7}

相関係数はやっぱり{cosθ}だった!*2

 

相関係数の尺度

だから相関係数は-1から1の間に収まるんですねー。
その様子をアニメーションGIFにしてみました。

f:id:cyclo-commuter:20180228162316g:plain

半径1の円において赤線の長さが{cosθ}相関係数の値になりますので、絶対値で1を超えることはありえません。

ああ、スッキリした! ここまでやれば、さすがにもう忘れないと思います。

ところで、相関係数は比例尺度ではないので「相関係数0.6は0.3の2倍の相関があるわけではない」ということは、しばしば注意されるところです。
f:id:cyclo-commuter:20180228163214g:plain
相関係数の値と相関の度合いを図にするとこんな感じになるでしょうか。
もしそうだとすれば、{cosθ} から {θ} に変換してあげれば、比例尺度になったりしませんかねえ?

*1:これをn次元のベクトルと言うそうです。ややこしいですね。

*2:そうなることはあらかじめ知っていたわけですが、ひとつひとつ納得しながら辿り着けると、ありがたみが違います。