静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAで『マンガでわかる統計学 因子分析編』の主成分分析の手順をマクロにしてみた1

以前、当ブログで『マンガでわかる統計学 因子分析編』を紹介した際、

この本の説明だけでは、主成分分析も因子分析もできないようになっているのが、なんとも残念です。
というのも、計算の肝に当たる「ラグランジュの未定乗数法」の説明がすっぱりと省略されてしまっているからです。
ならばとネットで調べてみましたが、著者が「数学的に難しい」と言うだけあって、計算の手順がまったく理解できませんでした。

『マンガでわかる統計学 因子分析編』を読み返してみた - 静粛に、只今統計勉強中

という具合に、いつも理解を深めるために行っているエクセルExcelでの計算やマクロの作成を断念してしまったのですが、コレスポンデンス分析の手順をマクロ化したときに、エクセルで操る!ヤコビ法による固有値計算、固有ベクトル計算
で公開されているソースコードを使わせていただくことで固有値問題がクリアできたので(ゴッドフット企画様、誠にありがとうございます)、 主成分分析と因子分析の学習を再開したいと思います。

 

まずは主成分分析から 

主成分分析とは?

ウィキペディアでは、

主成分分析(しゅせいぶんぶんせき、英: principal component analysis; PCA)とは、相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法。データの次元を削減するために用いられる。

主成分分析 - Wikipedia

と説明されますが、イマイチよくわからないですね。

一方、『マンガでわかる統計学 因子分析編』では、

「総合力トップの選出」のための分析手法なんだよ
『マンガでわかる統計学 因子分析編』高橋信・井上いろはオーム社)93ページ

と説明されます。こちらは分かりやすいですね。

どちらも、イメージしやすいように散布図を用いた2次元データでその特徴をビジュアル化しています。
Statistics
上の例では、回帰直線そっくりの直線が散布図上に引かれていますが、これが第1主成分。回帰直線との違いがおわかりいただけるでしょうか?
ちなみに、回帰直線は、こう。
Statistics

 (y-f(x))^2をベースに最小二乗法で導かれる回帰直線(Y軸に平行・X軸に垂直)とは違い、主成分の軸はプロットされている点に対して垂直です。
これは、第1主成分をデータの分散が最も大きなところに通されたとみなした直交座標系だから、のようです。
そして、第1主成分の軸に対して、座標が最も大きい観測(上の例では軸が右肩上がりなので、一番右の点)が総合力NO.1、なのだそうです。(より正確には、分析者がそのように判断すればそうなる、です。)
このとき、2次元のデータは第1主成分という1次元に次元が削減されています(縮約といいます。)
しかし、主成分は分析によって説明変数の数だけ求まるので*1、実は、縮約(第何主成分まで採用するか)は分析者の判断によって行われることになります。

なんだか雲を掴むような話ですが、『マンガでわかる統計学 因子分析編』には、

主成分分析では第1主成分と第2主成分だけを求めてそれを2次元の点グラフ(引用者註:散布図のこと)で表すのが一般的なんだ
『マンガでわかる統計学 因子分析編』高橋信・井上いろはオーム社)103ページ

とありますので、ここは素直に従っておきましょう。

*1:第2以降の主成分の求め方は『マンガでわかる統計学 因子分析編』126,127ページを参照してください。