静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel分析ツールの重回帰分析のグラフも読んでみた

前回は、まさかまさかの衝撃のラストが待ち受けていたわけですが、分析ツール実行の際オプションをマシマシの全部乗せにしたので、まだ読んでいない出力、すなわち3種類のグラフがあります。

『マンガでわかる統計学 回帰分析編』にはその読み方は載っていませんが、他のものを参考にしてグラフの読み方を学んでみたいと思います。

 

残差グラフ

残差グラフは説明変数の数だけ作成されます。説明変数が2個なら残差グラフも2つです。
f:id:cyclo-commuter:20180206153653j:plain f:id:cyclo-commuter:20180206153706j:plain

残差グラフの読み方は、『統計学がわかる【回帰分析・因子分析編】』91ページが参考になりました。 

それによると、散布図は回帰直線で完全に予測できる部分:回帰成分(相関=1)残りの部分:残差(相関=0)に分解できる、というのです。

f:id:cyclo-commuter:20180206154800j:plain が、

f:id:cyclo-commuter:20180206154905j:plainf:id:cyclo-commuter:20180206153653j:plain
に分解されるわけです。
残差は観測値-予測値で求められますから、残差グラフは回帰直線がx軸になった状態、という見方もできますね。
そして、回帰分析は残差の相関が0であることを仮定している、というわけです。

以上から導かれる残差グラフの見方は、

残差の分布が相関ありげだったら、その回帰モデルは妥当ではない。
と断言はできませんが、その可能性を疑って検証する必要があるということですね。
どんな検証が必要か? それは次回触れてみたいと思います。 

 

観測値グラフ

観測値グラフも説明変数の数だけ作成されます。

f:id:cyclo-commuter:20180206161822j:plain f:id:cyclo-commuter:20180206161834j:plain

読み方はこちらの記事で勉強させていただきました。

観測値と予測値が近い位置にプロットされているほど回帰モデルの当てはまりがよい由。これはシンプルでわかりやすいですね。

 

正規確率グラフ

f:id:cyclo-commuter:20180206163149j:plain

読み方はこちらの記事で勉強させていただきました。

正規確率プロットは、値が正規分布に基づく場合にどのあたりに位置するかプロットしたものである。平均が0、標準偏差が1の正規分布に基づくデータで正規確率プロットを描くと、下記のようにまっすぐになる。なお、完全な正規分布に基づく場合は全ての点がオレンジの点線上に位置する。(引用者註:元記事の下にはグラフがあります)

正規確率プロットにより重回帰分析の妥当性を検証 - 日経BigData

残念ながら、分析ツールではオレンジ色の点線は描かれませんので、点の並びがどれだけまっすぐに近いかで、ふんわり正規性を判断するしかなさそうですね。