静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

本当はスゴイ!Excelの散布図 ~近似曲線を使い倒そう~

統計学がわかる【回帰分析・因子分析編】』*1を読んでいて、気になる点がありました。何が気になったのか?
第3章 その相関係数に意味はあるのか?→無相関検定
で使われているデータが、です。

統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)

統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)

第3章では、 例題として架空のアイスクリーム店に来店した客20人の年齢と1ヶ月あたりの来店数を変数とした標本が示されます。で、そのデータを元に散布図を作ると、

f:id:cyclo-commuter:20171219111753j:plain
となります。相関係数は0.267。本の中ではこのあと無相関検定が行われ、「相関があるとは言えない」と結論付けられるのですが・・・

確かにエクセルExcelで言うところの線形近似ではそうなりますが、

f:id:cyclo-commuter:20171219125153j:plain
非線形だったら?

f:id:cyclo-commuter:20171219125825j:plain
こんなん出ました。

決定係数は0.6014、相関係数なら0.7755です。「強い相関」があると言えそうですね。
無相関検定を行ったら、p<0.01で帰無仮説「母相関係数は0である」は棄却されました。このアイスクリーム店への1ヶ月あたり来店数は20歳をピークに、それより年齢が低くなるほど、または高くなるほど減っていく、という予測を立ててもよさそうです。

このように、統計学の入門書で解説される回帰分析線形回帰に限定されていることが多く、初学者は本当はもっと当てはまりの良いモデルがあることを見落としがちです。
でもエクセルExcelの散布図なら! クリックするだけで! 非線形回帰モデルをポンと提示してくれるのです。これは使わにゃ損ですよ!

f:id:cyclo-commuter:20171213150113j:plain f:id:cyclo-commuter:20171213150133j:plain

使い方は簡単。
散布図を作ったら、図の右上に表示される[+]から[近似曲線]→[その他のオプション]と辿り、当てはまりのよいモデルを探して近似曲線を順に選んでいくだけ。その際、[グラフに数式を表示する]と[グラフにR-2乗値を表示する]にもチェックを入れておくのをお忘れなく。

基本的にはR-2乗値(決定係数)の高いモデルを採用すればよいと思いますが、多項式回帰は次数を上げすぎると「過学習」の問題が発生してしまうので注意してください。

 

2018/1/31から4回にわたり、回帰分析の続きのプロセスについて書きました。

2018/1/25から2回かけて、サンプルサイズと標本数について書きました。

2018/2/21、帰無仮説を採択することについて書きました。

2019/9/2、R-2乗値(決定係数)が高くても回帰モデルが有効でない場合があるということについて書きました。 

 

*1:ちなみにこの本、わかりやすくてよいのですが、初学者でもわかる間違いもあります。私が気付いたのは以下の2つ。
p55には「帰無仮説~を受け入れます(採択します)。」とありますが、帰無仮説は「棄却されない」ことはあっても「採択される」ことはないことは『マンガでわかる統計学』でも詳しく解説されていました。
p57では標本の大きさ(サンプルサイズ)のことが標本数と書かれています。←ありがちな間違い