静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAでraw dataからバブルチャートを作るマクロを作ってみた1

散布図を作ろうとしたらこんなことに!
f:id:cyclo-commuter:20171213160438j:plain
というお話を、以前Excel VBAでスピアマンの順位相関係数を求める関数を作ってみた2 - 静粛に、只今統計勉強中でしましたが、それでもグラフを作りたい欲求が抑えられないことってないですか? 私はあります。そんなときはバブルチャートを作ってみよう!
『マンガでわかる統計学 回帰分析編』本文の最後にありました。
そこで、今回はバブルチャートのおはなし。

 

と、その前に変数の尺度水準について軽くおさらいしておきましょう。f:id:cyclo-commuter:20171218103152j:plain f:id:cyclo-commuter:20171218103205j:plain
各用語の詳細は、すみませんが「尺度水準」でググっていただくか、以前紹介した『マンガでわかる統計学』などの参考書をご参照ください。
散布図が残念なことになってしまうのは変数が離散値で、かつ観測値の範囲が狭いときが多いです。尺度で言うと名義順序、選択肢型のアンケートデータはほぼ該当しますね。また、量的変数でも離散値で範囲が狭ければ起こりえます。10点満点の小テストとかがそれに当たりますね。

 

こうしたデータの2変数間の相関をビジュアルに確認したいとき、バブルチャートは割りと便利なのですが、散布図と違ってraw dataから作れないのが面倒ですよね。

前回までロジスティック回帰分析の勉強でお世話になったノルンスペシャルのデータで試してみると、
f:id:cyclo-commuter:20180215094152p:plain
水曜or土曜or日曜とノルンスペシャルの販売状況の相関を見ようと散布図を作っても、全くダメですね。これをこのままバブルチャートにしても、
f:id:cyclo-commuter:20180215094439p:plain
丸が大きくなるだけです。

バブルチャートを作るには、データを集計しなければなりません。
f:id:cyclo-commuter:20180215103302j:plain

右側の集計データを元にバブルチャートを作れば、
f:id:cyclo-commuter:20180215100637p:plain
ご覧のとおりです。水曜or土曜or日曜のほうがその他の曜日よりノルンスペシャルが売れることが見て取れますね。

最高気温でも試してみると、
f:id:cyclo-commuter:20180215102816j:plain これが、

f:id:cyclo-commuter:20180215103355j:plain こう。

今度はゴチャゴチャして分かりづらいですね。ちょっとレイアウトを変更してあげると、
f:id:cyclo-commuter:20180215103456j:plain こう。
最高気温が高いほうが売れやすい傾向はありそうです。

 

手間といってもちょっとしたことですが、この「ちょっと」も繰り返しになるとしんどくなってきます。
そこで、VBAを使って集計からグラフ作成、それとある程度のレイアウト調整までを自動化してみたいと思います。