静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAで一般的なレポート向けのヒストグラムを出力する実行プログラムを作ってみた1

前回、『マンガでわかる統計学 素朴な疑問からゆる~く解説』を読んで、パラメトリックな分析の前にはヒストグラムで分布の正規性をチェックするぜ、と学んだわけですが、そんなにがっつりデータ解析しない場合でも、ほぼ単純集計のみのレポートとかでも度数分布表やヒストグラムを付けることってありますよね?

Excel2016からずいぶんとグラフ作成機能が強化されまして、ヒストグラムも超かんたんに作れるようになりました。
あらかじめ度数分布表を作っておかなくても、データ範囲を選択してメニューから[ヒストグラム]を選ぶだけで、エクセルExcelが瞬時に自動的に作成してくれます。
f:id:cyclo-commuter:20180117144336j:plain
下図は、分析ツールの「乱数発生」機能でサンプリング(分布は正規を選択)したN=100のデータを元に作成したヒストグラムです。頂上付近がやや連峰チックですが、この程度の歪みなら、正規性に問題なしとしてよいでしょう。
f:id:cyclo-commuter:20180117144926j:plain

こりゃ便利!
なのですが、分布をチェックするだけならよいのですが、上図をそのままレポートに載せるのは、いかにもかっこ悪いです。区間が16-26とか、中途半端すぎですし。

区間の問題は、軸のオプションから[ごみ箱のアンダーフロー]*1 にチェックを入れることで、いちおう解決できます。
f:id:cyclo-commuter:20180117151644j:plain

階級値がキリのいい値になりました。ついでに言うと、分布もきれいな単峰性になりましたね。ヒストグラムは、区間によって形を変えるので注意が必要です。

 ここからもう少し書式を整えてやれば、資料に載せられないこともないのですが、以下の理由で却下します。

  1. 最初の(=第1の)階級のみ閉区間で,その他すべての階級は右閉半開区間になっている。
    右閉半開、つまり下側境界値<X≦上側境界値(◯より大きい□以下)になっているということです。一般的には下側境界値≦X<上側境界値(◯以上□未満)ですから、誤解を受けやすいですよね。

  2. 軸の書式がかっこ悪い。
    [20,30]とかなってて、わかりにくいです。

以上2点については、以下の記事で勉強させていただきました。
BDAstyle様にはお世話になりっぱなしです。

で、上の記事によると

ver.2016の新グラフの場合,横軸は(略)変更不可,つまり任意の描き方[72-90など]に変更することはできない

 由ですので、この時点でExcel2016の新グラフは、選択肢から消えました。

*1:Office 2016 Proffesionalのビルド16.0.4639.1000では、[ごみ箱]と表示されます。最新のOffice365では[ビンのアンダーフロー]と表示されます。