静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAで2群の比率の差の検定ができる関数を作ってみた

2群の比率の差の検定というものがあります。
独立性の検定(カイ二乗検定で代用できるせいか、あまりメジャーではないようで、今まで読んだ入門書には解説が載っていませんでした。

視聴率とか値上がり率とか、世の中には○○率があふれていて、年ごと/月ごと/週ごと/日ごとの○○率を比較してみたいといったニーズは結構ありそうなのに、あまりフィーチャーされないのは、ちょっと不思議ですね。

続きを読む

『まんがと図解でわかる統計学』を読んでみた

タイトルからある程度察しがつくかもしれませんが、この本、マンガパートの割合は決して大きくはありません。全223ページ中、おまけ的なページも含めてたったの46ページ。比率にして20.6%しかないので、マンガを期待して手に取った人は、文章パートの多さにガッカリしてしまうかもしれませんね。 

まんがと図解でわかる統計学 (宝島SUGOI文庫)

まんがと図解でわかる統計学 (宝島SUGOI文庫)

続きを読む

Excel VBAで raw data からジニ係数を求める関数を作ってみた

前回、ローレンツ曲線の描画とジニ係数の計算を行うマクロを作りましたが、ジニ係数の計算について、他では見かけない独特な計算方法を紹介しているサイトを見つけました。

Excelでジニ係数を計算

ジニ係数を求める数式は、ウィキペディアでは ローレンツ曲線L(F)積分を用いて
Gini=1-2\displaystyle\int_{0}^{1}L(F)dF で表される、とあります。
これは前回VBAで計算したやり方と同じです。

一方、上記のサイトでは、サンプルサイズをn、サンプルの平均をfとして
\displaystyle g=\dfrac{1}{2n^2f}\sum_{i=1}^{n}\sum_{j=1}^{n}|y_{i}-y_{j}| と定義される由。
raw data 限定ですが、計算のプロセスがぐっとシンプルになってて、そそられますね。

続きを読む

Excel VBAでローレンツ曲線を描画するマクロを作ってみた2

前回、いくつかのWEBサイトを廻って、ローレンツ曲線用のデータとジニ係数の計算方法を学ぶことができました。

そこで、今回はその計算とグラフ描画をVBAで自動化してみたいと思います。

続きを読む

Excel VBAでローレンツ曲線を描画するマクロを作ってみた1

世の中にはローレンツ曲線ジニ係数というものがあります。

ウィキペディアの厳密な定義ローレンツ曲線 - Wikipediaだと何のことやらよく分かりませんが、「個人別の年間収入」とか「国別の平均年収」とか「都道府県別の人口」とかの量的データがあったとき、 ざっくり、

  1. 値が小さい順に並べて累計(X_{i}:人数・国数・都道府県数etc、Y_{i}:年収の額、人口etc)を取り、
  2. 各累計を総計で割って比率にし、
  3. 横軸にX_{i}、縦軸にY_{i}を取って散布図にプロット

したときに描かれる曲線(といってもカクカクしていますが)が、ローレンツ曲線

続きを読む