静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel VBAでローレンツ曲線を描画するマクロを作ってみた1

世の中にはローレンツ曲線ジニ係数というものがあります。

ウィキペディアの厳密な定義ローレンツ曲線 - Wikipediaだと何のことやらよく分かりませんが、「個人別の年間収入」とか「国別の平均年収」とか「都道府県別の人口」とかの量的データがあったとき、 ざっくり、

  1. 値が小さい順に並べて累計(X_{i}:人数・国数・都道府県数etc、Y_{i}:年収の額、人口etc)を取り、
  2. 各累計を総計で割って比率にし、
  3. 横軸にX_{i}、縦軸にY_{i}を取って散布図にプロット

したときに描かれる曲線(といってもカクカクしていますが)が、ローレンツ曲線

f:id:cyclo-commuter:20180328100227p:plain
必ず(0, 0)から(1, 1)の間で、45度線(均等分配線)の下側を通ります。*1
で、均等分配線とローレンツ曲線で囲まれた部分の面積を2倍した値が、ジニ係数
この値が大きいほどY_{i}が偏って分布している由。
つまり、格差を表す指標なんですね。

このグラフ、エクセルExcelでも作れますし、作り方を解説したサイトも複数あるのですが、各サイトで少しずつ違っていて、興味深いです。

 

ローレンツ曲線の描き方・ジニ係数の求め方

こちら、データの出典が書かれていないのですが、総務省統計局に似たデータがあります。

で、私も真似をして2016年の家計調査データを元に計算してみたのですが、
f:id:cyclo-commuter:20180328102537p:plain
「集計世帯数」がですよね? ヒストグラムにすると
f:id:cyclo-commuter:20180328102930p:plain
こんなことになっちゃいます。
年収の分布は、下のサイトにあるように大きく右に歪んでいますから、どうやら
総務省統計局のデータ(標本)は、母集団の精巧なミニチュアとは言えないようです。
f:id:cyclo-commuter:20180328104216p:plain
で、用語の説明を読んでも意味がよくわからないのですが、各階級は調整集計世帯数の上で10等分されているらしく、
こちらのサイトでは世帯数抜きで計算を進めています。
この場合は、各階級ごとの人数を1と見立てて計算することになりますね。

そしていつもお世話になっているこちらでは、
raw data を元に計算が進められます。

raw dataでも集計データ(度数分布表)でも同じように計算できるのが面白いですね。 

*1:ただし、完全に均等な場合は、45度線に重なります。