静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

統計検定準1級の過去問で台風の上陸数がポアソン分布に従うと知った2

前回は、2016年6月実施の統計検定準1級試験の問題に沿って適合度検定をしたところ、帰無仮説「H0:台風上陸数の観測度数はλ=2.84のポアソン分布に従う」が棄却されてしまった、というところまでお話ししました。

 

今回は、やっぱり試験問題の内容に沿って、それでも台風上陸数はポアソン分布に従うというところから、最新のデータを使うとどうなるか、まで進めたいと思います。

続きを読む

統計検定準1級の過去問で台風の上陸数がポアソン分布に従うと知った1

現在、大型で猛烈な台風19号が日本列島に接近中です。

ウェザーニュース社が発表した予報円の真ん中を進んだ場合、13日(日)あたりに関東を直撃するコースになっていて、また大きな被害が生じてしまうことが心配されます。

それにつけても、近年日本に上陸する台風が多い気がするなあ、などとぼんやり思っていたら、タイムリーなことに2016年6月実施の統計検定準1級の論述問題 問1で、台風の上陸数に関する問題が出題されていました。

続きを読む

Excel VBAで<てこ比>を求める関数を作ってみた

前回は、Excel分析ツールの回帰分析の結果から、の「基本的診断プロット」と同じグラフを作れんものかとチャレンジしましたが、Residuals vs Leverage まで来たところで、てこ比をどうしようか、となって終わりました。

そこで今回は、Excelてこ比を計算してみたいと思います。 

計算方法ですが、 

RとRコマンダーではじめる多変量解析

RとRコマンダーではじめる多変量解析

の73ページに、

射影行列(式(3.57))の対角要素 hiiを、てこ比またはレベレッジ(Leverage)という。

また、70ページに、

 yの係数を Hとし、その要素を、

 H=X(X^TX)^{-1}X^T=\begin{pmatrix}h_{11} \ldots h_{1n} \\ \vdots  \ddots \vdots  \\ h_{n1} \ldots h_{nn}\end{pmatrix}

とおく。 Hを射影行列という。(略)ハット行列ともいう。

さらに、54ページに

 X=\begin{pmatrix}1 x_{11} x_{12}  \\ 1 x_{21} x_{22}  \\ \vdots   \vdots  \vdots    \\1 x_{n1} x_{n2} \end{pmatrix}

とあります。

射影行列(ハット行列)は、最小二乗法で計算するときに導かれる行列らしいのですが、私自身がまだ十分に理解できていないので、ここで解説することはできません。

が、上の手がかりさえあれば、計算そのものは進めることができます。

 Xは、説明変数が二つの場合を表していて、 x_{i1},x_{i2}がそれにあたります。
ちなみに、左側に並んでいる「1」は切片のための列だそうで、切片は定数項なので「1」となります。*1
あとは、行列の計算で Hを求めて、対角要素を抽出するだけです。
(ちなみに、 X^T Xの転置行列、 X^{-1} X逆行列を表します。)

*1: \hat y = \alpha\times1+\beta_{1}\times x_{1}+\beta_{2}\times x_{2}となるから。

続きを読む

Excel分析ツールの回帰分析結果から回帰診断図を作ってみよう

前回までの3回で、Rを使って回帰診断図

f:id:cyclo-commuter:20190828151740j:plain

の読み方を、またExcelの散布図を使って対数変換の意味を学びました。

今回は、Excel分析ツールの回帰分析結果から、Rと同様の回帰診断図を作れるかチャレンジしてみたいと思います。

  • Excel分析ツールで回帰分析
  • Residuals vs Fitted
  • Normal Q-Q 
  • Scale-Location
  • Residuals vs Leverage
続きを読む

回帰分析における対数変換の意味を実感してみよう3

前回、目的変数 yと説明変数 xを両方対数にして線形回帰モデルに当てはめたところ、信頼性のある結果が得られた、というお話をしました。

そこで、今回はその意味を考えてみたいと思います。

 

まず、通常の線形回帰について考えます。

平成22年の映画館従業者数を説明変数とし、スクリーン数を応答変数として推定された回帰式  y=0.1064x+18.466 では、従業者数が1人増えるごとにスクリーンが0.1064枚増える、従業者数が100人増えるごとにスクリーンが10.64枚増える、と予測されます。

f:id:cyclo-commuter:20190829163859p:plain

つまり、マーカーが単に直線に近いところにプロットされるのではなく、比例関係を伴ってプロットされる、ということを想定しています。

しかし、実際の散布図では左下ほど密集していて、右上に行くにしたがって間隔が開いていくように見えます。

f:id:cyclo-commuter:20190829162226p:plain

もしかすると上の図のように、 x yも指数関数的に増えるのかもしれません。
だとすれば、 x yも対数に変換してあげれば、比例関係のように見えるかもしれません。

Excel散布図の便利機能を使って確かめてみましょう。

 y軸をクリックして選択状態にし、 [軸のオプション]→[軸のオプション]→[対数目盛を表示する]にチェックを入れます。 x軸も同様にします。

f:id:cyclo-commuter:20190829162801p:plain

すると、

f:id:cyclo-commuter:20190829163137p:plain

マーカーが、元の散布図よりも直線に近いところに密集しました。
で、線形回帰の線が曲線になっちゃってます。
これを累乗近似に変更すると、

f:id:cyclo-commuter:20190830155641p:plain

直線になりました!

さらに、スクリーン数と従業者数をそれぞれ対数変換して、散布図を作ってみると、

f:id:cyclo-commuter:20190830160014p:plain

まったく同じ分布になります!!


これが変数を対数変換する意味なんですねえ。

変数 y xを両対数変換した場合の回帰モデルでは、 xが2倍になると yも2倍になる、 xが3倍になると yも3倍になる、といった関係が想定されるのです。

 

また、変数の値が指数関数的に大きくなるような場合、えてして分散も大きくなっていってしまいますが、対数変換することで分散をギュッと縮めることができます。

さらに、対数変換することでデータの分布が 正規分布に近くなることがあります。

f:id:cyclo-commuter:20190830162222p:plainf:id:cyclo-commuter:20190830162556p:plain

f:id:cyclo-commuter:20190830162842p:plainf:id:cyclo-commuter:20190830162924p:plain

これも対数変換の効用ですね。

ていうか、試験問題だから結果から回帰診断することになりましたけど、本来のデータ分析の手順としては、そもそも元データの分布を確認してから始めないといかんのですが。