静粛に、只今統計勉強中

仕事でデータ分析をすることになったバリバリ文系アラフィフのおっさんが、独学で統計の勉強を始めました。

Excel分析ツールの回帰分析結果から回帰診断図を作ってみよう

前回までの3回で、Rを使って回帰診断図

f:id:cyclo-commuter:20190828151740j:plain

の読み方を、またExcelの散布図を使って対数変換の意味を学びました。

今回は、Excel分析ツールの回帰分析結果から、Rと同様の回帰診断図を作れるかチャレンジしてみたいと思います。

 

Excel分析ツールで回帰分析

[データ分析]→[回帰分析]を選択して【OK】をクリック。

f:id:cyclo-commuter:20190903102013p:plain

Y範囲にスクリーン数、X範囲に従業員数のセル範囲を入力(選択)して、「ラベル」にチェック→「残差」の4つ全てと「生起確率グラフ」にもチェックを入れて、【OK】をクリック。

f:id:cyclo-commuter:20190903102247p:plain

新しいワークシートに分析結果が出力されます。
列幅を整えて、グラフの位置を調整すると

f:id:cyclo-commuter:20190903102841p:plain

こんな感じになります。

 

Residuals vs Fitted

3つあるグラフのうち、一番上は残差のグラフですが、Rの「基本的診断プロット」の出力結果が予測値( \hat y)と残差の散布図であるのに対し、Excel分析ツールが自動で作ったのは従業者数( x)と残差の散布図です。

そこで、残差出力の「予測値:スクリーン数」と「残差」の列を選択して散布図を作成してみると、

f:id:cyclo-commuter:20190903105146p:plain

こんなふうになりました。単回帰なんで、分布は 従業者数( x)と残差の散布図とまったく同じですね。

 

Normal Q-Q 

Excel分析ツールが自動で作った3つのグラフのうち、一番下は正規確率のグラフですが、Rの「基本的診断プロット」の出力結果が標準正規分布のパーセント点と標準化残差の散布図であるのに対し、Excel分析ツールが自動で作ったのは標準正規分布の下側確率(%)とスクリーン数の散布図です。

 下側確率(%)を標準正規分布のパーセント点に変換するには以下のように数式を入力して、行数分コピーします。

f:id:cyclo-commuter:20190903125536p:plain

Excel分析ツールは標準化残差を自動計算してくれますが、 

で取り上げたように間違ってますので、計算しなおしましょう。

f:id:cyclo-commuter:20190903130949p:plain

上記の計算式を行数分コピーしたら、標準化残差のデータ全体をコピーして、I列に値貼り付けします。

f:id:cyclo-commuter:20190903131105p:plain

貼り付けたI列の値を昇順に並べ替えます。

f:id:cyclo-commuter:20190903131547p:plain

で、列とI列を元に散布図を作ると、

f:id:cyclo-commuter:20190903135113p:plain

分析ツールが自動作成したグラフよりもの出力結果に近づきました。けど、あれっ?

f:id:cyclo-commuter:20190903135312p:plain

東京の座標がだいぶ違ってます!
こりゃいったい、どうしたことでしょう?
気持ち悪いですが、とりあえず先に進みます。

 

Scale-Location

Scale-Location は、予測値と標準化残差の絶対値の(正の)平方根の散布図です。

上で計算した標準化残差から、絶対値の平方根を求めてみましょう。

f:id:cyclo-commuter:20190903141809p:plain

予測値と計算結果を選択して散布図を作ると、

f:id:cyclo-commuter:20190903142006p:plain

ご覧のとおりになります。

f:id:cyclo-commuter:20190903142226p:plain

これも、東京の座標がの出力結果と違いますねえ。

 

Residuals vs Leverage

さて、最後はてこ比と標準化残差の散布図です。

ここまで一応は、という留保は付くものの、分析ツールの出力結果から割と簡単に計算できました。が、てこ比となると、そう簡単にはいきません。

 

というわけで、続きは次回。