回帰分析における対数変換の意味を実感してみよう3
前回、目的変数と説明変数を両方対数にして線形回帰モデルに当てはめたところ、信頼性のある結果が得られた、というお話をしました。
そこで、今回はその意味を考えてみたいと思います。
まず、通常の線形回帰について考えます。
平成22年の映画館従業者数を説明変数とし、スクリーン数を応答変数として推定された回帰式 では、従業者数が1人増えるごとにスクリーンが0.1064枚増える、従業者数が100人増えるごとにスクリーンが10.64枚増える、と予測されます。
つまり、マーカーが単に直線に近いところにプロットされるのではなく、比例関係を伴ってプロットされる、ということを想定しています。
しかし、実際の散布図では左下ほど密集していて、右上に行くにしたがって間隔が開いていくように見えます。
もしかすると上の図のように、もも指数関数的に増えるのかもしれません。
だとすれば、もも対数に変換してあげれば、比例関係のように見えるかもしれません。
Excel散布図の便利機能を使って確かめてみましょう。
軸をクリックして選択状態にし、 [軸のオプション]→[軸のオプション]→[対数目盛を表示する]にチェックを入れます。軸も同様にします。
すると、
マーカーが、元の散布図よりも直線に近いところに密集しました。
で、線形回帰の線が曲線になっちゃってます。
これを累乗近似に変更すると、
直線になりました!
さらに、スクリーン数と従業者数をそれぞれ対数変換して、散布図を作ってみると、
まったく同じ分布になります!!
これが変数を対数変換する意味なんですねえ。
変数とを両対数変換した場合の回帰モデルでは、が2倍になるとも2倍になる、が3倍になるとも3倍になる、といった関係が想定されるのです。
また、変数の値が指数関数的に大きくなるような場合、えてして分散も大きくなっていってしまいますが、対数変換することで分散をギュッと縮めることができます。
さらに、対数変換することでデータの分布が 正規分布に近くなることがあります。
⇒
⇒
これも対数変換の効用ですね。
ていうか、試験問題だから結果から回帰診断することになりましたけど、本来のデータ分析の手順としては、そもそも元データの分布を確認してから始めないといかんのですが。