「どうしました? 店長、アイ子ちゃん。難しい顔をして」
───あ、三ヶ島先輩。この散布図を見てください。
「右上がり。正の相関だね」
───そうなんです。そこまではいいんですが、これに、すぱーっと線を引きたいんですよ。最高気温がわかれば、客の数がすぐに計算できるような線です。
「ふむふむ。まさに、それは、<回帰直線>と呼ばれているものなんだよ」
───怪奇直線ですか? なんだか恐ろしげですね。
「いやいや、<回帰直線>だ。妙なギャグかまさないように」
───てへ。三ヶ島先輩、その回帰直線というのを、教えてください。
説明のために、4つだけのデータの場合を考えていこう。このようなデータだ。
この4つの点をうまく通るような直線を引こうと考える。こんな感じだね。
でも、どううまく直線を引いたとしても、どうしてもその直線と実際のデータは少しずれるわけだ。全部のデータがすべて直線の上に乗っていない限りね。そこで、直線と実際のデータの「ずれ」を考える。
下の図の、オレンジとブルーの矢印のように、プラスとマイナスのずれがある。これを「残差」と呼ぼう。「残差」というのは、つまり、直線で予測できるデータの残りの部分ということだ。
さて、この残差が最も小さくなるような直線を考える。これを「回帰直線」と呼ぶ。
この回帰直線を求める方法として「最小2乗法」というものを使う。これは、残差の2乗の合計を計算して、それを最も小さくする直線を求めるものだ。
下の図を見て、残差の2乗和が小さいケースと大きいケースを比較してみよう。残差の2乗は、残差を一辺とする正方形の面積に相当するので、小さい値がそろっている方が、合計値は小さくなる。下の図で、その大きさに注目してみよう。
(C) 2003 KogoLab