4.2　回帰直線の原理

「どうしました？　店長、アイ子ちゃん。難しい顔をして」

───あ、三ヶ島先輩。この散布図を見てください。

「右上がり。正の相関だね」

───そうなんです。そこまではいいんですが、これに、すぱーっと線を引きたいんですよ。最高気温がわかれば、客の数がすぐに計算できるような線です。

「ふむふむ。まさに、それは、＜回帰直線＞と呼ばれているものなんだよ」

───怪奇直線ですか？　なんだか恐ろしげですね。

「いやいや、＜回帰直線＞だ。妙なギャグかまさないように」

───てへ。三ヶ島先輩、その回帰直線というのを、教えてください。

回帰直線の原理

説明のために、4つだけのデータの場合を考えていこう。このようなデータだ。

この4つの点をうまく通るような直線を引こうと考える。こんな感じだね。

でも、どううまく直線を引いたとしても、どうしてもその直線と実際のデータは少しずれるわけだ。全部のデータがすべて直線の上に乗っていない限りね。そこで、直線と実際のデータの「ずれ」を考える。

下の図の、オレンジとブルーの矢印のように、プラスとマイナスのずれがある。これを「残差」と呼ぼう。「残差」というのは、つまり、直線で予測できるデータの残りの部分ということだ。

さて、この残差が最も小さくなるような直線を考える。これを「回帰直線」と呼ぶ。

この回帰直線を求める方法として「最小２乗法」というものを使う。これは、残差の２乗の合計を計算して、それを最も小さくする直線を求めるものだ。

下の図を見て、残差の２乗和が小さいケースと大きいケースを比較してみよう。残差の２乗は、残差を一辺とする正方形の面積に相当するので、小さい値がそろっている方が、合計値は小さくなる。下の図で、その大きさに注目してみよう。