「いやぁ、すっきりしたぁ〜」
───あ、店長。ずいぶん長いトイレでしたねー。
「で、どうなの。最低気温の立場は回復したの?」
───はい。ばっちりです。最高気温の影響を取り除くと、最低気温と客数の関係はマイナスの偏相関になるんです。
「なに〜? 変相関? なんかヘン〜」
───(再び、がくっ)いえ、店長。「偏相関」でございます。これを見てください。
───最高気温の影響を取り除いた偏相関係数は、-0.894となります。つまり、最高気温が同じなら、最低気温が低い方が、お客の数が増えるということなんです。
「おおっ! なんか不思議だけど、そんな気もするぞ。すごいな偏相関ってのは!」
偏相関は、重要でもあり、なかなかわかりにくい考え方でもあるから、もう一度、ここで別の角度から説明しよう。
まず、最高気温と客数の回帰直線を求めることから出発したね。これだ。
これを分解すると、回帰直線で完全に予測できる部分と、それから残った部分(残差)に分解できる。つまり、
回帰直線で完全に予測できる部分:回帰成分(相関=1)
+
残りの部分:残差(相関=0)
もう一度書き直してみると、こんな感じだ。
=+
もっと簡単に書くと
最高気温と客数の散布図 = 回帰成分(相関1)+残差(相関0)
ということだ。
まったく同じようにして、最高気温と最低気温の関係も次のように分解できる。
=+
つまり、
最高気温と最低気温の散布図=回帰成分(相関1)+残差(相関0)
となる。
さて、ここからが重要だ。
では、「最高気温の影響を取り除いたときの、最低気温と客数の偏相関係数」とは何か?
これは、上の2つの式の「残差同士の相関」なんだ。
つまり、
最高気温と客数の散布図 = 回帰成分(相関1)+残差(相関0)
最高気温と最低気温の散布図=回帰成分(相関1)+残差(相関0)
この2つの残差同士の相関、これが偏相関係数というわけだ。
図でいうと、
との相関
ということだ。
実際に、残差同士の散布図を描いてみると、次のようになる。
確かに右下がりの負の相関になっている。
今まで「最高気温の影響を取り除く」と言ってきたのは、この2つの回帰成分(相関1)を取り除くということに当たる。そうすると、残りは残差だけなので、この残差同士の相関係数を求めて、偏相関係数としたわけだ。
これが、次の図で説明してきた、偏相関係数のもう一つの説明だよ。
(C) 2003 KogoLab