5.2 偏相関とは

「どうしました? 店長、アイ子ちゃん。かわいそうとか、そうじゃないとか」

───あ、三ヶ島先輩。この前の、最高気温と客数の相関なんですが、最低気温のデータもあるので、このデータも合わせれば予測がもっと正確になると思ったんですよ。

「なるほど、それは期待できるね」

───でも、最低気温と客数の相関は弱くて、0.302なんです。有意な相関ではありませんでした。だから、最低気温は役に立たないデータだと言ったら、店長が、それはかわいそうだ、と言い出して……。

「ふむふむ。アイ子ちゃん、相関が弱いからといって、予測の役に立たないとは言えないよ。逆に、相関が強いからといって、予測の役に立つとも言い切れないんだ」

───ええっ? どうしてですか?

「特に、今回のように、最高気温、最低気温、客数というように、3つ以上の変数(データの種類)があるときにはね」

───どういうことなんですか?

「これを理解するためには<偏相関>ということを知らなくてはならない」

───変相関? 変な相関ですか?

「また、そういうギャグをとばさないように。じゃ、<偏相関>について説明するね」

───はい。お願いします。

偏相関とは?

今回のデータを整理して、図に表してみよう。こんなふうになるね。数字は相関係数だよ。

さて、この図の中でもう一つ相関係数が求められるね。アイ子ちゃん、それは何だろう。

───はい、最高気温と最低気温の相関係数です。求めてみますね。

───でました。最高気温と最低気温の相関係数は、0.706です。

よし。それを図の中に書き加えてみよう。こうなるね。

1日の最高気温が高ければ、最低気温も高いだろうし、逆に、最高気温が低ければ、最低気温も低くなるだろうね。だから、最高気温と最低気温の相関が、0.706で強いのは自然なことだね。

つまり、客数は最高気温の影響を受けているわけだけれども、最低気温もまた最高気温の影響を受けているわけだ。

そこで、こんなことを考える。客数も最低気温も、最高気温の影響を受けているので、その影響をなくしてみたらどうだろう。こんなイメージだ。

ここで、最低気温と客数の相関から最高気温の影響を取り除いたものを「偏相関」と呼ぶんだ。そして、その値を「偏相関係数」という。

(C) 2003 KogoLab