「どうしました? 店長、アイ子ちゃん。かわいそうとか、そうじゃないとか」
───あ、三ヶ島先輩。この前の、最高気温と客数の相関なんですが、最低気温のデータもあるので、このデータも合わせれば予測がもっと正確になると思ったんですよ。
「なるほど、それは期待できるね」
───でも、最低気温と客数の相関は弱くて、0.302なんです。有意な相関ではありませんでした。だから、最低気温は役に立たないデータだと言ったら、店長が、それはかわいそうだ、と言い出して……。
「ふむふむ。アイ子ちゃん、相関が弱いからといって、予測の役に立たないとは言えないよ。逆に、相関が強いからといって、予測の役に立つとも言い切れないんだ」
───ええっ? どうしてですか?
「特に、今回のように、最高気温、最低気温、客数というように、3つ以上の変数(データの種類)があるときにはね」
───どういうことなんですか?
「これを理解するためには<偏相関>ということを知らなくてはならない」
───変相関? 変な相関ですか?
「また、そういうギャグをとばさないように。じゃ、<偏相関>について説明するね」
───はい。お願いします。
今回のデータを整理して、図に表してみよう。こんなふうになるね。数字は相関係数だよ。
さて、この図の中でもう一つ相関係数が求められるね。アイ子ちゃん、それは何だろう。
───はい、最高気温と最低気温の相関係数です。求めてみますね。
───でました。最高気温と最低気温の相関係数は、0.706です。
よし。それを図の中に書き加えてみよう。こうなるね。
1日の最高気温が高ければ、最低気温も高いだろうし、逆に、最高気温が低ければ、最低気温も低くなるだろうね。だから、最高気温と最低気温の相関が、0.706で強いのは自然なことだね。
つまり、客数は最高気温の影響を受けているわけだけれども、最低気温もまた最高気温の影響を受けているわけだ。
そこで、こんなことを考える。客数も最低気温も、最高気温の影響を受けているので、その影響をなくしてみたらどうだろう。こんなイメージだ。
ここで、最低気温と客数の相関から最高気温の影響を取り除いたものを「偏相関」と呼ぶんだ。そして、その値を「偏相関係数」という。
(C) 2003 KogoLab