2.3 相関係数の意味(1)

───ふう、やっと計算できた。計算がけっこう面倒ですね、三ヶ島先輩。

「でも、電卓で計算することを考えたら、表計算ソフトのありがたみがわかるでしょ」

───そうですね。式を間違いなく入れれば、あとは計算してくれるのだからラクですよね。

「どれどれ、相関係数はいくらになったかな」

───X店では、0.964でした。対して、うちの店では、0.760です。店長、これでどうですか?

「0.760だって? なんだか妙に細かい数字だなあ。300とか1500とか、景気のいい数字にならないのか? 相関係数ってやつは」

───うーん、三ヶ島先輩、どうなんですか?

「いいえ、店長、相関係数はそういう数字にはならないんですよ。相関係数は常に、-1から+1の間の値を取るんです。だから、相関係数が3.5とかになったとしたら、必ず計算が間違っているはずです」

───なんで、相関係数は、-1から+1の間になるんですか?

「それを説明する前に、相関係数の意味を考えてみようよ」

偏差積和

まず平均からの偏差を計算したよね。偏差とは、平均からどれだけ大きいか、あるいは小さいかということだ。

これは、図のように、X軸での平均値より右側のデータではプラスになる。逆に、左側のデータではマイナスになる。

今度は、Y軸に注目すると、Y軸での平均値より上側のデータではプラスになる。逆に、下側のデータではマイナスになる。

上の2つをまとめると、Xの平均値とYの平均値によって、4つの領域に分けられるということだ。

右上の領域では、X, Yの平均からの偏差はプラスとプラスになる。右下の領域では、プラスとマイナス。左下では、マイナスとマイナス。左上では、マイナスとプラスだ。まとめるとこの図のようになる。

では、Xの偏差とYの偏差を掛け合わせると、どうなるか。これを偏差積と呼んでおこう。

右上の領域では、プラスとプラスだから、かけ算するとプラス。右下の領域では、プラスとマイナスだから、マイナス。左下では、マイナスとマイナスだから、かけ算するとプラスになるね。左上では、マイナスとプラスだから、かけてマイナス。まとめるとこの図のようになるわけだ。

つまり、右上と左下の領域ではプラス。それ以外の領域ではマイナス、ということになる。

したがって、右上と左下にデータが集まると、偏差積の和はプラスになる。こんな感じだ。

逆に、右下と左上にデータが集まると、偏差積の和はマイナスになる。こんな感じ。

では、4つの領域にほぼ均等にデータが散らばった場合はどうなるか。これは、プラスとマイナスが打ち消し合って、相関ゼロになる。こんな感じだ。

まとめると、4つの領域にどのようにデータが散らばるかによって、偏差積和がプラス、マイナス、あるいはゼロになるかが決まるというわけだ。だから、右上がりの散布図では正の相関、右下がりの散布図では負の相関、ばらばらの散布図では相関ゼロとなるんだ。

(C) 2003 KogoLab