3.3 無相関検定

───散布図の形は、全体としては右上がりなのですが、年齢20歳あたりを境にして、折れ曲がった感じですね。

「こういう散布図の形は、分析の時に注意しなくちゃいけないな。相関係数はいくらになった?」

───0.267です。小数点以下4桁目を四捨五入しました。0.2よりも大きいので、「弱い相関がある」といっていいですね?

「うん、一般的にはね。でも……」

───でも……?

「一般的には、「弱い相関」でいいんだけれど、ここではちょっと突っ込んで考えてみようよ。つまり、0.267という相関係数は、相関があるのか、それともないのか?」

───えっ? 「弱い相関」なんですから、相関があるといっていいんじゃないですか?

「じゃ、もし、0.198だったら?」

───う〜ん、ビミョーですね。

「そうなんだ。相関係数0.2〜0.4を「弱い相関」と呼ぶのは、あくまでも便宜的な言い方で、根拠があるわけじゃない。0.267の数字にはたして「意味があるのか(ちゃんと相関があるのか)」それとも「たまたまその数字になってしまったのか(本当は相関はなさそうなのか)」どうかを決める必要があるんだ」

───そんな方法があるんですか?

「ある。それが有意性検定という考え方だ。単に検定と呼ぶこともある。有意というのは「意味がある」ということだ」

無相関検定

ある標本をとって、その相関係数を求めたときに、その相関係数に意味があるのかどうかを決めることを「無相関検定」と呼びます。

無相関検定は、次のようなステップで考えていきます。

(1) まず、母集団の相関係数がゼロであると仮定します。この仮定を「帰無仮説」と呼びます。もし、この帰無仮説が否定されれば、その反対である「母集団の相関係数がゼロではない」ということが受け入れられます。仮説を否定することを「棄却」、受け入れることを「採択」と呼びます。

(2) 相関係数ゼロの母集団から、20個の標本を取り出したときの、その相関係数はどうなるかを調べます。何回も何回も繰り返して調べます。もともとの母集団の相関係数がゼロですから、標本集団の相関係数もゼロになることが多いはずです。しかし、0.1や-0.2といった相関係数も起こりえます。しかし、0.9や-0.95という相関係数はほとんど起こらないでしょう。

(3) (2)を何回も繰り返してみて、標本集団の相関係数がどうなるかという確率を調べます。それを図にしたものがこれです。横軸には相関係数、縦軸には確率密度といって、その面積を求めると確率になるものを示しています。見てわかるとおり、相関係数ゼロの周辺が一番高い一山の分布になります。-1と1に近づくほど、確率は減少していきます。

(4) この確率分布を得てから、こう考えます。いま、20個の標本で、0.267という相関係数になった。はたしてこれはどれくらいの確率で起こることなのか。それは、この図でここを見ればわかります。このグレーの部分が、相関係数が0.267以上になる確率です。

(5) さて、ここで、「めったに起こらないこと」と「起こってもおかしくないこと」の境界を決めます。これは、伝統的に、0.05(5%)か、0.01(1%)を使うことが多いです。つまり、100回に1回(1%)あるいは、100回に5回(5%)より小さければ「めったに起こらないこと」とし、そうでなければ「起こってもおかしくないこと」と認定します。この境界を「有意水準」と呼びます。

(6) 今、有意水準を5%に決めると、境界は、-0.444と0.444のところに来ます。つまり、20個の標本を取り出してその相関係数を求めたとき、その値が、-0.444よりも小さいか、あるいは、0.444よりも大きくなる確率は5%です。この図では、グラフの両方のすそ野から0.025の面積になるところを取っています。左右2つありますから、両方あわせて面積は0.05(5%)です。なぜプラスとマイナスの両方を取るかというと、通常、相関係数の検定をするときは、それがプラスでもマイナスでも意味があると考えているからです。このときの0.444を「限界値」と呼びます。

(7) そうしたところで、0.444と0.267を比べてみます。そうすると、0.267という相関係数が起こる確率は、5%よりも大きいことがわかります。0.444の境界よりも中心に寄っているからです。5%よりも大きい確率なので、これは「起こってもおかしくない」ことと認定します。つまり、最初の帰無仮説「母集団の相関係数はゼロである」を受け入れます(採択します)。したがって、結論は「標本集団の0.267という相関係数は、5%の有意水準で、有意ではなかった」となります。つまり、普通のことばで言えば、「標本集団について0.267という相関係数がでたけれども、これは意味のある相関係数であるとはいえない。なぜなら、母集団の相関係数はゼロということを否定できないから」ということです。

なぜ帰無仮説を立てるのか?

───ふーん、検定って、ずいぶんややこしい考え方をするんですねぇ。私だったら、帰無仮説なんかじゃなくて、最初から「母集団には相関がある」という仮説を考えてしまいますけど。それを棄却したり、採択したりすれば、いいじゃないですか。

「そこは検定の考え方のポイントだ。なんで帰無仮説なんかを立てるんだと思う?」

───なんでですか?

「「母集団に相関がある」という仮説は無数にあるからなんだよ。考えてごらん。母集団の相関係数=0.8、母集団の相関係数=0.5、母集団の相関係数=-0.3、母集団の相関係数=-0.95………無限にある」

───なるほど、それに対して「母集団の相関係数=0」という仮説はひとつだけです。

「そう。だから1つだけの帰無仮説を、棄却か採択すれば、勝負がつくってわけだ」

───う〜ん、検定って回り道のようで、実は合理的なんですね。

(C) 2003 KogoLab