3.3　カイ２乗検定

カイ２乗値

カイ２乗値と自由度を求める

さて、ポテトとチキンの売り上げに戻りましょう。

表3.7　ポテトとチキンの売り上げ数（観測度数／期待度数）
お店	ポテト	チキン	合計
ワクワク	435/420	165/180	600
モグモグ	265/280	135/120	400
合計	700	300	1000

このカイ２乗値は、

（（（観測度数－期待度数）の２乗）÷期待度数）の総和

(435-420)^2/420+(165-180)^2/180+(265-280)^2/280+(135-120)^2/120
=15^2/420+(-15)^2/180+(-15)^2/280+15^2/120
=0.536+1.250+0.804+1.875
=4.46　（小数点第3位を四捨五入）

となりました。

Excelで計算する場合の式については、次のファイルをダウンロードして、参考にしてください。

★以上の計算をExcelで行った例をダウンロード★

この値はカイ２乗分布にしたがっているわけですが、自由度はいくつになるのでしょうか。

この場合は、

「ポテトとチキン」の2種類から1を引いて、1
「ワクワクとモグモグ」の2種類から1を引いて、1

これらをかけ算して、1×1＝1。自由度は1になります。

この意味は、「ワクワクのポテトが決まると、ワクワクのチキンが決まり（合計が決まっているから）、同時に、モグモグのポテトが決まり（合計が決まっているから）、さらにそれによって、モグモグのチキンも決まる。ということは、1つの値が決まれば、残りは自動的にきまる。つまり自由度は1である」ということです。

一般的に、行と列がある二次元の表の場合は、

自由度＝（行の数－1）×（列の数－1）

となります。

確率を求める

さて、自由度は1、カイ２乗値は4.46となりました。この値は大きいのでしょうか、小さいのでしょうか。言い換えれば、確率的に起こりにくいことなのでしょうか、起こりやすいことなのでしょうか。

自由度とカイ２乗値がわかったときに、それが起こる確率を調べる必要があります。そのときに、カイ２乗分布表を使うと便利です。

表3.8　カイ２乗分布表
↓自由度／確率→	0.05	0.01
1	3.84	6.63
2	5.99	9.21
3	7.81	11.34
4	9.49	13.28
5	11.07	15.09
…以下続く…	…	…

いま、自由度1のカイ２乗分布を考えると、次のようなグラフになります。

カイ２乗値が3.84のところでグラフを区切ると、それよりも左側で0.95(95%)、それよりも右側で0.05(5%)の面積になります。つまり、カイ２乗値が3.84よりも小さい値は、95%の確率で起こります。また、カイ２乗値が3.84よりも大きい値は、5%の確率でしか起こらないということになります。

つまり「ワクワクとモグモグではポテトとチキンの売り上げの割合には差がない（帰無仮説）」としたときに、そのカイ２乗値が3.84よりも大きくなる確率は5%よりも小さいということです。

さらにカイ２乗値が6.63よりも大きくなる確率は、1%よりも小さくなります。
　
さて、計算したカイ２乗値は4.46でした。これは次のように解釈できます。「ワクワクとモグモグのお店によってポテトとチキンの売り上げの割合には差がない（帰無仮説）」としたときに、そのカイ２乗値が4.46をとる確率は、5%よりも小さく、1%よりも大きい。

有意水準

カイ２乗値4.46がでてくる確率は、1%から5%の間だということがわかりました。これは、100回やって1回から5回しか起こらないということです。これは「起こりにくい」とするべきでしょうか。それとも「それほど起こりにくいことではない」とするべきなのでしょうか。確かに宝くじの一等が当たる確率よりは、大きいのですが。

めったに起こらないか、そうではないか、を決めるのに、統計学では「有意水準」というものを使います。有意水準よりも小さい確率であれば、それは「めったに起こらないこと」、つまり、偶然の誤差ではないと認定します。有意水準よりも大きい確率であれば、「めったに起こらないこととはいえない」、つまり、偶然の誤差であるとします。

有意水準は伝統的に、5%か、あるいは1%を使います。有意水準5％よりも、有意水準1%の方が厳しい判断の仕方といえます。5%、1%どちらを有意水準として使ってもかまいません。重要なのは、あらかじめ有意水準を決めておくということです。

仮説検定をする

さて、話をチキンとポテトに戻しましょう。

カイ２乗値は4.46でした。これは、5%から1%の確率で起こることです。

ここで、有意水準として5%をとるとすると、それよりも小さい確率ですので、「めったに起こらないこと」と認定できます。これは次のように解釈できます。

帰無仮説として「ワクワクとモグモグではポテトとチキンの売り上げの割合には差がない」としました。
カイ２乗値は4.46となり、これが起こるのは5%より小さい確率です。
有意水準を5%に設定したので、これは「めったに起こらないこと」であるといえます。
「めったに起こらないこと」が起こってしまったのは、帰無仮説が間違っていたからだと考えます。
したがって、帰無仮説「ワクワクとモグモグではポテトとチキンの売り上げの割合には差がない」は間違っていたと考えます。
帰無仮説を棄却します。
帰無仮説が棄却されたので、対立仮説「ワクワクとモグモグではポテトとチキン売り上げの割合に差がある」を採択します。これが結論になります。

カイ２乗検定の結果「ワクワクとモグモグではポテトとチキン売り上げの割合に差がある」という結論が得られました。

店員さんに結論を知らせる

あなたはこの結論を店員さんに知らせました。

「ポテトとチキンの売り上げについてカイ２乗検定をしたんですよ」

「な、なんだい、そのカイなんとかというのは？」

「ともかく、その結果、ワクワクとモグモグではポテトとチキン売り上げの割合に差がある、ということなんです。ワクワクの方がチキンの売り上げの割合が小さいんです。それは有意水準5%でいえることなんです」

「そのユウイなんとかってのは？」

「ともかく、差があるんですよ！」

「そ、そうか、売れ行きに違いがでたか。やっぱりうちのチキンは売れてないんだ」

「そういうことです」

「ふう、何か対策を考えなくちゃいけないな。うん、調べてくれてどうもありがとう」

仮説検定のまとめ

さてあなたは、今回仮説をたてて、それが正しいかどうかを見てきました。ここで仮説検定のステップを確認しておきましょう。

1.　「○○と○○との間には差がない」という形の帰無仮説を立てる

2.　期待度数と観測度数のずれを見るためカイ２乗値を計算する

3.　カイ２乗値の出現確率を調べる

4.　有意水準を基準にして帰無仮説を棄却するか、あるいは採択するかを決める

この仮説検定の方法は、このあとも使っていきます。

←前へ | もくじ | 次へ→

3.3 カイ２乗検定