さて、ポテトとチキンの売り上げに戻りましょう。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | 435/420 | 165/180 | 600 |
モグモグ | 265/280 | 135/120 | 400 |
合計 | 700 | 300 | 1000 |
このカイ2乗値は、
(((観測度数−期待度数)の2乗)÷期待度数)の総和
(435-420)^2/420+(165-180)^2/180+(265-280)^2/280+(135-120)^2/120
=15^2/420+(-15)^2/180+(-15)^2/280+15^2/120
=0.536+1.250+0.804+1.875
=4.46 (小数点第3位を四捨五入)
となりました。
Excelで計算する場合の式については、次のファイルをダウンロードして、参考にしてください。
この値はカイ2乗分布にしたがっているわけですが、自由度はいくつになるのでしょうか。
この場合は、
これらをかけ算して、1×1=1。自由度は1になります。
この意味は、「ワクワクのポテトが決まると、ワクワクのチキンが決まり(合計が決まっているから)、同時に、モグモグのポテトが決まり(合計が決まっているから)、さらにそれによって、モグモグのチキンも決まる。ということは、1つの値が決まれば、残りは自動的にきまる。つまり自由度は1である」ということです。
一般的に、行と列がある二次元の表の場合は、
自由度=(行の数−1)×(列の数−1)
となります。
さて、自由度は1、カイ2乗値は4.46となりました。この値は大きいのでしょうか、小さいのでしょうか。言い換えれば、確率的に起こりにくいことなのでしょうか、起こりやすいことなのでしょうか。
自由度とカイ2乗値がわかったときに、それが起こる確率を調べる必要があります。そのときに、カイ2乗分布表を使うと便利です。
↓自由度/確率→ | 0.05 | 0.01 |
---|---|---|
1 | 3.84 | 6.63 |
2 | 5.99 | 9.21 |
3 | 7.81 | 11.34 |
4 | 9.49 | 13.28 |
5 | 11.07 | 15.09 |
…以下続く… | … | … |
いま、自由度1のカイ2乗分布を考えると、次のようなグラフになります。
カイ2乗値が3.84のところでグラフを区切ると、それよりも左側で0.95(95%)、それよりも右側で0.05(5%)の面積になります。つまり、カイ2乗値が3.84よりも小さい値は、95%の確率で起こります。また、カイ2乗値が3.84よりも大きい値は、5%の確率でしか起こらないということになります。
つまり「ワクワクとモグモグではポテトとチキンの売り上げの割合には差がない(帰無仮説)」としたときに、そのカイ2乗値が3.84よりも大きくなる確率は5%よりも小さいということです。
さらにカイ2乗値が6.63よりも大きくなる確率は、1%よりも小さくなります。
さて、計算したカイ2乗値は4.46でした。これは次のように解釈できます。「ワクワクとモグモグのお店によってポテトとチキンの売り上げの割合には差がない(帰無仮説)」としたときに、そのカイ2乗値が4.46をとる確率は、5%よりも小さく、1%よりも大きい。
カイ2乗値4.46がでてくる確率は、1%から5%の間だということがわかりました。これは、100回やって1回から5回しか起こらないということです。これは「起こりにくい」とするべきでしょうか。それとも「それほど起こりにくいことではない」とするべきなのでしょうか。確かに宝くじの一等が当たる確率よりは、大きいのですが。
めったに起こらないか、そうではないか、を決めるのに、統計学では「有意水準」というものを使います。有意水準よりも小さい確率であれば、それは「めったに起こらないこと」、つまり、偶然の誤差ではないと認定します。有意水準よりも大きい確率であれば、「めったに起こらないこととはいえない」、つまり、偶然の誤差であるとします。
有意水準は伝統的に、5%か、あるいは1%を使います。有意水準5%よりも、有意水準1%の方が厳しい判断の仕方といえます。5%、1%どちらを有意水準として使ってもかまいません。重要なのは、あらかじめ有意水準を決めておくということです。
さて、話をチキンとポテトに戻しましょう。
カイ2乗値は4.46でした。これは、5%から1%の確率で起こることです。
ここで、有意水準として5%をとるとすると、それよりも小さい確率ですので、「めったに起こらないこと」と認定できます。これは次のように解釈できます。
カイ2乗検定の結果「ワクワクとモグモグではポテトとチキン売り上げの割合に差がある」という結論が得られました。
あなたはこの結論を店員さんに知らせました。
「ポテトとチキンの売り上げについてカイ2乗検定をしたんですよ」
「な、なんだい、そのカイなんとかというのは?」
「ともかく、その結果、ワクワクとモグモグではポテトとチキン売り上げの割合に差がある、ということなんです。ワクワクの方がチキンの売り上げの割合が小さいんです。それは有意水準5%でいえることなんです」
「そのユウイなんとかってのは?」
「ともかく、差があるんですよ!」
「そ、そうか、売れ行きに違いがでたか。やっぱりうちのチキンは売れてないんだ」
「そういうことです」
「ふう、何か対策を考えなくちゃいけないな。うん、調べてくれてどうもありがとう」
さてあなたは、今回仮説をたてて、それが正しいかどうかを見てきました。ここで仮説検定のステップを確認しておきましょう。
1. 「○○と○○との間には差がない」という形の帰無仮説を立てる
2. 期待度数と観測度数のずれを見るためカイ2乗値を計算する
3. カイ2乗値の出現確率を調べる
4. 有意水準を基準にして帰無仮説を棄却するか、あるいは採択するかを決める
この仮説検定の方法は、このあとも使っていきます。