ワクワクバーガーの店員さんの悩みとは、次のようなことでした。
「うちの店では、ポテトやハンバーガーの売り上げは上々で、かなりいいんだ。でも、それに比べると、フライドチキンの売り上げはイマイチなような気がするんだよね」
「それでね、うちのフライドチキンは、ライバル店のモグモグバーガーと比べて、本当に売れてないのか調べたいんだよ。お願い、どうか力を貸してくれないか」
店員さんに頼み込まれてしまったあなたは、その調査依頼を引き受けることにしました。
まず、ワクワクとモグモグでの、ポテトとチキンの1日の売り上げ個数を調べることにしました。
その個数は次の表のようになりました。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | 435 | 165 | 600 |
モグモグ | 265 | 135 | 400 |
この表によると、ワクワクのチキンの売り上げは165個で、それに対してモグモグのチキンの売り上げは135個でした。しかし、このチキンの売り上げ数だけを単純に比べても、両店で違いがあるかどうかは分かりません。なぜなら、両店の全体の売り上げ数が違うからです。そこで、ハンバーガーショップの定番商品であるポテトの売り上げ数を基準にして比べることにします。
これで見る限り、モグモグの方がチキンの売り上げの割合が多そうに思えます。
さて、これだけで、「モグモグの方がチキンの売り上げが、割合として多い」と断言していいのでしょうか。統計学では、これをどのように考えるのでしょうか。
統計学では、まず「仮説」を立てるところから出発します。仮説とは、「○○である」ということを仮に立てたものです。そのあとで、それを肯定するか、あるいは否定するかを決めるのです。
ここでは、次の仮説を立ててみました。
「チキンとポテトの売り上げの割合に関して、モグモグとワクワクの間に差はない」
おや「……差はない」ですか。これはどういうことでしょうか。ふつうは、「差がある」ことを証明したいわけですから、「差はある」という仮説を立てるのが自然ではないでしょうか。
その通りです。しかし、統計学では、あえて「差はない」という仮説を最初に立てます。これを「帰無仮説」と呼びます。
なぜ帰無仮説を最初に立てるかというと、「差はある」という仮説は、「大きな差がある」、「小さな差がある」、「中位の差がある」などなど、無限に立てられるからです。そのひとつひとつについて検討するのは事実上不可能です。それに対して、帰無仮説「差はない」というのは、これ以外の形はありません。ですから、これを肯定するか、否定するかを決めればいいことになり、単純になります。
仮説を肯定することを「採択する」、否定することを「棄却する」といいます。
もし帰無仮説が採択されれば、「差はない」と結論します。反対に、もし帰無仮説が棄却された場合は、「差はない、とは言えない」つまり「差はある」と結論されることになります。帰無仮説の反対の仮説のことを、「対立仮説」と呼びます。対立仮説は、帰無仮説が棄却されたときに採択される仮説で、「差はないとは言えない、つまり差はある」という形です。
まとめると、次のような流れになります。
帰無仮説として「売り上げの割合に差はない」という仮説を立てます。ワクワクもモグモグも、ポテトとチキンがまったく同じ割合で売れるとしたときの、売り上げ個数をだしてみましょう。そこで、帰無仮説による個数と実際の個数がそれほど変わらなければ、帰無仮説を採択し、差はないと結論することになります。
両店で、ポテトとチキンが同じ割合で売れるとしたときの個数を計算します。それぞれのお店の売り上げ個数と、ポテトとチキンの売り上げ個数を使えば、その個数を求めることができます。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | ? | ? | 600 |
モグモグ | ? | ? | 400 |
合計 | 700 | 300 | 1000 |
上の表のように合計個数だけをみると、全体の売り上げに対して、それぞれのお店の合計個数の割合は、
それに対して、ポテトとチキンの割合は700対300です。
ですから、同じ割合で売れるとしたら、
それでは、チキンの個数はどれくらいになるでしょうか。計算して、下の表を埋めてください。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | 420 | 600 | |
モグモグ | 280 | 400 | |
合計 | 700 | 300 | 1000 |
どうなりましたか。私の計算では、
結局、同じ割合で売れるとしたときの売り上げ個数の表は下のようになります。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | 420 | 180 | 600 |
モグモグ | 280 | 120 | 400 |
合計 | 700 | 300 | 1000 |
この個数を「期待度数」と呼びます。これは、帰無仮説、つまり「両店のポテトとチキンの売り上げ割合に差がない」が成立したときに、期待される度数ということです。
しかし、実際の売り上げ個数はこのようになっていました。
お店 | ポテト | チキン | 合計 |
---|---|---|---|
ワクワク | 435 | 165 | 600 |
モグモグ | 265 | 135 | 400 |
合計 | 700 | 300 | 1000 |
この個数を「観測度数」と呼びます。つまり、実際に観測された度数ということです。
観測度数と期待度数とを比較してみると、次のことが言えます。
さて、このように期待度数と観測度数には違いがあることがわかりました。しかし、はたしてこの違いには「意味があるのでしょうか」? たとえば、ワクワクのポテトの個数は、観測度数435に対して、期待度数は420でした。この435と420との差「15」には意味があるのかどうか?
「意味があるのかどうか」ということは、こういうことです。たとえば、460と420というデータがあって、この2つのずれは、本来同じだったのにたまたまずれてしまったものなのか、あるいは、本来違っているものが現れてきたものなのか、このどちらなのかを決めるということです。
さらに言い換えれば、このずれは「誤差の範囲内のもの」なのか、それとも「誤差とは言えない、誤差以上のもの」なのか、を決めるということです。
これを決めるためには、検定という考え方を知る必要があります。