6.2　分散分析とは

ここではt検定は使えないので、別の検定方法を考えなければなりません。その方法は「分散分析」といいます。

分散分析について説明する前に、まずデータを取ってきましょう。

ワクワク、モグモグ、パクパクのポテト20個ずつを手に入れて、駅に向かい、通行人合計60人にランダムにどれかひとつのポテトを食べてもらいました。そして、そのおいしさについて、100点満点で点数をつけてもらいました。

以下が、それぞれのお店のポテトの評価データです。

それぞれのお店のデータ数と平均と標準偏差をExcelで計算しましょう。使うのは次の関数です。

さらに、全体の、データ数と平均と標準偏差をExcelで計算しましょう。範囲をタテとヨコに広げればよいのです。

次のように計算されました。

計算結果を見ると、標準偏差はどの店もだいたい同じ。評価の平均は、パクパク（88.15）、ワクワク（84.00）、モグモグ（79.50）の順で高いようです。また、全体の平均は、83.88でした。

帰無仮説、対立仮説を立てよう

それでは各平均が出揃ったところで、3つ以上の平均の差の検定方法について考えてみましょう。

最初に、帰無仮説を立てることから出発します。

帰無仮説は「3つのお店のポテトの評価（母集団）の平均に差はない」です。

もっと正確に言うと「3つのお店のポテトの評価（母集団）の平均のどの組み合わせにおいても差はない」ということです。

そうすると、対立仮説は「3つのお店のポテトの評価（母集団）の平均の少なくともひとつの組み合わせに差がある」となります。

ここで、対立仮説は「すべての組み合わせに差がある」ではないことに注意してください。そうではなく「少なくともひとつの組み合わせに差がある」ということです。「すべての組み合わせに差がある」場合もこの中に含まれることになります。

それでは、分散分析の考え方について説明していきましょう。

いま、3つのお店の評価データはこんなふうになっています（分布の形はいいかげんです）。

モグモグの中のひとつのデータ（●で示したもの）について考えます。

このデータは、全体の平均から矢印の分だけズレています。

よく見ると、全体の平均からのズレは、「全体の平均とモグモグの平均のズレ」と「モグモグの平均からのズレ」に分解できます。下のように。

ここで、「全体の平均とモグモグの平均のズレ」は何を表しているかと考えると、これは全体の平均から各群（各標本集団）がどれほどズレているかということです。これを「群間のズレ」と呼びましょう。

一方、「モグモグの平均からのズレ」は何を表しているかというと、群（標本集団）の中で、個々のデータがどれほどズレているかということです。これを「群内のズレ」と呼びましょう。

そうすると、すべてのデータについて、全体の平均からのズレは、群間のズレと群内のズレに分解できます。

つまり、すべてのデータについて、

全体の平均からのズレ　＝　群間のズレ　＋　群内のズレ

ということが成り立ちます。

さて、群間のズレは、標本集団の間の違いを表しています。これが大きくなるということは、各群の平均が大きく異なるということです。

一方、群内のズレは、同じ標本集団の中でのばらつきですので、「誤差」や「個人差」として扱うことができます。

もし、群内のズレに比べて、群間のズレが大きければ、標本集団の間の違いが大きいということですから、「母集団の平均に差がない」という帰無仮説を棄却することになります。

逆に、群内のズレに比べて、群間のズレが小さければ、標本集団の間の違いが大きいとはいえないですから、「母集団の平均に差がない」という帰無仮説を採択することになります。

これが分散分析の考え方です。