では、実際にデータを使って、Excelで分散分析の計算をしてみましょう。
ここまでに、各群と全体のデータ数、平均、標準偏差は計算してあります。
まず、全体のズレ、群間のズレ、群内のズレを計算します。
ここまで、「ズレ」と呼んできたものは、各データについて平均からの差を2乗して足したものです。これは分散の計算の時にやりましたね。これを「偏差平方和」あるいは「ズレの平方和」あるいは単に「平方和」と呼びます。
それでは、全体の平方和、群間の平方和、群内の平方和を求めましょう。
Excelで計算するには、まず、標本分散(=varp)を求めてから、それにデータ数をかければ平方和になります。なぜなら、平方和をデータ数で割ったものが標本分散だからです。
ピンクのセルが全体の平方和(2494.18)になります。
オレンジのセルは、群内の平方和です。群内の平方和は、各群で平方和を求めてから、それを合計したもの(580.00+595.00+570.55=1745.55)になります。
全体の平方和と群内の平方和がもとまりましたので、次は群間の平方和です。
群間の平方和は、各群の群内平均と全体平均の差の2乗に各群のデータの個数をかけたものを合計します。
たとえば、ワクワクであれば、
(群内平均84.00−全体平均83.33)の2乗×データ個数20
となります。
下の図で緑のセルになります。
これで、平方和が全部でました。これを検討すると
全体の平方和 = 群内の平方和 + 群間の平方和
2494.18 = 1745.55 + 748.63
となっていることがわかります。
分散分析をするために、分散分析表を作るとわかりやすくなります。
分散分析表は次のようなものです。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
この表の中に、計算した数値をいれていきます。
まず、群間の平方和、群内の平方和、全体の平方和です。
|
|
|
|
|
|
748.63 |
|
|
|
|
1745.55 |
|
|
|
|
2494.18 |
|
次に、自由度です。自由度は次のように決められます。
群間の自由度 = 群の数 − 1
群内の自由度 = (群1のデータ数−1)+(群2のデータ数−1)+(群3のデータ数−1)
全体の自由度 = データの総個数 − 1
今回の数値を当てはめると、
群間の自由度 = 3 − 1 = 2
群内の自由度 =(20-1)+(20-1)+(20-1)= 57
全体の自由度 = 60 − 1 = 59
となります。
|
|
|
|
|
|
748.63 |
2 |
|
|
|
1745.55 |
57 |
|
|
|
2494.18 |
59 |
次は、平均平方です。
これは平方和を自由度で割ったものです。
群間の平均平方 = 748.63 ÷ 2 = 374.32
群内の平均平方 = 1745.55 ÷ 57 = 30.62
|
|
|
|
|
|
748.63 |
2 |
374.32 |
|
|
1745.55 |
57 |
30.62 |
|
|
2494.18 |
59 |
これは、群間の平均平方を群内の平均平方で割ったものです。
F = 374.32 ÷ 30.62 = 12.22
|
|
|
|
|
|
748.63 |
2 |
374.32 |
12.22 |
|
1745.55 |
57 |
30.62 |
|
|
2494.18 |
59 |
これで分散分析表が完成しました。
これまで、カイ2乗検定を行うときは「カイ2乗分布表」を見ました。また、t検定のときは「t分布表」を見ました。
分散分析では「F分布表」で棄却域を見ます。
F分布表は次のようになっています。
5%有意水準のF分布表
|
|
||||
1 |
2 |
3 |
4 |
5 |
|
10 |
4.96 |
4.10 |
3.71 |
3.48 |
3.33 |
20 |
4.35 |
3.49 |
3.10 |
2.87 |
2.71 |
30 |
4.17 |
3.32 |
2.92 |
2.69 |
2.53 |
40 |
4.08 |
3.23 |
2.84 |
2.61 |
2.45 |
50 |
4.03 |
3.18 |
2.79 |
2.56 |
2.40 |
60 |
4.00 |
3.15 |
2.76 |
2.53 |
2.37 |
70 |
3.98 |
3.13 |
2.74 |
2.50 |
2.35 |
80 |
3.96 |
3.11 |
2.72 |
2.49 |
2.33 |
90 |
3.95 |
3.10 |
2.71 |
2.47 |
2.32 |
100 |
3.94 |
3.09 |
2.70 |
2.46 |
2.31 |
200 |
3.89 |
3.04 |
2.65 |
2.42 |
2.26 |
300 |
3.87 |
3.03 |
2.63 |
2.40 |
2.24 |
カイ2乗分布表も、t分布表も自由度はひとつでしたが、F分布表には自由度が2つあります。 群内の自由度と群間の自由度の両方を指定する必要があるからです。
今回は、群内の自由度が57ですので、一番近い60のところを見ます。さらに群間の自由度は2でしたので、2のところをみます。
そうすると、5%有意水準で、F=3.15が棄却域の境目であることがわかります。
|
|
||||
1 |
2 |
3 |
4 |
5 |
|
10 |
4.96 |
4.10 |
3.71 |
3.48 |
3.33 |
20 |
4.35 |
3.49 |
3.10 |
2.87 |
2.71 |
30 |
4.17 |
3.32 |
2.92 |
2.69 |
2.53 |
40 |
4.08 |
3.23 |
2.84 |
2.61 |
2.45 |
50 |
4.03 |
3.18 |
2.79 |
2.56 |
2.40 |
60 |
4.00 |
3.15 |
2.76 |
2.53 |
2.37 |
70 |
3.98 |
3.13 |
2.74 |
2.50 |
2.35 |
80 |
3.96 |
3.11 |
2.72 |
2.49 |
2.33 |
90 |
3.95 |
3.10 |
2.71 |
2.47 |
2.32 |
100 |
3.94 |
3.09 |
2.70 |
2.46 |
2.31 |
200 |
3.89 |
3.04 |
2.65 |
2.42 |
2.26 |
300 |
3.87 |
3.03 |
2.63 |
2.40 |
2.24 |
いま、計算したFは12.22でしたので、5%有意水準で棄却域にはいります。
帰無仮説である「3つのお店のポテトの評価の平均に差はない」は棄却されました。
つまり「3つのお店のポテトの評価の平均には差がある」ということになります。
どれとどれの間に差があるかはわかりませんが、少なくともひとつの組み合わせの間で差があるということになります。
では、有意水準を1%としたときは、どうなるでしょうか。
下の表を使って、結論を下してみてください。
1%有意水準のF分布表
|
|
||||
1 |
2 |
3 |
4 |
5 |
|
10 |
10.04 |
7.56 |
6.55 |
5.99 |
5.64 |
20 |
8.10 |
5.85 |
4.94 |
4.43 |
4.10 |
30 |
7.56 |
5.39 |
4.51 |
4.02 |
3.70 |
40 |
7.31 |
5.18 |
4.31 |
3.83 |
3.51 |
50 |
7.17 |
5.06 |
4.20 |
3.72 |
3.41 |
60 |
7.08 |
4.98 |
4.13 |
3.65 |
3.34 |
70 |
7.01 |
4.92 |
4.07 |
3.60 |
3.29 |
80 |
6.96 |
4.88 |
4.04 |
3.56 |
3.26 |
90 |
6.93 |
4.85 |
4.01 |
3.53 |
3.23 |
100 |
6.90 |
4.82 |
3.98 |
3.51 |
3.21 |
200 |
6.76 |
4.71 |
3.88 |
3.41 |
3.11 |
300 |
6.72 |
4.68 |
3.85 |
3.38 |
3.08 |
なお、どの組み合わせで差があるかということを、さらに調べるためには、多重比較という方法があります。
多重比較には、何種類かのやり方がありますが、この教材では扱いません。