1.3 ばらつきを数字にする

データのばらつきを数値で表す

データのばらつきを目で見るためには度数分布図を描けばいいのですが、これをひとつの数値で表すことができれば便利です。つまり、「このポテトの長さの平均値はいくら」というのと同じように「このポテトの長さのばらつきはいくら」という数値が欲しいわけです。どのようにすればいいでしょうか。

そのことを考えるために、今、ポテトを長さの順に並べてみましょう。そして平均値のところに線をいれてみると、次の図のようになります。ばらつきの小さいワクワクバーガーのポテトは平均値からのずれが小さいのに対して、ばらつきの大きいモグモグバーガーのポテトは平均値からのずれが大きくなります。

そこで、平均値からのずれ(つまり個々のデータと平均値との差)を足せば、ばらつきの数値になるのではないかと考えます。つまり、

ばらつき案1=(データ−平均値)の総和

ということです。しかし、これですと、データが小さいときに(データ−平均値)はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、2乗することでマイナスをプラスにします。次の案はこうなります。

ばらつき案2=((データ−平均値)の2乗)の総和

しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、

ばらつき案3=((データ−平均値)の2乗)の総和÷個数

これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。

分散=((データ−平均値)の2乗)の総和÷個数

分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。これを図解で示してみると、次の図のようになります。