7.1 多変量データ

「じゃーん。これが『アイスクリームの好みについてのアンケート』です!」

同じ内容をpdfファイルでダウンロードする

───わあー、店長すごいじゃないですか。

「いや、実は、三ヶ島くんに手伝ってもらったんだけどね……」

───でも、性別や年齢はいいとしても、出生順を聞いているのはなんでですか?

「いや、ちょっとした仮説があってね」

───店長が「仮説」なんてことばを使うなんて! いったいどんな仮説なんですか?

「いや、その。一人っ子はミルク系が好きかな〜、長子は渋め系が好きかな〜、って感じなんだけど」

───……なんか、かなりいい加減な仮説ですね。

「まあ、いいじゃないか。とにかくこのアンケートを実施して、もうデータは取ってあるんだよ」

───わあ、行動が速いですね。

「えへ。これがデータだよ。20歳前後の男女40人ずつにやってもらった。でね……」

───ま、まさか。

「アイ子ちゃん、お願い。これを分析してくれないか」

多変量データ

このようなアンケートでは、変数がたくさんあります。性別、年齢、出生順、アイスクリームを食べる頻度、そして、バニラの好き嫌い、ストロベリーの好き嫌い、ミルクティーの好き嫌い、……、あずきの好き嫌い。これらのすべてが変数になるわけです。

このようなデータを「多変量データ」と呼びます。たくさんの変数からなっているデータという意味です。「変量」と「変数」とは同じ意味です(英語では variables )。

多変量データを入力するときは、次のような形式を取ります。

横方向(列)には変数を並べます。ここでは、性別、年齢や、各種アイスクリームの好みの度合いが並びます。

縦方向(行)にはケース(個別にワンセットになったデータ)を並べます。ここでは、回答者が並びます。

(注意) ここでは、性別の男性に1、女性に2という数字を割り当てています。また、出生順では、一人っ子は1、長子は2、中間子は3、末っ子は4という数字を割り当てています。こうした割り当ては、適宜自分で決めることができます。

(C) 2003 KogoLab