7.1　多変量データ

「じゃーん。これが『アイスクリームの好みについてのアンケート』です！」

───わあー、店長すごいじゃないですか。

「いや、実は、三ヶ島くんに手伝ってもらったんだけどね……」

───でも、性別や年齢はいいとしても、出生順を聞いているのはなんでですか？

「いや、ちょっとした仮説があってね」

───店長が「仮説」なんてことばを使うなんて！　いったいどんな仮説なんですか？

「いや、その。一人っ子はミルク系が好きかな～、長子は渋め系が好きかな～、って感じなんだけど」

───……なんか、かなりいい加減な仮説ですね。

「まあ、いいじゃないか。とにかくこのアンケートを実施して、もうデータは取ってあるんだよ」

───わあ、行動が速いですね。

「えへ。これがデータだよ。20歳前後の男女40人ずつにやってもらった。でね……」

───ま、まさか。

「アイ子ちゃん、お願い。これを分析してくれないか」

多変量データ

このようなアンケートでは、変数がたくさんあります。性別、年齢、出生順、アイスクリームを食べる頻度、そして、バニラの好き嫌い、ストロベリーの好き嫌い、ミルクティーの好き嫌い、……、あずきの好き嫌い。これらのすべてが変数になるわけです。

このようなデータを「多変量データ」と呼びます。たくさんの変数からなっているデータという意味です。「変量」と「変数」とは同じ意味です（英語では variables ）。

多変量データを入力するときは、次のような形式を取ります。

横方向（列）には変数を並べます。ここでは、性別、年齢や、各種アイスクリームの好みの度合いが並びます。

縦方向（行）にはケース（個別にワンセットになったデータ）を並べます。ここでは、回答者が並びます。

（注意）　ここでは、性別の男性に1、女性に2という数字を割り当てています。また、出生順では、一人っ子は1、長子は2、中間子は3、末っ子は4という数字を割り当てています。こうした割り当ては、適宜自分で決めることができます。