「平均値を求めよ」という問題は解けるのに、「この資料を代表する値として適切なのはどれか」と聞かれると固まってしまう。そんな経験はないだろうか。
実は、平均値・中央値・最頻値の計算ができても、「どれを使うべきか」がわからないと、テストで点を落とす原因になる。選択問題や記述問題で「なぜその値を選んだか」を説明できないからである。
つまずきの原因は単純で、3つの代表値それぞれの「得意な場面」と「苦手な場面」を知らないだけである。この記事では、どんな資料にどの代表値が向いているかを、具体例で徹底解説する。
そもそも代表値とは何か
代表値とは、たくさんのデータを「1つの値」でまとめたものである。クラス全員のテストの点数がバラバラでも、「平均は65点」と言えば、だいたいの様子が伝わる。これが代表値の役割である。
代表値には主に3種類ある。平均値(全部足して個数で割る)、中央値(並べて真ん中)、最頻値(最も多い値)である。
ここで重要なのは、3つの代表値は「どれが正しい」ではなく、「どれが適切か」で使い分けるということである。データの特徴によって、ふさわしい代表値が変わる。
3つの代表値の定義
| 代表値 | 求め方 | 意味 |
|---|---|---|
| 平均値 | 全データの合計 ÷ データの個数 | データを均等にならしたときの値 |
| 中央値 | データを小さい順に並べて真ん中の値 | データのちょうど真ん中の位置にある値 |
| 最頻値 | 最も多く出てくる値 | 最もありふれた値 |
中央値は「メジアン」、最頻値は「モード」とも呼ばれる。英語でそう書かれていても慌てないこと。
代表値の違いを図で理解する
同じデータでも、平均値・中央値・最頻値は異なる値になることがある。次の図で、3つの代表値がどこに位置するかを確認しよう。
このデータでは、15という極端な値(外れ値)があるため、平均値が右側に引っ張られている。一方、中央値と最頻値は15の影響をほとんど受けていない。
外れ値とは、他のデータから大きく離れた値のことである。クラスの年収調査で1人だけ芸能人の子がいたら、その家の年収は外れ値になる。
3つの代表値の「得意」と「苦手」
どの代表値を使うべきかを判断するには、それぞれの特徴を知る必要がある。
平均値の特徴
すべてのデータを計算に使うので、データ全体の様子を反映できる。テストの成績など、極端な値が少ないデータに向いている。
外れ値の影響を強く受ける。1つでも極端な値があると、平均値が大きくズレてしまう。
中央値の特徴
外れ値の影響を受けにくい。年収や家賃など、極端に高い値が混ざりやすいデータに向いている。
データの一部しか見ていないので、全体の合計などを知りたいときには向かない。
最頻値の特徴
「最も多い」という直感的な意味がある。服のサイズや靴のサイズなど、「一番売れ筋」を知りたいときに向いている。
データの種類が多いと、最頻値が決まらない(同じ回数の値が複数ある)ことがある。
使い分けの具体例
実際にどの代表値を選ぶべきか、3つの場面で考えてみよう。
判断の手順
まず、データに外れ値(極端に大きい・小さい値)があるか確認する。
外れ値がある場合は、中央値を選ぶ。外れ値の影響を受けにくいからである。
「一番多い」「一番人気」を知りたい場合は、最頻値を選ぶ。
それ以外の場合は、平均値を選ぶ。最も一般的な代表値だからである。
計算例で確認しよう
次のデータで、3つの代表値をすべて求めてみよう。
データ:あるクラス10人の通学時間(分)
5, 10, 10, 15, 15, 15, 20, 25, 30, 80
平均値の計算
中央値の計算
データを小さい順に並べると(すでに並んでいる):
5, 10, 10, 15, 15, 15, 20, 25, 30, 80
データが10個(偶数)なので、真ん中の2つ(5番目と6番目)の平均をとる。
最頻値の計算
各値の出現回数を数える:
- 5 → 1回
- 10 → 2回
- 15 → 3回(最多)
- 20 → 1回
- 25 → 1回
- 30 → 1回
- 80 → 1回
どの代表値が適切か?
このデータには「80分」という外れ値がある。そのため、平均値(22.5分)は実態より長めに出ている。
「このクラスの典型的な通学時間」を表すなら、中央値(15分)または最頻値(15分)が適切である。
よくある間違いと対策
間違い:とりあえず平均値を選んでしまう
対策:まず外れ値の有無を確認する。外れ値があれば中央値を検討する。
間違い:中央値を求めるとき、データを並べ替えない
対策:中央値は「小さい順に並べて」真ん中を取る。並べ替えは必須である。
間違い:最頻値がないと思い込む
対策:同じ回数で並ぶ値が複数ある場合、「最頻値は○と△」と複数答えることもある。
この単元のよくある質問
Q. 平均値と中央値が同じになることはありますか?
A. ある。データが左右対称に分布しているとき(例:1, 2, 3, 4, 5)、平均値と中央値は一致する。外れ値がなく、データがきれいに散らばっているときに起こりやすい。
Q. 最頻値が2つ以上あるときはどうしますか?
A. 両方を最頻値として答える。例えば「最頻値は3と7」のように書く。どちらか1つだけを選ぶのは間違いである。
Q. なぜニュースでは「平均年収」ではなく「中央値」を使うことがあるのですか?
A. 年収には外れ値(非常に高収入な人)が含まれやすいからである。平均年収だと、一部の高収入者に引っ張られて、実態より高く見えてしまう。中央値を使えば「真ん中の人」の年収がわかるので、一般的な暮らし向きを把握しやすい。
練習問題
データ:3, 5, 5, 7, 7, 7, 9, 11
データ(ある店の1日の売上、万円):12, 15, 14, 13, 16, 15, 120
データ:24.5, 25.0, 25.0, 25.5, 25.5, 25.5, 26.0, 26.0, 26.5, 27.0
まとめ
この記事では、代表値(平均値・中央値・最頻値)の使い分けについて学んだ。ポイントは以下の通りである。
- 平均値は全データを反映するが、外れ値に弱い
- 中央値は外れ値に強く、「真ん中」を知りたいときに使う
- 最頻値は「一番多い」を知りたいときに使う
- まず外れ値の有無を確認し、それから代表値を選ぶ
Core-dorill— 基礎を、何度でも。

コメント