「平均点は高いのに、自分の点数は真ん中より下だった」という経験はないだろうか。
実は、平均値だけでは「本当の真ん中」はわからない。極端に高い点数や低い点数があると、平均値は大きくずれてしまうからである。
そこで登場するのが中央値(メジアン)である。この記事では、中央値の求め方を、データの個数が奇数の場合・偶数の場合に分けて、順を追って解説する。
そもそも中央値とは?
中央値とは、データを小さい順(または大きい順)に並べたとき、ちょうど真ん中に位置する値のことである。
代表値とは、データ全体の特徴を1つの数値で表したものである。中央値は代表値の一種で、平均値や最頻値(モード)と並んでよく使われる。
具体例で確認しよう。5人のテストの点数が次のようだったとする。
まず、小さい順に並べ替える。
5つのデータの真ん中は3番目である。よって、中央値は $75$ 点となる。
「真ん中」を見つけるには、必ず先に並べ替えることが大切である。並べ替えずに「3番目の値」を取ると、間違った答えになる。
中央値と平均値の違い
中央値と平均値は、どちらも「代表的な値」を表すが、性質が異なる。次の例で違いを確認しよう。
5人の貯金額(単位:万円)が次のようだったとする。
平均値を計算すると、
一方、中央値は並べ替えた3番目の値なので、
平均値は54万円だが、実際に54万円以上持っている人は1人だけである。200万円という外れ値に引っ張られて、平均値が実態とかけ離れてしまった。
外れ値とは、他のデータから極端に離れた値のことである。外れ値があるときは、中央値の方がデータの特徴をよく表す。
中央値を図で理解する
中央値の考え方を、数直線上で視覚的に確認しよう。
データを小さい順に並べると、5つの点が数直線上に配置される。5個のデータの真ん中は3番目なので、75が中央値となる。
中央値の求め方
中央値の求め方は、データの個数が奇数か偶数かで異なる。
データが奇数個の場合
例題1:次の7つのデータの中央値を求めよ。
解答
手順1:小さい順に並べ替える。
手順2:真ん中の位置を求める。
手順3:4番目の値を読み取る。
データが偶数個の場合
データが偶数個のとき、ちょうど真ん中の位置がない。そこで、真ん中の2つの値の平均を取る。
例題2:次の6つのデータの中央値を求めよ。
解答
手順1:小さい順に並べ替える。
手順2:真ん中の2つの位置を求める。
手順3:3番目と4番目の値の平均を求める。
偶数個の場合を図で確認する
6個のデータでは、3番目(41)と4番目(45)が真ん中の2つである。この2つの平均 $\dfrac{41+45}{2}=43$ が中央値となる。
よくある間違いと対策
元のデータのまま「真ん中」を取ってしまう。→ 必ず最初に小さい順に並べ替える。
真ん中の2つのうち1つだけを中央値としてしまう。→ 偶数個のときは2つの平均を取る。
中央値を求めるのに全部足して割ってしまう。→ 中央値は「真ん中の値」、平均値は「全部足して個数で割った値」と区別する。
この単元のよくある質問
Q. 中央値と平均値、どちらを使えばいいですか?
A. 極端に大きい値や小さい値(外れ値)がある場合は中央値の方が実態をよく表す。外れ値がなくデータが均等に散らばっている場合は平均値でも問題ない。
Q. データに同じ値があるときはどうしますか?
A. 同じ値があっても、すべてのデータを並べて数える。例えば「70, 70, 80」なら、70が2つあるとして3つのデータとして扱い、真ん中の2番目(70)が中央値となる。
Q. 中央値は小数になることがありますか?
A. データが偶数個の場合、真ん中2つの平均を取るので小数になることがある。例えば「10, 20, 30, 50」の中央値は $(20+30)\div 2=25$ だが、「10, 20, 31, 50」なら $(20+31)\div 2=25.5$ となる。
練習問題
$12, 8, 15, 9, 11$
$24, 18, 32, 27, 21, 29$
$100, 45, 50, 48, 52, 47, 51$
まとめ
この記事では中央値(メジアン)について学んだ。ポイントは以下の通りである。
- 中央値とは、データを小さい順に並べたときの真ん中の値である
- データが奇数個のとき:$\dfrac{\text{個数}+1}{2}$ 番目の値
- データが偶数個のとき:真ん中2つの値の平均
- 外れ値がある場合、平均値より中央値の方がデータの特徴をよく表す
Core-dorill— 基礎を、何度でも。

コメント