テストの点数を見て「自分は平均より上だから大丈夫」と安心していないだろうか。
実は、平均点だけではデータの本当の姿は見えない。同じ平均60点でも、全員が60点前後のクラスと、0点と100点が半々のクラスでは、まったく意味が違う。「平均は同じなのに、なぜか結果が違う」と感じたことがあるなら、それはデータの分布を見落としているからである。
この記事では、データの散らばり具合を一目で把握できる「箱ひげ図」の読み方と書き方を、順を追って解説する。
そもそも箱ひげ図とは?
箱ひげ図とは、データの分布を「箱」と「ひげ」で表した図である。5つの数値さえわかれば描くことができる。
分布とは、データがどのように散らばっているかを表す言葉である。「点数が高い人が多いのか、低い人が多いのか」「ばらつきが大きいのか小さいのか」といった情報のことだ。
箱ひげ図を描くために必要な5つの数値は、以下の通りである。
| 名称 | 意味 |
|---|---|
| 最小値 | データの中で最も小さい値 |
| 第1四分位数(Q1) | 小さい方から25%の位置にある値 |
| 中央値(Q2) | 小さい方から50%の位置にある値 |
| 第3四分位数(Q3) | 小さい方から75%の位置にある値 |
| 最大値 | データの中で最も大きい値 |
四分位数とは、データを小さい順に並べて4等分したときの区切りの値である。「四分位」という名前は「4つに分ける」という意味からきている。
具体例で確認しよう。9人の生徒のテスト点数が以下の通りだったとする。
このデータの5つの数値は次のようになる。
- 最小値:35
- 第1四分位数(Q1):45(42と48の平均)
- 中央値(Q2):60(真ん中の値)
- 第3四分位数(Q3):78.5(75と82の平均)
- 最大値:90
箱ひげ図を図で理解する
上の例を箱ひげ図にすると、以下のようになる。アニメーションで各部分の意味を確認しよう。
箱ひげ図の各部分が表す意味を整理しよう。
| 部分 | 表すもの | 含まれるデータの割合 |
|---|---|---|
| 左のひげ | 最小値からQ1まで | 下位25% |
| 箱の左半分 | Q1から中央値まで | 25%~50% |
| 箱の右半分 | 中央値からQ3まで | 50%~75% |
| 右のひげ | Q3から最大値まで | 上位25% |
箱の部分には全データの50%(半分)が入っている。箱の幅が広いほど、データのばらつきが大きいことを意味する。
箱ひげ図の書き方:5つの手順
箱ひげ図を描く手順を、具体例とともに確認しよう。
例題:次の7人の身長データ(cm)から箱ひげ図を描け。
データを小さい順に並べる
並べ替えを忘れると、四分位数の値が間違ってしまう。必ず最初に行うこと。
中央値(Q2)を求める
データの個数は7個(奇数)なので、真ん中の4番目の値が中央値である。
第1四分位数(Q1)を求める
中央値より小さいデータは「155, 158, 160」の3個。
この3個の中央値(2番目)がQ1である。
第3四分位数(Q3)を求める
中央値より大きいデータは「168, 170, 175」の3個。
この3個の中央値(2番目)がQ3である。
最小値・最大値を確認して図を描く
最小値 = 155、最大値 = 175
これで5つの数値が揃った。
5つの数値を使って箱ひげ図を描くと、以下のようになる。
四分位数の求め方:データ数による違い
四分位数の求め方は、データの個数によって少し変わる。ここでは最もよく使われる方法を紹介する。
| データ数 | 中央値の求め方 | Q1・Q3の求め方 |
|---|---|---|
| 奇数個 | 真ん中の値 | 中央値を除いた上下半分のそれぞれの中央値 |
| 偶数個 | 真ん中2つの平均 | 下半分・上半分それぞれの中央値 |
偶数個の例を確認しよう。8人のデータがあるとする。
中央値を求める
8個(偶数)なので、4番目と5番目の平均が中央値。
Q1を求める
下半分「12, 15, 18, 22」の中央値(2番目と3番目の平均)。
Q3を求める
上半分「25, 30, 35, 40」の中央値(2番目と3番目の平均)。
箱ひげ図の読み取り方
箱ひげ図から読み取れる情報を、2つのクラスの比較で確認しよう。
この2つの箱ひげ図から、以下のことが読み取れる。
| 観点 | Aクラス | Bクラス |
|---|---|---|
| 中央値 | 65点 | 60点 |
| 箱の幅(Q3 − Q1) | 20点(75 − 55) | 40点(85 − 45) |
| 全体の範囲 | 50点(90 − 40) | 65点(95 − 30) |
読み取れること:
- Aクラスは中央値がやや高く、ばらつきが小さい(箱の幅が狭い)
- Bクラスはばらつきが大きく、高得点者も低得点者もいる
- Aクラスは「まとまった成績」、Bクラスは「二極化した成績」といえる
四分位範囲(Q3 − Q1)は、データの中央50%が収まる範囲である。この値が大きいほど、ばらつきが大きいことを意味する。
よくある質問と答え
Q. 箱ひげ図と平均値の関係は?
A. 箱ひげ図には平均値は表示されない。中央値と平均値は異なる値になることが多い。特に極端に大きい値や小さい値があるデータでは、平均値は中央値から大きくずれる。箱ひげ図は平均値に影響されにくい中央値を使うため、データの実態をより正確に表せる。
Q. 四分位数の求め方が教科書によって違うのはなぜ?
A. 四分位数の定義にはいくつかの方法があり、教科書や統計ソフトによって異なることがある。中学校では「中央値を境に上下に分けて、それぞれの中央値を求める方法」が一般的である。テストでは指定された方法に従うこと。
Q. 箱ひげ図の「ひげ」が長いとき、どう解釈すればよい?
A. ひげが長いということは、その方向に極端な値(最大値や最小値)があることを意味する。左のひげが長ければ「特に低い値がある」、右のひげが長ければ「特に高い値がある」ことを示す。
よくある間違いと対策
データを並べ替えずに四分位数を求めてしまう
四分位数は「小さい順に並べたときの位置」で決まる。並べ替えを忘れると、全く違う値になってしまう。
対策:最初に必ず小さい順に並べる。これを習慣にすること。
中央値を含めて上下に分けてしまう(奇数個の場合)
データが奇数個のとき、中央値そのものはQ1・Q3を求める際に除外する。
対策:「中央値を除いた残り」を上下に分けて考える。
箱の幅と全体の範囲を混同する
箱の幅(Q3 − Q1)は中央50%のばらつき、全体の範囲(最大値 − 最小値)は全データのばらつきを表す。意味が異なるので区別すること。
対策:「箱の幅 = 四分位範囲」「ひげを含む幅 = 範囲」と覚える。
練習問題
まとめ
この記事では、箱ひげ図の読み方と描き方について学んだ。ポイントは以下の通りである。
- 箱ひげ図は、最小値・Q1・中央値・Q3・最大値の5つの数値で描く
- 四分位数を求めるには、まずデータを小さい順に並べる
- 箱の幅(四分位範囲)でデータのばらつきがわかる
- 複数のデータを比較するとき、箱ひげ図は分布の違いを視覚的に示せる
Core-dorill— 基礎を、何度でも。

コメント