「平均値は同じなのに、なぜテストの結果がこんなに違うの?」と不思議に思ったことはないだろうか。
実は、平均値だけではデータの本当の姿は見えない。点数がバラバラに散らばっているのか、それとも一箇所に固まっているのか——それを知るには「分布」を見る必要がある。
分布がわかれば、「自分の点数はクラスの中でどのあたりか」「どの範囲に何人いるか」が一目でわかるようになる。この記事では、分布を可視化する2つの道具——ヒストグラムと箱ひげ図——の読み方と作り方を、図解とアニメーションで順を追って解説する。
そもそも「分布」とは何か
分布とは、データがどのように散らばっているかを表す言葉である。
分布を理解するには、「どの値に何個のデータがあるか」を調べればよい。例えば、テストの点数なら「50点台が5人、60点台が8人、70点台が12人…」というように数えることで、分布がわかる。
具体例で考えよう。次の2つのクラスのテスト結果を見てほしい。
| クラス | 平均点 | 点数の内訳 |
|---|---|---|
| Aクラス | 60点 | 55, 58, 59, 60, 60, 61, 62, 65(8人) |
| Bクラス | 60点 | 20, 40, 55, 60, 65, 80, 90, 90(8人) |
どちらも平均は60点だが、Aクラスは60点付近に集中しているのに対し、Bクラスは20点から90点まで大きく散らばっている。
この違いを「平均」だけでは表現できない。そこで登場するのが、分布を目に見える形にするヒストグラムと箱ひげ図である。
ヒストグラムとは何か
ヒストグラムとは、データを階級(区間)に分け、各階級に含まれるデータの個数を棒グラフで表したものである。
階級とは、「0点以上10点未満」「10点以上20点未満」のように、データを区切るための区間のことである。階級の幅は通常10点や5点など、一定の間隔に設定する。
ヒストグラムでわかること
- どの範囲に最も多くのデータがあるか(最頻値の範囲)
- データが左右どちらに偏っているか
- データの散らばり具合
ヒストグラムの読み方
このヒストグラムから以下のことが読み取れる。
- 50〜60点の階級に最も多くの人がいる(12人)
- データは50〜70点あたりに集中している
- 90点以上は非常に少ない
ヒストグラムの作り方
度数とは、各階級に含まれるデータの個数のことである。上の例では「50〜60点の度数は12」という。
箱ひげ図とは何か
箱ひげ図とは、データの分布を「最小値」「第1四分位数」「中央値」「第3四分位数」「最大値」の5つの値で表した図である。
データを小さい順に並べたとき、中央値は真ん中の値、第1四分位数は下位25%の位置の値、第3四分位数は下位75%の位置の値である。
箱ひげ図の構造を理解する
箱ひげ図の各部分の意味は以下の通りである。
| 部分 | 意味 |
|---|---|
| 左のひげの端 | 最小値 |
| 箱の左端 | 第1四分位数(下位25%の位置) |
| 箱の中の線(赤) | 中央値(下位50%の位置) |
| 箱の右端 | 第3四分位数(下位75%の位置) |
| 右のひげの端 | 最大値 |
箱の幅は四分位範囲(第3四分位数 − 第1四分位数)を表し、データの散らばり具合を示す。箱が大きいほど散らばりが大きい。
四分位数の求め方
具体的なデータで四分位数の求め方を確認しよう。
例題:次の11個のデータの四分位数を求めよ。
ヒストグラムと箱ひげ図を比較する
同じデータでも、ヒストグラムと箱ひげ図では見える情報が異なる。両方の特徴を理解しよう。
| 比較項目 | ヒストグラム | 箱ひげ図 |
|---|---|---|
| わかりやすい情報 | 各階級の人数、山の形 | 中央値、四分位数、範囲 |
| 複数データの比較 | 並べると見づらい | 並べて比較しやすい |
| 細かい分布の形 | よくわかる | わからない |
| 外れ値の確認 | わかりにくい | ひげの長さでわかる |
複数データの比較:箱ひげ図の真価
箱ひげ図が最も活躍するのは、複数のデータを比較するときである。
この図から読み取れることは以下の通りである。
- Cクラスは中央値が最も高く、全体的に成績がよい
- Bクラスは最小値が20点と低く、苦手な生徒がいる
- Aクラスは箱の幅(四分位範囲)が大きく、成績のばらつきが大きい
よくある質問と答え(FAQ)
Q. ヒストグラムと棒グラフは何が違うのか?
A. ヒストグラムは連続したデータ(点数、身長など)を扱い、棒同士がくっついている。棒グラフは離散的なデータ(好きな科目の人数など)を扱い、棒同士が離れている。ヒストグラムでは隣り合う階級が連続しているため、棒を離さないのがルールである。
Q. 箱ひげ図の「箱」が大きいとどういう意味か?
A. 箱が大きいということは四分位範囲が広い、つまりデータの中央付近(25%〜75%)が広く散らばっていることを意味する。逆に箱が小さければ、データが中央値付近に集中していることを示す。
Q. 中央値と平均値は同じではないのか?
A. 同じになることもあるが、多くの場合は異なる。特に極端に大きい値や小さい値があると、平均値はその影響を受けるが、中央値は影響を受けにくい。例えば「10, 20, 30, 40, 100」の平均値は40だが、中央値は30である。
練習問題
| 階級(点) | 度数(人) |
|---|---|
| 0以上20未満 | 2 |
| 20以上40未満 | 5 |
| 40以上60未満 | 12 |
| 60以上80未満 | 8 |
| 80以上100未満 | 3 |
ア. 左に偏った山 イ. 中央付近に山がある ウ. 右に偏った山 エ. 2つの山がある
- Xクラス:最小30、Q1=45、中央値60、Q3=75、最大90
- Yクラス:最小40、Q1=55、中央値65、Q3=70、最大85
ア. Xクラスの方が四分位範囲が大きい
イ. Yクラスの方が中央値が高い
ウ. Xクラスの方が最高点が高い
エ. Yクラスの方がデータの散らばりが小さい
まとめ
この記事では、データの分布を可視化するヒストグラムと箱ひげ図について学んだ。ポイントは以下の通りである。
- ヒストグラムは階級ごとの度数を棒で表し、分布の形がわかる
- 箱ひげ図は最小値・四分位数・中央値・最大値の5つでデータを要約する
- 複数データを比較するときは箱ひげ図が便利
- 四分位範囲(箱の幅)でデータの散らばりがわかる
Core-dorill— 基礎を、何度でも。

コメント