「四分位範囲と四分位偏差って、何が違うの?」「そもそも何のために使うの?」と疑問に思っていないだろうか。
データの散らばり具合を表す指標はいくつかあるが、それぞれの意味を理解しないまま公式だけ覚えても、テストで使いこなせない。
実は、四分位範囲と四分位偏差は「データの真ん中50%がどれくらい広がっているか」を見るための道具である。この記事では、具体的な数値例とアニメーションを使って、2つの指標の意味と計算方法を完全に理解できるようになるまで解説する。
そもそも「散らばり」とは?
データの特徴を表すとき、「平均値」だけでは不十分である。なぜなら、平均値が同じでも、データの散らばり方が全く違うことがあるからだ。
散らばりとは、データがどれくらい広い範囲に分布しているかを表す性質のことである。散らばりが大きいほど、データは広い範囲にばらついている。
例えば、次の2つのクラスのテスト結果を見てほしい。
| クラス | 生徒A | 生徒B | 生徒C | 生徒D | 生徒E | 平均値 |
|---|---|---|---|---|---|---|
| 1組 | 60点 | 60点 | 60点 | 60点 | 60点 | 60点 |
| 2組 | 20点 | 40点 | 60点 | 80点 | 100点 | 60点 |
どちらも平均値は60点だが、1組は全員が同じ点数で散らばりがゼロ。2組は20点から100点まで大きく散らばっている。このように、平均値だけではわからないデータの特徴を表すのが「散らばりの指標」である。
四分位数のおさらい
四分位範囲と四分位偏差を理解するには、まず四分位数を確認しておく必要がある。
四分位数とは、データを小さい順に並べて4等分したときの区切りの値である。第1四分位数(Q1)、第2四分位数(Q2=中央値)、第3四分位数(Q3)の3つがある。
次のデータを例に考えよう。
このデータは9個の値からなる。小さい順に並べると上の通りである。
- 中央値(Q2):9個の真ん中、つまり5番目の値 → 10
- 第1四分位数(Q1):下半分(3, 5, 7, 8)の中央値 → (5+7)÷2 = 6
- 第3四分位数(Q3):上半分(12, 15, 18, 20)の中央値 → (15+18)÷2 = 16.5
四分位範囲とは?
四分位範囲とは、第3四分位数(Q3)から第1四分位数(Q1)を引いた値である。
四分位範囲は、データの真ん中50%(中央に集まっている半分のデータ)がどれくらいの幅に収まっているかを表す。この値が大きいほど、データは散らばっていることになる。
先ほどの例で計算してみよう。
つまり、このデータの真ん中50%は、10.5の幅に収まっていることがわかる。
四分位偏差とは?
四分位偏差とは、四分位範囲を2で割った値である。
四分位偏差は、中央値から第1四分位数(または第3四分位数)までの平均的な距離を表す。四分位範囲を半分にすることで、「中央からどれくらい離れているか」という見方ができる。
同じ例で計算すると、
四分位範囲と四分位偏差を図で理解する
数直線上でデータの分布を見ると、四分位範囲と四分位偏差の意味がよくわかる。下のアニメーションで確認しよう。
このアニメーションでわかるように、
- 四分位範囲:Q1からQ3までの区間の幅(データの真ん中50%が入る範囲)
- 四分位偏差:その範囲の半分(中央値からの平均的な広がり)
という関係になっている。
なぜ四分位範囲を使うのか?
散らばりを表す指標には「範囲(レンジ)」もある。範囲は「最大値 – 最小値」で求める、最も簡単な指標である。
しかし、範囲には大きな弱点がある。外れ値(他のデータから極端に離れた値)の影響を受けやすいのだ。
上のアニメーションを見ると、
- データAとデータBは、外れ値(50)があるかどうかだけが違う
- 「範囲」はAが10、Bが40と大きく異なる
- 「四分位範囲」はどちらも6で変わらない
このように、四分位範囲は外れ値の影響を受けにくいため、より信頼性の高い散らばりの指標といえる。
計算の手順
データを小さい順に並べる
まず、データを昇順(小→大)に整列させる。
第1四分位数(Q1)を求める
下半分のデータの中央値がQ1である。
第3四分位数(Q3)を求める
上半分のデータの中央値がQ3である。
四分位範囲を計算する
四分位偏差を計算する
例題で計算してみよう
次の12人の生徒の通学時間(分)について、四分位範囲と四分位偏差を求めよ。
【解答】
手順1:データを小さい順に並べる
データは12個ある。
手順2:Q1を求める
下半分は最初の6個:$8, 10, 12, 14, 15, 18$
この6個の中央値は、3番目と4番目の平均である。
手順3:Q3を求める
上半分は後ろの6個:$20, 22, 25, 28, 30, 35$
この6個の中央値は、3番目と4番目の平均である。
手順4:四分位範囲を求める
手順5:四分位偏差を求める
よって、四分位範囲は13.5分、四分位偏差は6.75分である。
よくある間違いと対策
データを並べ替え忘れる
四分位数を求めるとき、データが小さい順に並んでいることが大前提である。並べ替える前のデータでQ1やQ3を求めると、全く違う値になってしまう。
対策:最初に必ず「小→大」の順に書き直す習慣をつける。
Q1とQ3を逆にする
「第1四分位数」と聞くと大きい方をイメージしがちだが、Q1は小さい側、Q3は大きい側である。
対策:「Q1 = 下(Quarter lower)」「Q3 = 上(Quarter upper)」と覚える。
四分位範囲と四分位偏差を混同する
「範囲」は幅そのもの、「偏差」は半分の値である。
対策:四分位偏差 = 四分位範囲 ÷ 2 という関係を常に意識する。
この単元のよくある質問
Q. 四分位範囲と四分位偏差、テストではどちらを使うべきですか?
A. 問題文で指定されている方を使う。指定がない場合、「散らばりの大きさ」を聞かれたら四分位範囲、「中央からの離れ具合」を聞かれたら四分位偏差を使うとよい。どちらを求めても、もう一方は2倍または半分ですぐ計算できる。
Q. 範囲(レンジ)と四分位範囲は、どちらが良い指標ですか?
A. 外れ値がないデータなら範囲でも問題ない。しかし、外れ値がある場合は四分位範囲の方が信頼性が高い。四分位範囲は「真ん中50%」だけを見るため、極端な値の影響を受けにくいからである。
Q. データの個数が奇数と偶数で、Q1・Q3の求め方は変わりますか?
A. 基本的な考え方は同じで「下半分の中央値がQ1、上半分の中央値がQ3」である。ただし、奇数個の場合は中央値を下半分・上半分のどちらにも含めないことが多い。教科書や問題によって流儀が異なるため、指示に従うこと。
練習問題
まとめ
この記事では、四分位範囲と四分位偏差について学んだ。ポイントは以下の通りである。
- 四分位範囲 = Q3 − Q1(データの真ん中50%の幅)
- 四分位偏差 = 四分位範囲 ÷ 2(中央値からの平均的な距離)
- 四分位範囲は外れ値の影響を受けにくい、信頼性の高い散らばりの指標である
- 計算の第一歩は、データを小さい順に並べることである
Core-dorill— 基礎を、何度でも。

コメント