MENU
図やアニメーションが崩れている場合はご連絡ください。

【資料の分析】データの分布と傾向|ヒストグラムと箱ひげ図【中2数学】【必須】

平均値へいきんちは同じなのに、なぜテストの結果がこんなに違うの?」と不思議に思ったことはないだろうか。

実は、平均値だけではデータの本当の姿は見えない。点数がバラバラに散らばっているのか、それとも一箇所に固まっているのか——それを知るには「分布ぶんぷ」を見る必要がある。

分布がわかれば、「自分の点数はクラスの中でどのあたりか」「どの範囲に何人いるか」が一目でわかるようになる。この記事では、分布を可視化する2つの道具——ヒストグラムひすとぐらむ箱ひげ図はこひげず——の読み方と作り方を、図解とアニメーションで順を追って解説する。

対象:中学2年 所要時間:約12分
目次

そもそも「分布」とは何か

分布ぶんぷとは、データがどのように散らばっているかを表す言葉である。

分布ぶんぷを理解するには、「どの値に何個のデータがあるか」を調べればよい。例えば、テストの点数なら「50点台が5人、60点台が8人、70点台が12人…」というように数えることで、分布がわかる。

具体例で考えよう。次の2つのクラスのテスト結果を見てほしい。

クラス平均点点数の内訳
Aクラス60点55, 58, 59, 60, 60, 61, 62, 65(8人)
Bクラス60点20, 40, 55, 60, 65, 80, 90, 90(8人)

どちらも平均は60点だが、Aクラスは60点付近に集中しているのに対し、Bクラスは20点から90点まで大きく散らばっている。

この違いを「平均」だけでは表現できない。そこで登場するのが、分布を目に見える形にするヒストグラム箱ひげ図である。

ヒストグラムとは何か

ヒストグラムとは、データを階級かいきゅう(区間)に分け、各階級に含まれるデータの個数を棒グラフで表したものである。

階級かいきゅうとは、「0点以上10点未満」「10点以上20点未満」のように、データを区切るための区間のことである。階級の幅かいきゅうのはばは通常10点や5点など、一定の間隔に設定する。

ヒストグラムでわかること

  • どの範囲に最も多くのデータがあるか(最頻値さいひんちの範囲)
  • データが左右どちらに偏っているか
  • データの散らばり具合

ヒストグラムの読み方

このヒストグラムから以下のことが読み取れる。

  • 50〜60点の階級に最も多くの人がいる(12人)
  • データは50〜70点あたりに集中している
  • 90点以上は非常に少ない

ヒストグラムの作り方

1階級かいきゅうを決める(例:10点刻み)
2各階級に含まれるデータの個数を数える
3横軸に階級、縦軸に度数どすう(人数)をとる
4各階級の度数に対応する高さの棒を描く

度数どすうとは、各階級に含まれるデータの個数のことである。上の例では「50〜60点の度数は12」という。

箱ひげ図とは何か

箱ひげ図はこひげずとは、データの分布を「最小値」「第1四分位数だいいちしぶんいすう」「中央値ちゅうおうち」「第3四分位数だいさんしぶんいすう」「最大値」の5つの値で表した図である。

データを小さい順に並べたとき、中央値ちゅうおうちは真ん中の値、第1四分位数だいいちしぶんいすうは下位25%の位置の値、第3四分位数だいさんしぶんいすうは下位75%の位置の値である。

箱ひげ図の構造を理解する

箱ひげ図の各部分の意味は以下の通りである。

部分意味
左のひげの端最小値
箱の左端第1四分位数(下位25%の位置)
箱の中の線(赤)中央値(下位50%の位置)
箱の右端第3四分位数(下位75%の位置)
右のひげの端最大値

箱の幅四分位範囲しぶんいはんい(第3四分位数 − 第1四分位数)を表し、データの散らばり具合を示す。箱が大きいほど散らばりが大きい。

四分位数の求め方

具体的なデータで四分位数の求め方を確認しよう。

例題:次の11個のデータの四分位数を求めよ。

$$12, 15, 18, 22, 25, 28, 32, 35, 40, 45, 50$$
1データを小さい順に並べる(既に並んでいる)
2中央値を求める:11個の真ん中は6番目 → $28$
3下位グループ(1〜5番目)の中央値が第1四分位数 → $18$
4上位グループ(7〜11番目)の中央値が第3四分位数 → $40$
$$\text{最小値}=12,\quad Q_1=18,\quad \text{中央値}=28,\quad Q_3=40,\quad \text{最大値}=50$$

ヒストグラムと箱ひげ図を比較する

同じデータでも、ヒストグラムと箱ひげ図では見える情報が異なる。両方の特徴を理解しよう。

比較項目ヒストグラム箱ひげ図
わかりやすい情報各階級の人数、山の形中央値、四分位数、範囲
複数データの比較並べると見づらい並べて比較しやすい
細かい分布の形よくわかるわからない
外れ値の確認わかりにくいひげの長さでわかる

複数データの比較:箱ひげ図の真価

箱ひげ図が最も活躍するのは、複数のデータを比較するときである。

この図から読み取れることは以下の通りである。

  • Cクラスは中央値が最も高く、全体的に成績がよい
  • Bクラスは最小値が20点と低く、苦手な生徒がいる
  • Aクラスは箱の幅(四分位範囲)が大きく、成績のばらつきが大きい

よくある質問と答え(FAQ)

Q. ヒストグラムと棒グラフは何が違うのか?

A. ヒストグラムは連続したデータ(点数、身長など)を扱い、棒同士がくっついている。棒グラフは離散的なデータ(好きな科目の人数など)を扱い、棒同士が離れている。ヒストグラムでは隣り合う階級が連続しているため、棒を離さないのがルールである。

Q. 箱ひげ図の「箱」が大きいとどういう意味か?

A. 箱が大きいということは四分位範囲が広い、つまりデータの中央付近(25%〜75%)が広く散らばっていることを意味する。逆に箱が小さければ、データが中央値付近に集中していることを示す。

Q. 中央値と平均値は同じではないのか?

A. 同じになることもあるが、多くの場合は異なる。特に極端に大きい値や小さい値があると、平均値はその影響を受けるが、中央値は影響を受けにくい。例えば「10, 20, 30, 40, 100」の平均値は40だが、中央値は30である。

練習問題

問1. 次のデータは、ある10人のテストの点数である。第1四分位数、中央値、第3四分位数を求めよ。
$$25, 32, 38, 45, 52, 58, 65, 72, 80, 88$$
問2. 次の度数分布表をもとに、ヒストグラムの形として最も適切なものを選べ。
階級(点)度数(人)
0以上20未満2
20以上40未満5
40以上60未満12
60以上80未満8
80以上100未満3

ア. 左に偏った山 イ. 中央付近に山がある ウ. 右に偏った山 エ. 2つの山がある

問3. ある2つのクラスの箱ひげ図が以下のとおりである。正しい記述をすべて選べ。
  • Xクラス:最小30、Q1=45、中央値60、Q3=75、最大90
  • Yクラス:最小40、Q1=55、中央値65、Q3=70、最大85

ア. Xクラスの方が四分位範囲が大きい
イ. Yクラスの方が中央値が高い
ウ. Xクラスの方が最高点が高い
エ. Yクラスの方がデータの散らばりが小さい

まとめ

この記事では、データの分布を可視化するヒストグラムと箱ひげ図について学んだ。ポイントは以下の通りである。

  • ヒストグラムは階級ごとの度数を棒で表し、分布の形がわかる
  • 箱ひげ図は最小値・四分位数・中央値・最大値の5つでデータを要約する
  • 複数データを比較するときは箱ひげ図が便利
  • 四分位範囲(箱の幅)でデータの散らばりがわかる

Core-dorill— 基礎を、何度でも。

コメント

コメントする

目次