「無作為に選べ」と言われても、どうやって選べば「無作為」なのかわからない。
なんとなく目についた人を選んでいないだろうか。「適当に選んだから大丈夫」と思っていても、実は気づかないうちに偏りが生まれている。背の高い人ばかり選んでしまったり、声の大きい人ばかりに目が行ったり——人間の「なんとなく」には、必ずクセがある。
この偏りを防ぐ方法が無作為抽出である。この記事では、乱数を使った具体的な手順を、実際にやってみながら理解できるようにする。
そもそも無作為抽出とは?
無作為抽出とは、母集団から標本を選ぶとき、すべての個体が同じ確率で選ばれるようにする方法である。
母集団とは、調べたい対象の全体のことである。例えば「A中学校の全生徒」が母集団になる。標本とは、母集団から選び出した一部のことである。
なぜ「同じ確率で選ばれる」ことが大切なのか。具体例で考えてみよう。
A中学校の生徒300人の平均睡眠時間を調べたいとする。全員に聞くのは大変なので、30人だけを選んで調査する。
このとき、もし「部活が終わって疲れている生徒」ばかりを選んでしまったらどうなるか。睡眠時間が長い生徒ばかりが選ばれ、全体の平均より高い結果が出てしまう。
逆に「朝練のある生徒」ばかりを選んでしまうと、睡眠時間が短い生徒ばかりが選ばれる。
どちらも「偏った標本」であり、母集団全体の傾向を正しく反映していない。
偏りのことをバイアスとも呼ぶ。無作為抽出は、このバイアスを防ぐための方法である。
無作為抽出の方法を図で理解する
無作為抽出には、主に次の方法がある。
- 乱数を使う方法(乱数表、乱数さい、コンピュータ)
- くじ引きを使う方法
ここでは、最も基本的な「乱数を使う方法」を、アニメーションで確認しよう。
このように、人間の判断を入れずに番号だけで選ぶことで、誰が選ばれるかは完全に「偶然」によって決まる。
乱数を使った無作為抽出の手順
具体的な手順を、例題を通して確認しよう。
例題:40人のクラスから5人を無作為に選ぶ。
全員に番号を振る
出席番号順に 1〜40 の番号を振る。
番号の振り方は自由だが、「全員に重複なく番号がつく」ことが条件である。
乱数を生成する
1〜40 の範囲で5個の乱数を生成する。
乱数の生成方法には、次のようなものがある。
- 乱数表:ランダムな数字が並んだ表から読み取る
- 乱数さい:10面体のさいころを使う
- コンピュータ:電卓やパソコンの乱数機能を使う
例として、次の5つの乱数が得られたとする。
重複を処理する
上の例では「7」が2回出ている。同じ人を2回選ぶことはできないので、重複した場合は追加で乱数を生成する。
追加で「29」が得られたとすると、
該当する番号の人を選ぶ
出席番号が 12, 7, 35, 23, 29 の5人を標本として選ぶ。
これで無作為抽出は完了である。
乱数表の使い方
乱数表とは、0〜9の数字がランダムに並んだ表である。以下は乱数表の一部である。
| 4 | 7 | 2 | 0 | 9 | 1 | 5 | 8 | 3 | 6 |
| 3 | 1 | 8 | 5 | 0 | 2 | 9 | 4 | 7 | 6 |
| 0 | 6 | 4 | 2 | 7 | 8 | 1 | 3 | 5 | 9 |
| 9 | 3 | 5 | 1 | 6 | 0 | 4 | 2 | 8 | 7 |
40人から選ぶ場合、1〜40の番号が必要である。乱数表から2桁ずつ読み取り、01〜40の範囲に入る数だけを採用する。
表のどこからスタートするかを決める(例:左上から)。
2桁ずつ読み取る:47, 20, 91, 58, 36, 31, 85, 02, 94, 76, …
01〜40の範囲のものだけを採用する。
- 47 → 範囲外(不採用)
- 20 → 採用
- 91 → 範囲外(不採用)
- 58 → 範囲外(不採用)
- 36 → 採用
- 31 → 採用
- 85 → 範囲外(不採用)
- 02 → 採用
5個集まるまで続ける。
「偏り」が生まれる選び方の例
無作為抽出の重要性を理解するために、「偏りが生まれやすい選び方」を確認しておこう。
人間の判断には、必ず「クセ」がある。無意識のうちに、見えやすい場所の人、話しかけやすい人、自分と似た人を選んでしまう。
だからこそ、乱数やくじ引きという「人間の判断が入らない方法」が必要なのである。
よくある間違いと対策
「適当に選んだから無作為だ」という誤解
「適当」と「無作為」は違う。適当に選んでも、人間の判断が入った時点で偏りが生まれる。
→ 対策:必ず乱数かくじ引きを使う。
乱数の範囲を間違える
50人から選ぶのに、1〜100の乱数を使うと効率が悪い。
→ 対策:母集団の人数と同じ範囲の乱数を使う。
重複の処理を忘れる
同じ番号が出たのに、そのまま使ってしまう。
→ 対策:重複した場合は追加で乱数を生成する。
この単元のよくある質問
Q. なぜ全員を調べないで標本だけを調べるのですか?
A. 母集団が大きいと、全員を調べるには時間やお金がかかりすぎる。また、調査によっては対象を壊してしまうもの(例:電球の寿命検査)もある。無作為抽出で選んだ標本を調べれば、少ない数でも母集団全体の傾向を推測できる。
Q. くじ引きと乱数は、どちらが正確ですか?
A. どちらも正しく行えば同じように偏りのない抽出ができる。ただし、くじ引きは紙を混ぜる手間があり、混ぜ方が不十分だと偏りが生まれることがある。コンピュータの乱数は大量のデータを扱うときに便利である。
Q. 標本の数は何人くらいが適切ですか?
A. 一般に、標本の数が多いほど母集団の傾向を正確に推測できる。ただし、多すぎると調査の負担が増える。中学校の問題では、標本の数は問題文で指定されることが多い。
練習問題
| 2 | 5 | 0 | 8 | 4 | 1 | 7 | 3 | 9 | 6 |
| 1 | 4 | 6 | 0 | 3 | 9 | 2 | 8 | 5 | 7 |
| 7 | 2 | 5 | 3 | 8 | 0 | 6 | 1 | 4 | 9 |
- 教室の前から順に10人を選ぶ
- 出席番号が偶数の生徒を全員選ぶ
- 乱数さいを振って出た番号の生徒を選ぶ
- 先生が「元気そうな生徒」を10人選ぶ
まとめ
この記事では、無作為抽出の方法について学んだ。ポイントは以下の通りである。
- 無作為抽出とは、すべての個体が同じ確率で選ばれるようにする方法である
- 乱数表やコンピュータの乱数を使って、人間の判断を排除する
- 「適当に選ぶ」と「無作為に選ぶ」は違う——必ず乱数かくじ引きを使う
- 重複した番号は追加で乱数を生成して対処する
Core-dorill— 基礎を、何度でも。

コメント