中学数学2年 四分位範囲と箱ひげ図
四分位数
編集データを大きさの順に並べた時、下位から、に当たる数値をそのデータの
データ1の四分位数を求めてみよう。まずは資料を小さいほうから順に並べかえる。
- データ1
順位 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
体重(kg) | 53.6 | 55.8 | 56.1 | 57.9 | 60.3 | 62.7 | 63.1 | 65.4 | 67.1 | 70.0 |
まずは中央値を求めてみよう。前でも説明した通り、この資料の中央値は5番目と6番目の平均である61.5kgである。
第1四分位数はこの資料では順位が6番目~10番目の中央値とも考えられる。つまり、8番目の値となるので56.1kgとなる。
第3四分位数も同様に順位が1番目~5番目の中央値と考えられるので求める数値は3番目の値の65.4kgである。
統計には「平均」という概念があるのに、なぜ「中央値」や、「四分位」のQ2という概念を使うのだろうか。
それは、平均は、極端な値に大きく左右されやすく、実態を反映したものとは言えない可能性があるからである。
例えば、日本における二人以上の世帯の負債について考えよう。 日本における二人以上の世帯のうち61.5%は負債を有していないが、二人以上の世帯の負債の平均値は572万円である。これは、一部の世帯が負債を多く所有しているため(負債保有世帯での負債の平均値は1486万円)、これが平均が大きく押し上げている。[1]
このように、平均値は極端な値に大きく左右されやすいという性質がある。従って、中央値を使うとこのような場合の実態が把握しやすくなる。
次にバラツキの大きさについて考えてみる。
中央値によって極端な値の影響を排除できるので、ばらつきの計算でも、中央値の付近だけのばらつきを計算すれば極端な値に左右されにくい指標として使える。
これが四分位偏差の意義である。
こういう意義さえ分かれば、後述の「四分位範囲」がなぜQ3(第3四分位数)とQ1(第1四分位数)との差なのかも、おのずと分かるだろう。
四分位範囲
編集第3四分位数と第1四分位数の差を、そのデータの 四分位
データ1の四分位範囲は となる。
- ※ 中央値付近のデータがどんだけ散らばっているかだけを見たい場合に、四分位範囲が便利である。出典は総務省『統計学習の指導のために』。
四分位偏差
編集四分位範囲の半分のことをその資料の四分位
資料1の四分位偏差は となる。
箱ひげ図
編集次の図のようにデータの分布を四分位数を用いて見やすくしたものを箱ひげ図と言う。
箱ひげ図の読み方
- 長方形の箱の左端が第1四分位数、右端が第3四分位数である。
- 長方形の箱の中の線分が中央値を表している。
- 長方形の箱の両端から伸びている線分の端っこが(外れ値を外した場合の)最大値、最小値を表している。
- 「+」という印を使い、平均値を示すこともある。
- 明らかな外れ値は点で表す事がある。
演習問題
上の箱ひげ図の最小値、最大値、四分位数をそれぞれ求めよ。
- 最小値は一番左の点の値なので、0.5。
- 第1四分位数は箱の左端の範囲なので、7。
- 中央値は箱の中の線分の値なので、8.5。
- 第3四分位数は箱の右端の部分なので、9。
- 最大値は右端のひげの値なので、10。