旧課程(-2012年度)高等学校数学C/統計処理

高等学校数学 > 高等学校数学C > 旧課程(-2012年度)高等学校数学C/統計処理

統計処理とは

標本調査・正規分布など自然や社会の仕組みを把握するために必要な統計的方法を学習します。ここでは対象から抽出される標本を確率変数（かくりつへんすう）と考え、標本平均・標本標準偏差などの数値を用いて、ある統計的な判断を下せるようにすることが目標です。

この章の記述は、数列・統計とコンピューター（以上数学B）・確率分布（数学C）の3分野の内容を既習の読者を想定しています。わからない部分がある場合は、まずそれらに戻って復習してみるとよいでしょう。

正規分布

分布曲線

資料の総数が非常に多いときは、階級の幅を十分細かく分けて、ヒストグラムを作ると、対応する度数折れ線は1つの曲線に近づくことが想定され、その曲線がXの真の確率分布（かくりつぶんぷ）を表すと考える。この曲線をXの分布曲線（ぶんぷきょくせん）という。

確率密度関数

時間や長さのように連続的な値をとる変量を連続変量といい、テストの点やものの個数のようにとびとびの値をとる変量を離散変量という。

Xが連続変量である確率変数とする。このとき、次のような性質をもつ曲線 $y=f(x)$ がその分布曲線である。

(1)　 $f(x)\geq 0$

(2)　曲線 $y=f(x)$ とx軸の間の部分の面積は1である。

(3)　 $a\leq b$ とするとき、Xのとる値xが $a\leq x\leq b$ の範囲にある確率が $\int _{a}^{b}f(x)\,dx$ に等しい。

このとき、 $f(x)$ を確率変数Xの確率密度関数（かくりつみつどかんすう）という。

連続変量Xでは、 $P(X=a)=P(X=b)=0$ であるから、

P(a<X<b)\ ,\ P(a\leq X<b)\ ,\ P(a<X\leq b)

はいずれも $P(a\leq X\leq b)$ に等しい。

正規分布

Xが連続的な確率変数で、その分布曲線が関数

y={\frac {1}{{\sqrt {2\pi }}\sigma }}\ e^{-{\frac {(x-m)^{2}}{2\sigma ^{2}}}}

……(A)

のグラフで表されるとき、Xは正規分布 $N(m\ ,\ \sigma ^{2})$ に従うという。

このとき $m\ ,\ \sigma$ はそれぞれ確率変数Xの平均、標準偏差である。

正規分布の平均と標準偏差

Xが正規分布 $N(m\ ,\ \sigma ^{2})$ に従う確率変数であるとき、

E(X)=m\ ,\ \sigma (X)=\sigma

関数(A)のグラフを正規分布曲線という。この曲線は、分布曲線の一般な性質のほかに、更に次の性質をもつ。

(1)　曲線は直線 $x=m$ に関して対称であり、yの値は $x=m$ で最大になる。

(2)　x軸を漸近線とする。

(3)　標準偏差 $\sigma$ が大きくなると、曲線は横に広がって山が低くなり、 $\sigma$ が小さくなると、曲線は対称軸 $x=m$ の周りに集まって山が高くなる。

Xが正規分布 $N(m\ ,\ \sigma ^{2})$ に従うとき、

P(m-\sigma \leq X\leq m+\sigma )=0.6827

P(m-2\sigma \leq X\leq m+2\sigma )=0.9545

P(m-3\sigma \leq X\leq m+3\sigma )=0.9973

であることが知られている。

標準正規分布

正規分布 $N(1\ ,\ 0)$ を標準正規分布（ひょうじゅんせいきぶんぷ、standard normal distribution）という。

標準正規分布の分布曲線の方程式は

y={\frac {1}{\sqrt {2\pi }}}\ e^{-{\frac {x^{2}}{2}}}

である。

標準正規分布 $N(1\ ,\ 0)$ において、確率 $P(0\leq Z\leq x)$ を $N(x)$ で表すとする。

いろいろなxの値に対する $N(x)$ の値を表にまとめたものが正規分布表（せいきぶんぷひょう）である。

例

Zが標準正規分布 $N(1\ ,\ 0)$ に従うとき、正規分布表から

P(1\leq Z\leq 2.5)=N(2.5)-N(1)=0.4938-0.3413=0.1525

P(-0.8\leq Z\leq 1.5)=N(0.8)+N(1.5)=0.2881+0.4332=0.7213

正規分布 $N(m\ ,\ \sigma ^{2})$ に従う確率変数Xに対して

Z={\frac {X-m}{\sigma }}

とおくと、Zは標準正規分布 $N(1\ ,\ 0)$ に従う確率変数である。

正規分布の標準化

確率変数Xが正規分布 $N(m\ ,\ \sigma ^{2})$ に従うとき、

Z={\frac {X-m}{\sigma }}

で与えられる確率変数Zは標準正規分布 $N(1\ ,\ 0)$ に従う。

問題例

- 問題

確率変数Xが正規分布 $N(3\ ,\ 4^{2})$ に従うとき、確率 $P(1\leq X\leq 7)$ を求めよ。

- 解答

Xが $N(3\ ,\ 4^{2})$ に従うとき、 $Z={\frac {X-3}{4}}$ は $N(1\ ,\ 0)$ に従う。

{\begin{aligned}P(1\leq X\leq 7)&=P\left({\frac {1-3}{4}}\leq Z\leq {\frac {7-3}{4}}\right)\\&=P(-0.5\leq Z\leq 1)\\&=P(-0.5\leq Z\leq 0)+P(0\leq Z\leq 1)\\&=P(0\leq Z\leq 0.5)+P(0\leq Z\leq 1)\\&=N(0.5)+N(1)\\&=0.1915+0.3413\\&=0.5328\\\end{aligned}}

二項分布と正規分布

1個のさいころをn回投げるとき、1の目の出る回数をXとすると、Xのとり得る値は $0,1,2,\cdots ,n$ である。このとき、 $X=r$ となる確率は

P(X=r)=_{n}C_{r}\left({\frac {1}{6}}\right)^{r}\left({\frac {5}{6}}\right)^{n-r}

となり、確率変数Xは二項分布 $B\left(n\ ,\ {\frac {1}{6}}\right)$ に従う。

$B\left(n\ ,\ {\frac {1}{6}}\right)$ について、 $n=10\ ,\ 20\ ,\ 30\ ,\ 40\ ,\ 50$ のグラフをかくと、nが大きくなるにつれグラフは次第に正規分布曲線に似た左右対称の形に近くなっている。

一般に、二項分布 $B(n\ ,\ p)$ に従う確率変数Xは、 $q=1-p$ とおくと、nが十分大きいとき近似的に正規分布 $N(np\ ,\ npq)$ に従うことが知られている。

したがって、Xを標準化した確率変数

Z={\frac {X-np}{\sqrt {npq}}}

の分布は、標準正規分布 $N(1\ ,\ 0)$ に近いものとなる。

二項分布の正規分布による近似

二項分布 $B(n\ ,\ p)$ に従う確率変数Xを標準化して

Z={\frac {X-np}{\sqrt {npq}}}

　　　　ただし、

q=1-p

とおくと、nが十分大きいとき、Zは近似的に標準正規分布 $N(1\ ,\ 0)$ に従う。

問題例

- 問題

1枚の硬貨を800回投げるとき、表が出る回数が380回以下である確率を求めよ。

- 解答

表が出る回数をXとする。Xは二項分布 $B\left(800\ ,\ {\frac {1}{2}}\right)$ に従う。

Xを標準化すると

Z={\frac {X-800\times {\frac {1}{2}}}{\sqrt {800\times {\frac {1}{2}}\times {\frac {1}{2}}}}}={\frac {X-400}{10{\sqrt {2}}}}

800は十分に大きいので、Zは近似的に標準正規分布 $N(1\ ,\ 0)$ に従うから、

{\begin{aligned}P(X\leq 380)&=P\left(Z\leq {\frac {380-400}{10{\sqrt {2}}}}\right)\\&=P(Z\leq -{\sqrt {2}})\\&=P(Z\leq -1.41)\\&=P(Z\geq 1.41)\\&=P(Z\geq 0)-P(0\leq Z\leq 1.41)\\&=0.5-N(1.41)\\&=0.5-0.4207\\&=0.0793\\\end{aligned}}

標本調査

標本の抽出

統計調査には、対象となる集団のすべてを調べる全数調査と、対象となる集団の一部を調べる標本調査がある。

標本調査の場合に、調査の対象になるものの全体を母集団といい、調査のために母集団から取り出されたものを標本といい、母集団から標本を取り出すことを標本の抽出という。また、母集団に含まれるものの個数を母集団の大きさといい、標本全体が含むもの個数を標本の大きさという。

標本調査は、その標本の性質から母集団の性質を推定するのが目的であるから、標本が母集団の性質をよく表すように選ばなければならない。例えば200人から30人を選ぶとき、かたよりがないように、くじ引きなどを用いて選ぶことがある。

このように、かたよりなく取り出すことを無作為抽出（むさくいちゅうしゅつ、英：random sampling）といい、そのように抽出された標本を無作為標本という。

標本を抽出するとき、一度抽出した標本をもとに戻してから次の標本を抽出する方法を復元抽出という。これに対して、抽出した標本をもとに戻さずに次の標本を抽出する方法を非復元抽出という。

無作為抽出を行うには、乱数さいや乱数表がよく使われる。最近はコンピューターを使って乱数に近い数の列（擬似乱数）をつくらせ、それを使うのが普通になっている。

標本平均の分布

大きさNの母集団において変数Xのとる値が $a_{1},a_{2},\cdots ,a_{l}$ であるとし、それぞれの値をとる度数を $f_{1},f_{2},\cdots ,f_{l}$ とする。よって

f_{1}+f_{2}+\cdots +f_{l}=N

である。この母集団から1つの標本を無作為に抽出したとき、その標本の変量Xの値が $a_{k}$ である確率が ${\frac {f_{k}}{N}}$ であり、その確率分布は下の表のようになる。

変量X	$a_{1}$		$a_{2}$		$\cdots$		$a_{l}$		計
確率P	${\frac {f_{1}}{N}}$		${\frac {f_{2}}{N}}$		$\cdots$		${\frac {f_{l}}{N}}$		1

母集団における確率分布を母集団分布という。また、その平均、分散、標準偏差を母平均、母分散、母標準偏差といい、それぞれ $m\ ,\ \sigma ^{2}\ ,\ \sigma$ で表す。

m={\frac {1}{N}}\sum _{k=1}^{l}a_{k}f_{k}

\sigma ^{2}={\frac {1}{N}}\sum _{k=1}^{l}\left(a_{k}-m\right)^{2}f_{k}

母集団から復元抽出で無作為に抽出した大きさnの標本の値を $x_{1},x_{2},\cdots ,x_{n}$ とすれば、これはそれぞれ母集団分布に従う互いに独立な確率変数 $X_{1},X_{2},\cdots ,X_{n}$ の1つの値となる。

確率変数Xの平均と分散を $E(X)\ ,\ V(X)$ で表すと、母集団分布の平均と分散は、それぞれ $m\ ,\ \sigma ^{2}$ であるから、

E(X_{1})=E(X_{2})=\cdots =E(X_{n})=m

V(X_{1})=V(X_{2})=\cdots =V(X_{n})=\sigma ^{2}

母集団から復元抽出で無作為に抽出した大きさnの標本の平均は、次の式で与えられる確率変数の1つの値となる。

{\overline {X}}={\frac {1}{n}}(X_{1}+X_{2}+\cdots +X_{n})

この式で与えられる確率変数 ${\overline {X}}$ を標本平均（ひょうほんへいきん）という。

標本平均 ${\overline {X}}$ の平均 $E({\overline {X}})$ 、分散 $V({\overline {X}})$ 、標準偏差 $\sigma ({\overline {X}})$ は次のようになる。

E({\overline {X}})=E\left({\frac {1}{n}}(X_{1}+X_{2}+\cdots +X_{n})\right)

={\frac {1}{n}}\left(E(X_{1})+E(X_{2})+\cdots +E(X_{n})\right)={\frac {1}{n}}\times nm=m

V({\overline {X}})=V\left({\frac {1}{n}}(X_{1}+X_{2}+\cdots +X_{n})\right)

={\frac {1}{n^{2}}}\left(V(X_{1})+V(X_{2})+\cdots +V(X_{n})\right)={\frac {1}{n^{2}}}\times n\sigma ^{2}={\frac {\sigma ^{2}}{n}}

\sigma ({\overline {X}})={\sqrt {V({\overline {X}})}}={\sqrt {\frac {\sigma ^{2}}{n}}}={\frac {\sigma }{\sqrt {n}}}

標本平均の分布

母平均m、母分散 $\sigma ^{2}$ 、母標準偏差 $\sigma$ の母集団から復元抽出で無作為に大きさnの標本を取り出すとき、標本平均 ${\overline {X}}$ の平均 $E({\overline {X}})$ 、分散 $V({\overline {X}})$ 、標準偏差 $\sigma ({\overline {X}})$ は

E({\overline {X}})=m\ ,\ V({\overline {X}})={\frac {\sigma ^{2}}{n}}\ ,\ \sigma ({\overline {X}})={\frac {\sigma }{\sqrt {n}}}

標本平均の分布と正規分布

一般に、標本平均の分布 ${\overline {X}}$ の分布について、次のことが成り立つ。

標本平均の分布

母平均m、母標準偏差 $\sigma$ の母集団から無作為に抽出した大きさnの標本平均 ${\overline {X}}$ の分布は、nが十分大きければ、正規分布 $N\left(m\ ,\ {\frac {\sigma ^{2}}{n}}\right)$ に近い。

したがって $Z={\cfrac {{\overline {X}}-m}{\cfrac {\sigma }{\sqrt {n}}}}$ とおくと、Zは近似的に標準正規分布 $N(1\ ,\ 0)$ に従う。

また、母集団分布が正規分布 $N(m\ ,\ \sigma ^{2})$ の場合には、nの値が何であっても、標本平均 ${\overline {X}}$ の分布は、正規分布 $N\left(m\ ,\ {\frac {\sigma ^{2}}{n}}\right)$ となる。

問題例

- 問題

母平均120、母標準偏差16である母集団から、大きさ100の標本を無作為に抽出するとき、標本平均 ${\overline {X}}$ についての確率 $P({\overline {X}}\leq 118)$ を求めよ。

- 解答

${\overline {X}}$ の平均は

E({\overline {X}})=m=120

${\overline {X}}$ の標準偏差は

\sigma ({\overline {X}})={\frac {\sigma }{\sqrt {n}}}={\frac {16}{\sqrt {100}}}=1.6

100は十分に大きいので、 ${\overline {X}}$ は近似的に正規分布 $N(120\ ,\ 1.6^{2})$ に従う。

したがって、 $Z={\frac {{\overline {X}}-120}{1.6}}$ とおくと、Zは近似的に標準正規分布 $N(1\ ,\ 0)$ に従う。

{\begin{aligned}P({\overline {X}}\leq 118)&=P\left(Z\leq {\frac {118-120}{1.6}}\right)\\&=P(Z\leq -1.25)\\&=P(Z\geq 1.25)\\&=P(Z\geq 0)-P(0\leq Z\leq 1.25)\\&=0.5-N(1.25)\\&=0.5-0.3944\\&=0.1056\\\end{aligned}}

推定

母平均の推定

ある母集団において、母平均mが未知のとき、これを標本調査を通じて推測することを母平均の推定（すいてい）という。

母平均m、母標準偏差 $\sigma$ の母集団から、大きさnの標本を無作為抽出し、その標本平均を ${\overline {X}}$ とする。nが大きいとき、 ${\overline {X}}$ の分布は正規分布 $N\left(m\ ,\ {\frac {\sigma ^{2}}{n}}\right)$ に近づくから、これを標準化した

Z={\cfrac {{\overline {X}}-m}{\cfrac {\sigma }{\sqrt {n}}}}

は標準正規分布 $N(1\ ,\ 0)$ に近づく。

正規分布表を用いると、

{\begin{aligned}P(|Z|\leq k)&=2P(0\leq Z\leq k)\\&=2N(k)=0.95\\\end{aligned}}

を満たすkの値は1.96である。

したがって

P\left(|{\overline {X}}-m|\leq 1.96\times {\frac {\sigma }{\sqrt {n}}}\right)=0.95

となり、括弧内の式を変形すると、次のようになる。

P\left({\overline {X}}-1.96\times {\frac {\sigma }{\sqrt {n}}}\leq m\leq {\overline {X}}+1.96\times {\frac {\sigma }{\sqrt {n}}}\right)=0.95

　　……(1)

このとき、区間 ${\overline {X}}-1.96\times {\frac {\sigma }{\sqrt {n}}}\leq m\leq {\overline {X}}+1.96\times {\frac {\sigma }{\sqrt {n}}}$ を信頼度95%の信頼区間という。

また、 $P(|Z|\leq k)=0.99$ を満たすkの値は2.58であることから、信頼度99%の信頼区間は(1)で、1.59を2.58に変えればよい。

母平均の推定

母標準偏差 $\sigma$ の母集団からとった大きさnの標本の標本平均が ${\overline {X}}$ であるとき、母平均mの信頼区間は

信頼度95%では　　　 ${\overline {X}}-1.96\times {\frac {\sigma }{\sqrt {n}}}\leq m\leq {\overline {X}}+1.96\times {\frac {\sigma }{\sqrt {n}}}$

信頼度99%では　　　 ${\overline {X}}-2.58\times {\frac {\sigma }{\sqrt {n}}}\leq m\leq {\overline {X}}+2.58\times {\frac {\sigma }{\sqrt {n}}}$

母標準偏差 $\sigma$ の値が既知でないときは、 $\sigma$ の代わりに標本から得られた標準偏差sを用いる。ただし、このときは、標本の大きさnは十分大きくなければならない。

問題例

- 問題

ある県の高校1年の男子1600人を無作為に抽出して身長を調べたところ、平均身長が164cm、標準偏差が6cmであった。この県の高校1年男子の平均身長mを、信頼度95%で推定せよ。

- 解答

標本平均は ${\overline {x}}=164$ 、標準偏差は $s=6$ であるが、標本の大きさは $n=1600$ で十分に大きい。

よって、標本の標準偏差sと母集団の標準偏差 $\sigma$ が等しいと考えると、この県の高校1年男子の平均身長mについて、信頼度95%の信頼区間は

164-1.96\times {\frac {6}{\sqrt {1600}}}\leq m\leq 164+1.96\times {\frac {6}{\sqrt {1600}}}

よって $164-0.3\leq m\leq 164+0.3$ より

163.7\leq m\leq 164.3

母比率の推定

母集団において、ある性質Aをもうものの全体に対する割合pを母比率という。

母集団から復元抽出で大きさnの標本を無作為抽出し、その中で性質Aをもつものの個数をXとすると、Xは二項分布 $B(n\ ,\ p)$ に従う。

よって、Xの平均mと標準偏差 $\sigma$ は

m=np\ ,\ \sigma ={\sqrt {npq}}

　　ただし、

q=1-p

となる。

標本の大きさnが十分大きいとき、この分布は正規分布 $N(m\ ,\ \sigma )$ に近いので、母平均の推定の考えを用いると

P\left(X-1.96{\sqrt {np(1-p)}}\leq np\leq X+1.96{\sqrt {np(1-p)}}\right)=0.95

となり、括弧内の式を変形すると、

P\left({\frac {X}{n}}-1.96{\sqrt {\frac {p(1-p)}{n}}}\leq p\leq {\frac {X}{n}}+1.96{\sqrt {\frac {p(1-p)}{n}}}\right)=0.95

となる。

実際に、母比率を推定するには、次のようにする。

母集団から取り出した標本において、性質Aをもつものの個数Xの比率 ${\overline {p}}={\frac {X}{n}}$ を求める。nが十分に大きいとき、pは ${\overline {p}}$ に近いと見なしてよいから、 ${\frac {X}{n}}$ とpを ${\overline {p}}$ でおきかえた次の区間を信頼度95%の信頼区間とする。

{\overline {p}}-1.96{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}\leq p\leq {\overline {p}}+1.96{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}

母比率の推定

大きさnの標本の標本比率が ${\overline {p}}$ のとき、母比率pの信頼区間は

信頼度95%では　　　 ${\overline {p}}-1.96{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}\leq p\leq {\overline {p}}+1.96{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}$

信頼度99%では　　　 ${\overline {p}}-2.58{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}\leq p\leq {\overline {p}}+2.58{\sqrt {\frac {{\overline {p}}(1-{\overline {p}})}{n}}}$