- 確率変数と確率分布
試行の結果によってどの値をとるか定まり、とり得る値の各々に対してその値をとる確率が定まるような変数を確率変数と呼ぶ。
確率変数 のとり得る値が であるとき、 が値 をとる確率 を 、 である確率 のように表す。
を と表すこととすると、 と の対応関係は以下のようになる。
| | | | | | 計 |
| | | | | | |
この対応関係を の確率分布あるいは単に分布と呼び、確率変数 はこの分布に従うという。
このとき、常に であり、 である。
- 期待値と分散
の確率分布が以下の表であるとする。
| | | | | | 計 |
| | | | | | |
このとき、 を の期待値と呼び、 または または で表す( はギリシャ文字で、アルファベットの に対応する文字である)。
次に、確率変数 を考える。この確率変数の期待値を の分散と呼び、 で表すこととする。このとき、期待値の定義から であり、 の単位は測定単位の二乗(例えば の単位が なら の単位は )である。そこで、 を の標準偏差と呼び、 で表すこととする( は の小文字である)。
分散を表す式を変形すると、
となり、 は確率変数 の期待値に等しいので が成り立つ。
今までの事項を纏めると以下のようになる。
の期待値:
の分散:
の標準偏差:
確率変数 の期待値・分散・標準偏差のことをそれぞれ の分布の平均・分散・標準偏差とも呼ぶ。標準偏差は分布の平均を中心として の散らばる傾向の程度を表しており、標準偏差の値が小さいほど は分布の平均の近傍に集中する。
なお、分散と標準偏差を纏めて散布度、代表値と合わせて分布の特性値と呼ぶ場合がある。
- 確率変数の変換
の確率分布が以下の表であるとする。
| | | | | | 計 |
| | | | | | |
を定数とすると、一次式 で定められる も確率変数となり、そのとる値は となる。よって の確率分布は以下の表のようになる。
| | | | | | 計 |
| | | | | | |
確率変数 に対して上のような を考えることを確率変数の変換と呼ぶ。
の期待値・分散・標準偏差は以下のようになる。
確率変数 と実数 に対し が同時に成り立つ確率を のように表すこととする。
2つの確率変数 についてとりうる値がそれぞれ 、 であるとする。 とおいたとき、以下の表のように全ての の組み合わせにおいて と との対応が得られる。
\ | | | | | | | 計 |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
計 | | | | | | | |
このような対応を と の同時分布という。
各 について、それぞれ が成り立つので、 の確率分布はそれぞれ以下のようになる。
| | | | | | 計 |
| | | | | | |
| | | | | | 計 |
| | | | | | |
- 確率変数の和の期待値
2つの確率変数 について、和 もまた確率変数であり、同時分布表と確率変数変換の等式から、確率変数の和の期待値について 、 が成り立つことがわかる。これは確率変数が3つ以上であっても同様に成り立つ。
- 事象の独立・従属
一般に2つの事象 において が成り立つとき、事象 が起こることは事象 の起こる確率に無関係である。これを事象 は事象 に独立であるという。このとき、確率の乗法定理により が成り立つ。この式は と同値であるため、事象 が起こることも事象Aの起こる確率に無関係、つまり事象 は事象 に独立であると言える。よって、 が成り立つとき、2つの事象 は互いに独立である。独立でない場合は2つの事象 は従属であるという。なお、事象 の独立・従属と対応する確率変数 の独立・従属は一致する。
- 確率変数の積の期待値
2つの確率変数 について、積 もまた確率変数である。 が互いに独立なとき、同時分布表より確率変数の積の期待値は以下のように計算される。
これは3つ以上の確率変数においても互いに独立ならば成立する。
- 確率変数の和の分散
確率変数 の分散について考える。
このとき、確率変数 が互いに独立ならば を用いることで、
上式
と変形できる。
同様に、確率変数変換の等式より確率変数 が互いに独立ならば が成り立つ。
これらは3つ以上の確率変数においても互いに独立ならば成立する。
- 確率変数の積の分散(発展)
確率変数 の分散について考える。
分散の性質より と変形できる。
が互いに独立ならば も互いに独立であるので、 が成り立つ。
よって となる。
ここで分散の性質より上式は と変形できるので、
展開して となる。
これは3つ以上の確率変数においても互いに独立ならば成立する。
なお、上記で紹介した確率変数の和の分散、確率変数の積の期待値・分散については、確率変数が従属である場合には確率変数のとる値を用いて直接計算する必要がある。
確率 で か かの2通りの結果をとる試行を独立に 回繰り返したとき、 が起こる回数 の確率分布は反復試行の確率より以下のようになる。ただし、 である。
| | | | | | | | | 計 |
| | | | | | | | | |
表の確率は二項定理の展開式の各項と一致している。
このような分布のことを二項分布と呼び、 のように書く。ここでは、確率変数 が二項分布 に従うことを と表すこととする。
事象 の起こる確率が である試行を独立に 回行うとき、第 回目の試行で事象 が起これば 、起こらなければ の値をとる確率変数を とおく。
このとき、 なので期待値の定義より である。
また、 より である。
とおくと、確率変数 は 回の反復試行において事象 が起こる回数であるから、 である。
よって、確率変数の和の期待値・分散を求める公式を用いて、
である。
纏めると、以下のようになる。
のとき、
、 、
ただし、
- 連続型確率変数
度数分布表で表された、ある変量 についてのデータがある。このとき、 が階級値をとる確率はその階級の相対度数であると考えて良い。つまり、 は階級値の値をとる確率変数であり、その分布は相対度数の分布と一致する。この確率分布を図示するには、各階級の上の長方形の面積がその階級の相対度数を表すようなヒストグラムを書けば良い。
データの大きさを増し、階級の幅も狭くしていくと、ヒストグラムの形は一つの曲線に近づいていく。そこで、連続的な値をとる確率変数 に対し、 となる確率が ー グラフ上の曲線 と直線 と 軸で囲まれた領域の面積で表されるように一つの曲線を対応させる。このような曲線を の分布曲線という。
連続的な値をとる確率変数を連続型確率変数といい、 を確率密度関数と呼ぶ。なお、 の定義域は実数全体のことも、その一部分のこともある。今まで扱ってきたような、飛び飛びの値をとる確率変数は離散型確率変数と呼ぶ。
確率密度関数の性質
常に
のとる値の範囲が のとき、
以下、特に断りがない場合、確率変数は連続型であるとする。
確率変数 のとる値の範囲が でその確率密度関数が であるとき、期待値・分散・標準偏差は定積分を用いて以下のように定義される。
これは の場合も含む。
離散型確率変数の期待値・分散の公式と比べると、 を に、 を に、 を に置き換えただけで同じ形をしていることがわかる。
- 累積分布関数(発展)
確率密度関数のグラフを直線 で区切った左側の面積を と置くと、 は が 以下の値を取る確率(累積確率)に一致する。このとき、 を累積分布関数と呼ぶ。その定義より、累積分布関数と確率密度関数の間には という関係がある。つまり、確率密度関数の における値 は累積分布関数 の における微分係数である。
- 正規分布
確率変数 が実数 と正の実数 を用いて表される関数 を確率密度関数に持つとき、この の分布を正規分布またはガウス分布と呼び、 のように表す。また、曲線 を正規分布曲線と呼ぶ。ここでは、確率変数 が正規分布 に従うことを と表すこととする。
のとき、 が成り立つ。証明は数Ⅲレベルの積分の知識が必要なため省略する。なお、 は「ネイピア数」と呼ばれる無理数である。詳しくは数学Ⅲの微分で扱う。
また、以下のような性質がある。
正規分布の性質
平均値と最頻値と中央値が一致する
曲線は直線 に関して対称で、 は で最大値をとる。
軸を漸近線とする
標準偏差の値の大小と曲線の山の高低が対応している。
正規分布は連続型確率変数の分布の代表例である。身の周りの現象の中には、観測される変量の分布が正規分布に近いものが多くあり、正規分布を有効に利用することができる。最も有名な例を出すと、偏差値の導出に利用されている。
- 標準正規分布
正規分布のうち、特に を標準正規分布と呼ぶ。
のとき、 とすると であることが知られている。そこで とすると であり、 が成り立つ。
このように、正規分布に従うある確率変数を標準正規分布に従う確率変数に変換することを、標準化と呼ぶ。
標準正規分布に従う確率変数 において としたとき、 がとる値を纏めた表を(標準)正規分布表と呼ぶ。正規分布を利用する際には必須になる表であり、大学入試においても問題冊子の最後の方に載せられていることが多い。本書の最終項に載せているので、演習問題を解くときに利用すると良い。
標準正規分布における確率について、次の等式が成り立つ。
なお、正規分布表の値は累積密度関数 の における微分係数であり、正規分布表を用いて求める確率ではないことに注意。ここで は誤差関数と呼ばれる特殊関数で、 で定義される。
- 正規化
二項分布 に従う確率変数 について、 となる確率を を大きくしながら計算し、そのグラフを書くと、次第にグラフが左右対称になっていくことがわかる。
そこで、二項分布を正規分布で近似することを考える。
二項分布の正規分布による近似
が十分大きいとき、 ならば近似的に である。
一般に、ある確率分布に従う変数を正規分布に従う変数に近似する変換を正規化あるいは正規近似と呼ぶ。
二項分布に従う確率変数を正規化した後、さらに標準化することで正規分布表を活用することができる。先ほどの標準化の式に を代入するだけなので、そこまで手間はかからない。
なお、二項分布においてはベルヌーイ試行の確率 が0.5に近ければ近いほど正規近似の精度が上がることが知られている。
半整数補正
- とすると である。
- ここで、整数 に対し が を底辺の中心とする幅1の長方形の面積で表されるような ー グラフを考える。
- このグラフに の確率密度関数のグラフを重ねると、例えば について であることがわかる。
- とおくと であるから
- 二項分布から直接求めると であり、高い精度で近似できることがわかる。
- このように、 について0.5だけズラして置き換えることを半整数補正と呼ぶ。
- なお、半整数補正を行わないで計算すると、 となり、近似値が小さくなる。
- がともに5より大きいならば、半整数補正により実用上十分な精度で近似値を確保することができる。半整数補正を行わない場合は ともにかなり大きくないと良い精度にならない。
調べたい対象全体のデータを集める調査を全数調査と呼ぶ。国勢調査などがこれにあたる。全数調査は対象が厖大な場合に多くの労力・時間・費用を必要とする。また、工場等においては調査によって製品が傷つく場合(耐久試験など)には好ましくない。このような場合、対象全体から一部を抜き出して調べ、その結果から全体の状況を推測する調査を行う。このような調査を標本調査と呼ぶ。
標本調査における調べたい対象全体の集合を母集団、調査のために母集団から抜き出された要素の集合を標本と呼び、母集団から標本を抜き出すことを標本の抽出と呼ぶ。また、母集団の要素の個数を母集団の大きさ、標本の要素の個数を標本の大きさと呼ぶ。なお、ここでの「母」は「そこから何かを生じさせるもとになるもの」を意味する(「酵母」、「母校」等と同じ用法)。
標本調査では標本を母集団の正しい縮図にするために、標本が特別な属性を持つものに偏らないようにする必要がある。母集団の各要素を等しい確率で抽出することを無作為抽出と呼び、無作為抽出で選ばれた標本を無作為標本と呼ぶ。無作為抽出では乱数賽や乱数表などが用いられることがある。詳しくは「w:乱数生成」を参照。
全ての要素を母集団全体から無作為抽出することは容易ではないため、層化抽出法、クラスター抽出法、多段抽出法などさまざまな抽出方法が編み出されており、それぞれに長所・短所が存在する。
- 母集団分布
母集団に属する要素についてのデータをある変量の値の集合と考えることで、 ここまで扱ってきたような統計的手法が使える。
大きさ の母集団において、変量 のとる値と要素の個数をそれぞれ と置く。
このとき、変量xの度数分布表は以下のようになる。
階級値 | | 計 |
度数 | | |
また、変量 の平均 と標準偏差 は以下のように求められる。
この母集団から大きさ で無作為抽出するとき、その要素における変量 の値 は偶然に支配されるが、 となる確率 は で与えられる。
よって は以下のような確率分布を持つ確率変数と考えられる。
| | 計 |
| | |
この確率分布は母集団の相対度数の分布と一致する。
一般に、母集団における変量xの分布を母集団分布、その平均値を母平均、分散を母分散、標準偏差を母標準偏差と呼ぶ。
上の確率分布から、大きさ1の無作為標本における変量 の値 と母平均 、母分散 、母標準偏差 について、 が成り立つ。
実際の統計では母集団の大きさが非常に大きく、母集団分布は度数分布と同様に連続型確率変数の分布として近似される。そこで、正規分布に近似することで具合が良くなる場合が多い。
- 復元抽出
母集団から標本を抽出するのに、毎回元に戻しながら次のものを取り出す抽出を復元抽出と呼ぶ。逆に、取り出したものを戻さずに続けて抽出することを非復元抽出と呼ぶ。
大きさ の標本の要素における変量 の値を と置く。標本が復元抽出によるものならば、母集団から大きさ1の標本を無作為抽出することを 回繰り返す反復試行であるから、 はそれぞれが母集団分布に従う互いに独立な確率変数となる。非復元抽出の場合でも、母集団の大きさ が標本の大きさ より十分大きい( )場合には近似的に復元抽出による標本と見なすことができる。
- 標本平均
大きさ の標本について、 を標本平均、 を標本分散、 を標本標準偏差と呼ぶ。
は「母集団から標本を抽出する」という試行の結果で値が定まる確率変数なので、 も同様の試行の結果で値が定まる確率変数である。
復元抽出の場合、確率変数の値 は大きさ1の標本の確率変数と見なすことができ、それぞれ母集団分布に従うので、 が成り立つ。
はそれぞれ互いに独立なので、確率変数の和の期待値・分散を求める公式より
非復元抽出の場合も ならば同様である。
- 標本比率
母集団全体の中である特性Aを持つ要素の割合を特性Aの母比率、標本の中で特性Aを持つ要素の割合を特性Aの標本比率と呼ぶ。
特性Aの母比率が である十分大きな母集団から、大きさがnの標本を無作為抽出するとき、標本の中で特性Aを持つ要素の個数を とおくと、 である。ここで、 として正規化すると、近似的に である。
特性Aの標本比率を とおくと、 より は確率変数であり、
であるので、近似的に である。
特性Aの母比率が である母集団において、特性Aを持つ要素を1、持たない要素を0で表す変量 を考える。このとき、 はそれぞれ1または0である。特性Aの標本比率 はこれらのうち値が1であるものの割合であるから、 が成り立つ。よって、標本比率は標本平均の特別な場合である。
一般に、標本平均 について以下の法則が成り立つ。
標本平均の分布
標本の大きさ が大きいとき、近似的に である。
母集団分布が正規分布のとき、常に である。
- 大数の法則
標本標準偏差について、 より、 が大きくなると は母平均 の近くに集中して分布する。すなわち、 が に近い値をとる確率を とすると、 である。
は「 を限りなく大きくする」という意味の記号である。詳しくはこちらを参照。
したがって、以下が成り立つ。
大数の法則
大きさ の無作為標本の標本平均 は が大きくなるにつれて母平均 に近づく。
- 母平均の推定
母集団が大きいとき、母平均を求めるには時間も労力も相当にかかる。そこで、標本平均から母平均を推定することを考える。
標本の大きさ が大きいとき、近似的に であるのは先程学んだ。 の標準化を考えて とおくと、近似的に である。
ここで正規分布表より なので、
すなわち である。
この式は区間 が値 を含むことが約95%の確実さで期待できることを示している。
この区間を母平均 に対する信頼度95%の信頼区間と呼び、 のように表す。
母平均 に対して信頼度95%の信頼区間を求めることを、「母平均 を信頼度95%で区間推定する」という。
信頼度95%とは、大きさ の無作為抽出を繰り返し、得られたそれぞれの標本平均に対し区間推定をして信頼区間を多数作ると、母平均 の含まれる区間が95%の割合で現れることが期待できることを指している。
信頼度99%で推定する場合、正規分布表より なので、信頼区間は となる。
なお、実際の統計では母標準偏差 がわからない場合が多いので、 が大きいときは代わりに標本標準偏差 を用いて良い。
- 母比率の推定
母平均と同様、標本比率 から母比率 を区間推定することもできる。
標本の大きさ が大きいとき、先ほど学んだように である。したがって、母平均の推定の場合と同様に考えて である。
であり、大数の法則より が大きいとき は と見做して良いから、 とおくと、母比率 に対する信頼度95%の信頼区間は である。
信頼度99%で推定する場合、標本平均の場合と同様に考えて信頼区間は となる。
のとる値は1または0であるから、 である。ここで を用いると、標本分散 について以下のように変形できる。
先ほど母標準偏差 を確率変数 で置き換えたが、上式より なので、この置き換えは母平均の推定で行なった「母標準偏差 を標本標準偏差 で置き換える」ことの特別な場合である。
ここでは信頼区間を大括弧[]で表したが、実は一般に区間 は「閉区間」と呼ばれ、 で表される。詳しくは数学Ⅲの極限で扱う。
なお、ある区間でもって母集団の特性値を推定する区間推定に対し、一つの値から母集団の特性値を推定することを点推定と呼ぶ。例として、大数の法則を利用して標本平均から母平均を近似することが挙げられる。区間推定と点推定を合わせて統計的推定と呼ぶ。
数学Iで扱ったように、仮説検定とは以下の手順で仮説が正しいか判断する手法である。
- 正しいかどうか判断したい仮説[1]に反する仮説[2]を立てる
- 仮説[2]のもとで事象が起こる確率を調べる。
- 確率が小さく、仮説[2]のもとで事象が起こりにくいと判断できるとき、仮説[2]は正しくないと判断できる。
- 仮説[2]が偽と判断されたため、それに反する仮説[1]が真であると判断される。
なお、仮説[2]が正しくないと判断できないとき、仮説[1]の真偽を判断することはできない
仮説[1]を対立仮説、仮説[2]を帰無仮説と呼び、仮説が正しくないと判断することを「仮説を棄却する」という。棄却の基準となる確率を有意水準あるいは危険率と呼び、 で表す。有意水準にはよく5%( )、1%( )が用いられる。有意水準に対して帰無仮説が棄却されるような確率変数の値の範囲を棄却域と呼ぶ。また、有意水準 を用いて仮説検定を行うことを「有意水準 で検定する」という。なお、対立仮説、帰無仮説をそれぞれ「仮説 :〇〇」「仮説 :☆☆(〇〇でない)」のように表すこともある。また、仮説が棄却されないことを「仮説を採択する」という場合がある。
数学Iでは、公正なコインを投げて裏表の出る回数を調べる試行の相対度数から帰無仮説のもとで事象が起こる確率を求めたが、ここでは正規分布を利用することを考える。
- 両側検定
母比率の検定において、帰無仮説のもとで二項分布に従う確率変数 を設定すると、正規分布表を利用することができる。
例題
|
- ある一枚の硬貨について、表が出る確率を とする。コインを100回投げて63回表が出たとき、「この硬貨は歪んでいる( )」と判断してよいか、有意水準5%で検定することにした。
- 帰無仮説として「この硬貨に歪みはなく、 である」を立てると、100回コインを投げて表の出る回数 について、 である。ここで期待値 と標準偏差 を求めると、 なので、 とおくと近似的に である。
- 正規分布表から なので、有意水準5%における棄却域は である。
- のとき、 であり、この値は棄却域に入るので帰無仮説を棄却できる。よって、この硬貨は歪んでいると判断して良い。
|
上の例題において、正規近似と標準化を同時に行なっていることに注意。
母平均の検定も、同様に行うことができる。
例題
|
- 250g入りと表示された塩の袋の山から、無作為に100袋を抽出して重さを調べたところ、平均値が248.9gであった。標本標準偏差が4.5gであるとき、1袋あたりの重さが表示通りであると判断して良いか、有意水準1%で検定することにした。
- 重さの標本平均を とおき、帰無仮説「母平均 について、 である」を立てる。標本の大きさが十分大きいと考えると、母標準偏差の代わりに標本標準偏差を用いて良いので、帰無仮説が正しいとき、近似的に である。
- であるから、 とすると近似的に である。
- 正規分布表から なので、有意水準1%における棄却域は である。
- のとき、 であり、これは棄却域に入らないので、帰無仮説を棄却できない。すなわち、1袋あたりの重さが表示通りでないとは判断できない。
|
なお、上の例題において ならば帰無仮説を棄却できる。このように、有意水準の値を変えると結論が変わる場合がある。
上の二つの例題では、棄却域を正規分布の両側にとっている。このような検定を両側検定と呼ぶ。
- 片側検定
両側検定に対し、棄却域を正規分布の片側にとる検定を片側検定と呼ぶ。
両側検定との違いは、対立仮説が「確率(平均)値が示されている値通りである」でなく「確率(平均)値が上がった(下がった)」である点である。
例題
|
- ある種子の発芽率は従来80%であったが、発芽しやすいように品種改良した。品種改良した種子から無作為に400個抽出して種を蒔いたところ、342個が発芽した。品種改良によって発芽率が上がったかどうか、有意水準1%で検定することにした。
- 品種改良した種子の発芽率を とする。品種改良によって発芽率が下がったことは考慮しないので、前提として である。この前提のもとで発芽率が上がったならば である。
- この前提のもとで帰無仮説「発芽率が上がらなかった( )」を立てる。帰無仮説が正しいとすると、400個のうち発芽する種子の個数を としたとき である。
- ここで期待値 と標準偏差 を求めると、 なので、 とおくと近似的に である。
- 正規分布表から なので、有意水準1%における棄却域は である。
- のとき、 であり、この値は棄却域に入るので帰無仮説を棄却できる。よって、品種改良により発芽率が上がったと判断して良い。
|
棄却域を片側にとっているため、正規分布で近似する値は ではなく であることに注意。
仮説検定の問題を解く際は、文脈から両側検定なのか片側検定なのか判断することになるので、文章読解力が必要になる。
なお、実際に検定を行うとき、「両側検定・片側検定の片方で帰無仮説が棄却されないからもう片方を試す」という操作は「検証が恣意的」と判断されてしまう可能性があるためしてはいけない。
- 過誤(発展)
仮説検定を行うと、2種類の誤りが生じる可能性がある。
一つは、帰無仮説が本当は正しいのにも拘らず、得られたデータが棄却域に入ってしまったことにより帰無仮説が棄却されることである。これを第一種の過誤と呼ぶ。このとき有意水準 は第一種の過誤が起こる確率であり、有意水準のことを「危険率」とも呼ぶのはこれが理由である。
もう一つは、帰無仮説が本当は誤っているにも拘らず、得られたデータが棄却域に入らなかったために帰無仮説を採択してしまうことである。これを第二種の過誤と呼ぶ。
纏めると、以下の表のようになる。
| 帰無仮説を棄却 | 帰無仮説を採択 |
帰無仮説が正しい | 第一種の過誤 | 正しい判断 |
帰無仮説が誤り | 正しい判断 | 第二種の過誤 |
この二つの過誤を品質管理に当てはめると、第一種の過誤は「本当は製品に問題がないにも拘らず、製品の検査段階で不良品と判断して出荷しないこと」に対応し、生産者リスクと呼ばれる。また、第二種の過誤は「本当は製品に問題があるにも拘らず、検査段階で問題なしと判断され出荷されてしまうこと」に対応し、消費者リスクと呼ばれる。