確率・統計(統計検定2級対応)14:大数の法則と中心極限定理

こんにちは、ひかりです。

今回は確率・統計から大数の法則と中心極限定理について解説していきます。

この記事では以下のことを紹介します。

  • チェビシェフの不等式について
  • 大数の(弱)法則について
  • 中心極限定理とその応用について
目次

チェビシェフの不等式

これまで、代表的な確率分布についていくつか紹介してきました。

しかし、いつでも確率分布がわかっているとは限りません。

そのときでも、平均と分散からおおまかな確率がわかると便利なときがあります。

それが次で与えるチェビシェフの不等式になります。

定理1 (チェビシェフの不等式)

確率変数 \( X \) の期待値が \( \mu \) 、分散が \( \sigma^2 \) のとき、任意の \( \varepsilon>0 \) に対して次が成り立つ。

$$ P(|X-\mu|≧\varepsilon)≦\frac{\sigma^2}{\varepsilon^2} $$

この評価はどの確率分布でも成り立つ代わりに、かなり粗い(おおざっぱな)評価となっています。(例1(2)をご覧ください。)

定理1の証明(気になる方だけクリックしてください)

\( X \) が連続型確率変数の場合を示します。離散型確率変数の場合も同様に示せます。

\( X \) の確率密度関数を \( f_X(x) \) とすると、任意の \( \varepsilon>0 \) に対して、

$$ \begin{align} \sigma^2&=\int_{-\infty}^{\infty}(x-\mu)^2f_X(x)dx \\ &=\int_{|x-\mu|≧\varepsilon}(x-\mu)^2f_X(x)dx+\int_{|x-\mu|<\varepsilon}(x-\mu)^2f_X(x)dx \\ &≧\int_{|x-\mu|≧\varepsilon}(x-\mu)^2f_X(x)dx \quad \left(0≦\int_{|x-\mu|<\varepsilon}(x-\mu)^2f_X(x)dx<\inftyより\right) \\ &≧\varepsilon^2 \int_{|x-\mu|≧\varepsilon}f_X(x)dx=\varepsilon^2P(|X-\mu|≧\varepsilon) \end{align} $$

したがって、

$$ P(|X-\mu|≧\varepsilon)≦\frac{\sigma^2}{\varepsilon^2} $$

例1

(1) ある製品を1個作るのにかかる時間 \( X \) (分)は、平均 \( 1 \) 、分散 \( 0.8 \) であることがわかっている。

このとき、その製品を1個作るのにかかる時間が2分以内である確率について何がいえるか。

チェビシェフの不等式を用いると、

$$ \begin{align} P(0≦X≦2)&=P(|X-1|≦1)=1-P(|X-1|≧1) \\ &≧1-0.8^2=0.36 \end{align} $$

したがって、求める確率は \( 0.36 \) 以上であることがわかる。


(2) このチェビシェフの不等式はかなり粗い評価であることを正規分布で見てみる。

まず、確率・統計13の例1(2)より、 \( X \) が正規分布 \( N(\mu,\sigma^2) \) に従うとき、

$$ P(|X-\mu|≦\sigma)≒0.683, $$

$$ P(|X-\mu|≦2\sigma)≒0.954, $$

$$ P(|X-\mu|≦3\sigma)≒0.997 $$

である。一方で、チェビシェフの不等式を用いると、

$$ P(|X-\mu|≦\sigma)=1-P(|X-\mu|≧\sigma)≧1-1=0 $$

$$ P(|X-\mu|≦2\sigma)=1-P(|X-\mu|≧2\sigma)≧1-\frac{1}{4}=0.75 $$

$$ P(|X-\mu|≦3\sigma)=1-P(|X-\mu|≧3\sigma)≧1-\frac{1}{9}≒0.889 $$

となり、かなり粗い。

大数の(弱)法則

まず、次の例を考えます。

例2

1つのさいころを何回も投げることを考える。

まず、10回投げたとき、各目の出た回数は次のようになった。

出た目\( 1 \)\( 2 \)\( 3 \)\( 4 \)\( 5 \)\( 6 \)
出た回数\( 1 \)\( 3 \)\( 0 \)\( 2 \)\( 2 \)\( 2 \)

このとき、 \( 1 \) の出た確率は \( \frac{1}{10}=0.1 \) となり、 \( \frac{1}{6}≒0.167 \) からはやや遠い。

次に、100回投げたときは、各目の出た回数は次のようになった。

出た目\( 1 \)\( 2 \)\( 3 \)\( 4 \)\( 5 \)\( 6 \)
出た回数\( 17 \)\( 17 \)\( 12 \)\( 19 \)\( 16 \)\( 19 \)

このとき、 \( 1 \) の出た確率は \( \frac{17}{100}=0.17 \) となり、 \( \frac{1}{6}≒0.167 \) にかなり近づいている。

このように、試行回数を増やしていくと1の目が出る確率はどんどん \( \frac{1}{6}≒0.167 \) に近づいていく。

この例のように、感覚的には当たり前のことを数学的にきちんと示したものが大数の(弱)法則となります。

定理2 (大数の(弱)法則)

\( X_1,\cdots,X_n \) は互いに独立で、同一の確率分布に従うとする。(分布の形はわかっていなくてもよい)

そして、

$$ E(X_i)=\mu, \quad V(X_i)=\sigma^2, \ (i=1,2,\cdots) $$

として、

$$ \overline{X}=\frac{1}{n}(X_1+\cdots+X_n) $$

とおく。このとき、任意の \( \varepsilon>0 \) に対して、次が成り立つ。

$$ \lim_{n\to \infty}P(|\overline{X}-\mu|≧\varepsilon)=0 $$

\( \displaystyle \lim_{n\to\infty}P(|\overline{X}-\mu|<\varepsilon)=1 \) が成り立つとしても同じです。

もう少し強い結果である大数の強法則 $$ P\left(\lim_{n\to\infty}\frac{X_1+\cdots+X_n}{n}=\mu\right)=1 $$ も存在します。

定理2の証明(気になる方だけクリックしてください)

$$ \overline{X}=\frac{1}{n}(X_1+\cdots+X_n) $$

とおくと、

$$ \begin{align} E(\overline{X})&=E\left[ \frac{1}{n}(X_1+\cdots+X_n) \right] \\ &=\frac{1}{n}\{ E(X_1)+\cdots+E(X_n) \} \\ &=\frac{1}{n}\cdot n\mu=\mu \end{align} $$

また、\( X_1,\cdots,X_n \) は互いに独立であるので、

$$ \begin{align} V(\overline{X})&=V\left[ \frac{1}{n}(X_1+\cdots+X_n) \right] \\ &=\frac{1}{n^2}\{ V(X_1)+\cdots+V(X_n) \} \\ &=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n} \end{align} $$

よって、 \( \overline{X} \) に対してチェビシェフの不等式を用いると、任意の \( \varepsilon\to 0 \) に対して、

$$ P(|\overline{X}-\mu|≧\varepsilon)≦\frac{\sigma^2}{n\varepsilon^2} $$

ここで、 \( n\to\infty \) とすると、

$$ \lim_{n\to \infty}P(|\overline{X}-\mu|≧\varepsilon)=0 $$

となり、定理が成り立ちます。

例3

例2のケースを大数の弱法則に当てはめてみる。

さいころを1回投げたとき1の目が出る回数 \( X_i \) はベルヌーイ分布 \( Be\left(\frac{1}{6}\right) \) に従う。

よって、さいころを \( n \) 回投げたとき、1の目が出る確率は次のようになります。

$$ \overline{X}=\frac{X_1+\cdots+X_n}{n} $$

このとき、この確率からベルヌーイ分布の平均 \( \mu=\frac{1}{6} \) を引いた誤差 \( |\overline{X}-\mu| \) を考えれば、大数の(弱)法則から任意の \( \varepsilon>0 \) に対して、

$$ \lim_{n\to \infty}P(|\overline{X}-\mu|≧\varepsilon)=\lim_{n\to \infty}P\left(\left|\frac{X_1+\cdots+X_n}{n}-\frac{1}{6}\right|≧\varepsilon\right)=0 $$

つまり、試行回数を増やしていくと誤差 \( |\overline{X}-\mu| \) はどんどん0に近づいていく、つまり1の目が出る確率はどんどん \( \frac{1}{6} \) に近づいていくということが数学的にもいえる。

中心極限定理とその応用

中心極限定理

確率変数 \( X_1,\cdots,X_n \) が互いに独立でそれぞれ正規分布に従うとすると、正規分布の再生性より、

$$ \overline{X}=\frac{1}{n}(X_1+\cdots+X_n) $$

も正規分布に従います。これが \( n \) が十分大きい状況であれば、 \( X_1,\cdots,X_n \) が正規分布に従ってなくとも同じ分布に従っていれば、

$$ \overline{X}=\frac{1}{n}(X_1+\cdots+X_n) $$

も正規分布に従うというのが中心極限定理となっています。

(言い換えると、 \( \overline{X} \) を標準化した確率変数が標準正規分布 \( N(0,1) \) に従います)

定理3 (中心極限定理)

\( X_1,\cdots,X_n \) は互いに独立で、同一の確率分布に従うとする。(分布の形はわかっていなくてもよい)

そして、

$$ E(X_i)=\mu, \quad V(X_i)=\sigma^2, \ (i=1,2,\cdots) $$

として、

$$ \overline{X}=\frac{1}{n}(X_1+\cdots+X_n) $$

とおく。このとき、任意の \( x \) に対して、次が成り立つ。

$$ \lim_{n\to\infty}P\left( \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}≦x \right)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}dt $$

この定理の左辺の確率は \( \overline{X} \) を標準化した確率変数 $$ \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} $$ の分布関数であり、右辺は \( N(0,1) \) の確率密度関数 $$ \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}} $$ の \( -\infty \) から \( x \) までの積分、つまり \( N(0,1) \) の分布関数となります。

証明は測度論を用いるためここでは省略します。

二項分布の正規分布による近似

中心極限定理の1つの応用として、試行回数 \( n \) が十分大きいとき二項分布は正規分布で近似することができるというラプラスの定理を示すことができます。

定理4 (ラプラスの定理)

確率変数 \( X \) が二項分布 \( B(n,p) \) に従うとする。

このとき、 \( n \) が十分大きいならば、 \( X \) は近似的に正規分布 \( N(np,np(1-p)) \) に従う。

\( n \) の目安としては、 \( np≧5 \) かつ \( n(1-p)≧5 \) であればよいとされています。

定理4の証明(気になる方だけクリックしてください)

確率変数 \( X \) が二項分布 \( B(n,p) \) に従うとする。

このとき、 互いに独立でそれぞれベルヌーイ分布 \( Be(p) \) に従っている確率変数 \( X_1,\cdots,X_n \) を用いて、

$$ X=X_1+\cdots+X_n $$

と表せます。

( \( n \) 回のベルヌーイ試行を1回1回分解したものを \( X_1,\cdots,X_n \) と定めればよいです)

このとき、ベルヌーイ分布の平均が \( p \) 、分散が \( p(1-p) \) であることに注意すると、確率変数

$$ \overline{X}=\frac{1}{n}X=\frac{1}{n}(X_1+\cdots+X_n) $$

を標準化した確率変数

$$ \frac{\overline{X}-p}{\frac{\sqrt{p(1-p)}}{\sqrt{n}}}=\frac{\frac{1}{n}X-p}{\frac{\sqrt{p(1-p)}}{\sqrt{n}}}=\frac{X-np}{\sqrt{np(1-p)}} $$

は \( n \) が十分大きいとき近似的に標準正規分布 \( N(0,1) \) に従います。

したがって、 \( \displaystyle \frac{X-np}{\sqrt{np(1-p)}} \) の標準化を解いてあげると、 \( X \) は \( n \) が十分大きいとき近似的に正規分布 \( N(np,np(1-p)) \) に従います。

例4

コインを40回投げるとき、表の出る回数を \( X \) とする。

このとき、 \( 18≦X≦25 \) となる確率を求める。

\( X \) は二項分布 \( B(40,\frac{1}{2}) \) に従う。ここで、

$$ np=40\times \frac{1}{2}=20≧5, \quad n(1-p)=20≧5 $$

より、ラプラスの定理での近似をすることができる。

よって、ラプラスの定理より \( X \) は正規分布 \( N(20,10) \) で近似できる。

ここで、もとは \( X \) は離散型確率変数であるので、正規分布での確率を求める際に少し補正をしてあげると近似の精度があがる。

具体的には、求めたい確率 \( P(18≦X≦25) \) の端点を四捨五入で対応する範囲まで広げてあげる、つまり

$$ P(18≦X≦25)=P(17.5≦X≦25.5) $$

として計算をする。(これを半整数補正という)

(ほかにも例えば \( P(X=30) \) を計算したかったら、 \( P(29.5≦X≦30.5) \) に補正してあげる)

したがって、

$$ \begin{align} P(18≦X≦25)&=P(17.5≦X≦25.5) \\ &=P\left( \frac{17.5-20}{\sqrt{10}}≦\frac{X-20}{\sqrt{10}}≦\frac{25.5-20}{\sqrt{10}} \right) \\ &=P\left( -\frac{2.5}{\sqrt{10}}≦Z≦\frac{5.5}{\sqrt{10}} \right) \\ &≒P(-0.79≦Z≦1.74) \\ &≒0.7443 \end{align} $$

ちなみに、近似せず二項分布のまま確率を求めると、

$$ \begin{align} P(18≦X≦25)=\sum_{k=18}^{25}{}_{40}C_k\left(\frac{1}{2}\right)^k\left(\frac{1}{2}\right)^{40-k}≒0.7445 \end{align} $$

となり、近似精度はよいことがわかる。

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

目次