こんにちは、ひかりです。
今回は確率・統計からポアソン分布と超幾何分布について解説していきます。
この記事では以下のことを紹介します。
- ポアソン分布について
- 超幾何分布について
- 離散一様分布について
ポアソン分布
二項分布 \( B(n,p) \) において、 \( np=\lambda \) を一定にしたまま \( n \) を限りなく大きくしてみましょう。
\( np=\lambda \) より、 \( p=\frac{\lambda}{n} \) なので、二項分布の確率関数は
$$ \begin{align} &{}_nC_kp^k(1-p)^{n-k} \\ &=\frac{n!}{k!(n-k)!}\left(\frac{\lambda}{n} \right)^k\left( 1-\frac{\lambda}{n} \right)^{n-k} \\ &=\frac{n(n-1)\cdots (n-k+1)}{k!}\left(\frac{\lambda}{n} \right)^k\left( 1-\frac{\lambda}{n} \right)^{n-k} \\ &=\frac{\lambda^k}{k!}\frac{n(n-1)\cdots (n-k+1)}{n^k}\left( 1-\frac{\lambda}{n} \right)^{n-k} \\ &=\frac{\lambda^k}{k!}\frac{n}{n}\frac{n-1}{n}\cdots\frac{n-k+1}{n}\left( 1-\frac{\lambda}{n} \right)^{n}\left( 1-\frac{\lambda}{n} \right)^{-k} \\ &=\frac{\lambda^k}{k!}\left(1-\frac{1}{n} \right)\left(1-\frac{2}{n} \right)\cdots\left(1-\frac{k-1}{n} \right)\left( 1-\frac{\lambda}{n} \right)^{n}\left( 1-\frac{\lambda}{n} \right)^{-k} \end{align} $$
ここで、
$$ \lim_{n\to \infty} \left( 1-\frac{\lambda}{n} \right)^n=e^{-\lambda}, \quad \lim_{n\to \infty}\left( 1-\frac{\lambda}{n} \right)^{-k}=1, $$
$$ \lim_{n\to\infty}\left(1-\frac{1}{n} \right)\left(1-\frac{2}{n} \right)\cdots\left(1-\frac{k-1}{n} \right)=1 $$
より、
$$ \lim_{n\to \infty}{}_nC_kp^k(1-p)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda} $$
となります。そこで、 \( X \) の確率関数が
$$ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, \quad (\lambda>0, \ k=0,1,2,\cdots) $$
で与えられる確率分布のことをポアソン分布といい、 \( Po(\lambda) \) で表します。
上の計算よりこの分布は二項分布において、試行回数 \( n \) が十分大きく、成功する確率 \( p \) が十分小さいベルヌーイ試行における成功する回数 \( X \) の分布とみなせます。
よって、ほとんど起きないようなまれな現象を数多く観測したときの現象の起こる回数の分布となります。
(例えば、交通事故の件数や不良品の数などが挙げられます)
ポアソン分布の各確率の和を考えると、 \( e^x \) のマクローリン展開より、
$$ \sum_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{-\lambda}=e^{\lambda}\cdot e^{-\lambda}=1 $$
となり、確かに確率分布となっています。
ある地域の1日のガンによる死亡者数 \( X \) はポアソン分布 \( Po(0.4) \) に従うとする。
このとき、この地域で1日にガンによる死亡者数が2人出る確率を求める。
$$ P(X=2)=\frac{0.4^2}{2!}e^{-0.4}=0.08e^{-0.4}≒0.0536 $$
ポアソン分布の性質として、次が成り立ちます。
確率変数 \( X \) がポアソン分布 \( Po(\lambda) \) に従っているとする。このとき、
(1) $$ E(X)=\lambda, \quad V(X)=\lambda $$
(2) モーメント母関数 \( M_X(t) \) は
$$ M_X(t)=e^{\lambda(e^t-1)} $$
(3) (ポアソン分布の再生性) 確率変数 \( Y \) がポアソン分布 \( Po(\mu) \) に従っているとする。
また、 \( X \) と \( Y \) が独立であるとする。
このとき、 \( X+Y \) はポアソン分布 \( Po(\lambda+\mu) \) に従う。
定理1の証明(気になる方だけクリックしてください)
(1) \( e^x \) のマクローリン展開より、
$$ \begin{align} E(X)&=\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}e^{-\lambda}=\sum_{k=1}^{\infty}k\frac{\lambda^k}{k!}e^{-\lambda} \quad (k=0のとき和の中身は0) \\ &=\lambda e^{-\lambda}\sum_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{-\lambda}\cdot e^{\lambda}=\lambda \end{align} $$
$$ \begin{align} E[X(X-1)]&=\sum_{k=0}^{\infty}k(k-1)\frac{\lambda^k}{k!}e^{-\lambda}=\sum_{k=2}^{\infty}k(k-1)\frac{\lambda^k}{k!}e^{-\lambda} \quad (k=0,1のとき和の中身は0) \\ &=\lambda^2 e^{-\lambda}\sum_{k=2}^{\infty}\frac{\lambda^{k-2}}{(k-2)!}=\lambda^2 e^{-\lambda}\cdot e^{\lambda}=\lambda^2 \end{align} $$
$$ \begin{align} V(X)&=E(X^2)-\{ E(X)\}^2=E[X(X-1)]+E(X)-\{ E(X)\}^2 \\ &=\lambda^2+\lambda-\lambda^2=\lambda \end{align} $$
(2) $$ \begin{align} M_X(t)&=E(e^{tX})=\sum_{k=0}^{\infty}e^{tk}\frac{\lambda^k}{k!}e^{-\lambda} \\ &=e^{-\lambda}\sum_{k=0}^{\infty}\frac{(\lambda e^t)^k}{k!} \\ &=e^{-\lambda}\cdot e^{\lambda e^t}=e^{\lambda (e^t-1)} \end{align} $$
(3) \( X \) のモーメント母関数は \( e^{\lambda(e^t-1)} \) 、 \( Y \) のモーメント母関数は \( e^{\mu(e^t-1)} \) である。
このとき、 \( X+Y \) のモーメント母関数は \( X \) と \( Y \) は独立であるので、確率・統計09の定理3のあとの注意より、
$$ \begin{align} M_{X+Y}(t)&=E(e^{X+Y})=E(e^Xe^Y) \\ &=E(e^X)E(e^Y) \quad (XとYは独立であることより) \\ &=e^{\lambda(e^t-1)}e^{\mu(e^t-1)}=e^{(\lambda+\mu)(e^t-1)} \end{align} $$
したがって、 \( X+Y \) は \( Po(\lambda+\mu) \) に従う。
ある地域の1日のガンによる死亡者数 \( X \) はポアソン分布 \( Po(0.4) \) に従うとする。
このとき、この地域で1日のガンによる死亡者数の平均と標準偏差を求める。
$$ E(X)=0.4, \quad \sigma(X)=\sqrt{V(X)}=\sqrt{0.4}≒0.632 $$
冒頭で述べた通り、ポアソン分布というのは二項分布の極限として得られるので、 \( n \) が大きく \( p \) が小さい場合には二項分布 \( B(n,p) \) はポアソン分布 \( Po(np) \) で近似することができます。
(目安としては \( n≧100, \ p≦0.05 \) ぐらいであれば近似できます)
これを二項分布のポアソン近似といいます。
ある工場で製造される製品には1%の不良品がある。
200個の製品を取り出したとき、不良品が2個以下である確率を求める。
不良品の個数を \( X \) とすると、 \( X \) は二項分布 \( B(200,0.01) \) に従う。
これをまずは(がんばって)そのまま計算すると、
$$ P(X≦2)=\sum_{k=0}^2{}_{200}C_k(0.01)^k(0.99)^{200-k}≒0.6767 $$
しかし、これでは計算があまりにも大変なので、二項分布のポアソン近似を考えると、 \( X \) の確率分布はポアソン分布 \( Po(200\times 0.01)=Po(2) \) で近似することができる。すると、
$$ P(X≦2)≒\sum_{k=0}^2\frac{2^k}{k!}e^{-2}≒0.6767 $$
となり、小数点第4位まで合っていて、確かに近似できている。
超幾何分布
赤球が \( M \) 個、白球が \( N-M \) 個入っている袋の中から、無作為に \( n \) 個の球を同時に(もしくは、戻さずに)取り出すとき、赤球の個数を \( X \) とおきます。
(1回ごとに戻す場合には、ベルヌーイ試行を \( n \) 回繰り返すことに相当するので、 \( X \) は二項分布 \( B(n,\frac{M}{N}) \) に従います)
すると、 \( X \) は \( \max(0,n-(N-M)) \) から \( \min(M,n) \) までの整数の値をとる確率変数となります。
\( X \) の最小値が \( \max(0,n-(N-M)) \) であるのは、取り出す球の個数が白球の数より多い場合は必ず \( n-(N-M) \) 個の赤球は取り出されることになるからです。
また、 \( X \) の最大値が \( \min (M,n) \) であるのは、取り出す球の個数が赤球の数より多い場合は赤球は \( M \) 個以上取り出されることはないからです。
ここで、 \( X \) の確率は
$$ P(X=k)=\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n}, \quad (k=\max(0,n-(N-M)), \cdots,\min(M,n)) $$
となります。この確率分布のことを超幾何分布といい、 \( HG(N,M,n) \) と表します。
なぜ、超幾何分布とよばれるのかを知るために、各確率の和が1になることを確かめてみましょう。
恒等式
$$ (1+t)^M(1+t)^{N-M}=(1+t)^N $$
の両辺を二項定理を用いて展開すると、
$$ \sum_{k=0}^M{}_MC_kt^k\cdot \sum_{\ell=0}^{N-M}{}_{N-M}C_{\ell}t^{\ell}=\sum_{r=0}^N{}_NC_rt^r $$
両辺の \( t^n \) の項を比較すると、
$$ \sum_{k,\ell}{}_MC_kt^k\cdot {}_{N-M}C_{\ell}t^{\ell}={}_NC_nt^n $$
ここで、 \( \displaystyle \sum_{k,\ell} \) は次の条件をみたすように和をとることになります。
$$ k+\ell =n, \quad 0≦k≦M, \quad 0≦\ell ≦N-M $$
この条件を \( k \) に関して解くと、
$$ \max(0,n-(N-M))≦k≦\min (M,n) $$
となるので、 \( \ell=n-k \) に注意して係数だけ抜き出せば、
$$ \sum_{k=\max(0,n-(N-M))}^{\min (M,n)}{}_MC_k\times {}_{N-M}C_{n-k}={}_NC_n $$
したがって、両辺 \( {}_NC_n \) で割ると、
$$ \sum_{k=\max(0,n-(N-M))}^{\min (M,n)}\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n}=1 $$
ここで、級数
$$ \sum_{k=0}^M{}_MC_kt^k, \quad \sum_{\ell=0}^{N-M}{}_{N-M}C_{\ell}t^{\ell}, \quad \sum_{r=0}^N{}_NC_rt^r $$
は超幾何級数とよばれるものになるので、この分布は超幾何分布とよばれています。
100個の製品があり、その中の5個は不良品、95個は良品とする。
このとき、3個を無作為に選ぶとき、その中に含まれる不良品の個数が1個である確率を求める。
その中に含まれる不良品の個数を \( X \) とすると、 \( X \) は超幾何分布 \( HG(100,5,3) \) に従う。
よって、求める確率は
$$ P(X=1)=\frac{{}_5C_1\times {}_{95}C_2}{{}_{100}C_3}≒0.138 $$
超幾何分布の性質として、次が成り立ちます。
確率変数 \( X \) が超幾何分布 \( HG(N,M,n) \) に従っているとする。このとき、
(1) $$ E(X)=n\cdot\frac{M}{N}, \quad V(X)=n\cdot\frac{M}{N}\cdot\left(1-\frac{M}{N}\right)\cdot\frac{N-n}{N-1} $$
(2) (超幾何分布の二項近似)
\( \frac{M}{N} \) を一定のまま \( N \) を十分大きくとると、 \( HG(N,M,n) \) は二項分布 \( B(n,\frac{M}{N}) \) で近似できる。
定理2の証明(気になる方だけクリックしてください)
(1) $$ k\cdot {}_MC_k=M\cdot {}_{M-1}C_{k-1}, \quad {}_NC_n=\frac{N}{n}\cdot{}_{N-1}C_{n-1} $$
であるので、
$$ \begin{align} E(X)&=\sum_{k=\max(0,n-(N-M))}^{\min (M,n)}k\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n} \\ &=\sum_{k=\max(1,n-(N-M))}^{\min (M,n)}k\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n} \quad (k=0のとき和の中身は0) \\ &=\frac{nM}{N}\sum_{k=\max(1,n-(N-M))}^{\min (M,n)}\frac{{}_{M-1}C_{k-1}\times {}_{N-M}C_{n-k}}{{}_{N-1}C_{n-1}} \\ &=\frac{nM}{N}\sum_{\ell=\max(0,(n-1)-(N-M))}^{\min (M-1,n-1)}\frac{{}_{M-1}C_{\ell}\times {}_{N-M}C_{n-1-\ell}}{{}_{N-1}C_{n-1}} \quad (\ell=k-1) \\ &=\frac{nM}{N} \quad (和は例4の前の計算と同様に1となる) \end{align} $$
また、
$$ k(k-1)\cdot {}_MC_k=M(M-1)\cdot {}_{M-2}C_{k-2}, \quad {}_NC_n=\frac{N(N-1)}{n(n-1)}\cdot{}_{N-2}C_{n-2} $$
であるので、
$$ \begin{align} E[X(X-1)]&=\sum_{k=\max(0,n-(N-M))}^{\min (M,n)}k(k-1)\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n} \\ &=\sum_{k=\max(2,n-(N-M))}^{\min (M,n)}k(k-1)\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n} \quad (k=0,1のとき和の中身は0) \\ &=\frac{n(n-1)M(M-1)}{N(N-1)}\sum_{k=\max(2,n-(N-M))}^{\min (M,n)}\frac{{}_{M-2}C_{k-2}\times {}_{N-M}C_{n-k}}{{}_{N-2}C_{n-2}} \\ &=\frac{n(n-1)M(M-1)}{N(N-1)}\sum_{\ell=\max(0,(n-2)-(N-M))}^{\min (M-2,n-2)}\frac{{}_{M-2}C_{\ell}\times {}_{N-M}C_{n-2-\ell}}{{}_{N-2}C_{n-2}} \quad (\ell=k-2) \\ &=\frac{n(n-1)M(M-1)}{N(N-1)} \quad (和は例4の前の計算と同様に1となる) \end{align} $$
よって、
$$ \begin{align} V(X)&=E(X^2)-\{ E(X) \}^2=E[X(X-1)]+E(X)-\{ E(X) \}^2 \\ &=\frac{n(n-1)M(M-1)}{N(N-1)}+\frac{nM}{N}-\frac{n^2M^2}{N^2} \\ &=\frac{nM}{N}\left( \frac{(n-1)(M-1)}{N-1}+1-\frac{nM}{N} \right) \\ &=n\cdot\frac{M}{N}\cdot\left(1-\frac{M}{N}\right)\cdot\frac{N-n}{N-1} \end{align} $$
(2) \( p=\frac{M}{N} \) を一定として \( N \) を十分大きくとると、 \( M \) も十分大きくなるので、 \( X \) のとる値としては \( 0,1,\cdots,n \) となります。
(つまり、 \( \max(0,n-(N-M))=0 \) かつ \( \min (M,n)=n \) となります。)
このとき、 \( k=0,1,\cdots,n \) に対して、
$$ \begin{align} &P(X=k) \\ &=\frac{{}_MC_k\times {}_{N-M}C_{n-k}}{{}_NC_n} \\ &=\frac{\frac{M!}{k!(M-k)!}\times \frac{(N-M)!}{(n-k)!\{(N-M)-(n-k)\}!}}{\frac{N!}{n!(N-n)!}} \\ &=\frac{n!}{k!(n-k)!}\frac{(N-n)!}{N!}\frac{M!}{(M-k)!}\frac{(N-M)!}{\{(N-M)-(n-k)\}!} \\ &={}_nC_k\frac{M(M-1)\cdots (M-k+1)\cdot (N-M)(N-M-1)\cdots(N-M-n+k+1)}{N(N-1)\cdots (N-k+1)\cdots (N-n+1)} \\ &\to {}_nC_kp^kq^{n-k} \quad (N\to \infty) \end{align} $$
したがって、 \( HG(N,M,n) \) は二項分布 \( B(n,\frac{M}{N}) \) で近似できる。
100個の製品があり、その中の5個は不良品、95個は良品とする。
このとき、3個を無作為に選ぶとき、その中に含まれる不良品の個数 \( X \) の平均と標準偏差を求める。
\( X \) は超幾何分布 \( HG(100,5,3) \) に従うので、
$$ E(X)=3\times \frac{5}{100}=\frac{3}{20}=0.15 $$
$$ \sigma(X)=\sqrt{V(X)}=\sqrt{3\times \frac{5}{100}\times \frac{95}{100} \times \frac{97}{99}}≒\sqrt{0.140}≒0.374 $$
離散一様分布
有限個の値 \( 1,\cdots,n \) をとる離散型確率変数 \( X \) の各値での確率が等しいとき、つまり、
$$ P(X=k)=\frac{1}{n}, \quad (k=1,2,\cdots,n) $$
このとき、 \( X \) が従う確率分布を離散一様分布といい、 \( DU(1,\cdots,n) \) と表します。
さいころを1回投げて3の目が出る確率を求める。
さいころを1回投げて出た目の数 \( X \) は離散一様分布 \( DU(1,\cdots,6) \) に従う。
よって、求める確率は
$$ P(X=3)=\frac{1}{6} $$
離散一様分布の性質として、次が成り立ちます。
確率変数 \( X \) が離散一様分布 \( DU(1,\cdots,n) \) に従っているとする。このとき、
(1) $$ E(X)=\frac{n+1}{2}, \quad V(X)=\frac{(n+1)(n-1)}{12} $$
(2) モーメント母関数 \( M_X(t) \) は
$$ M_X(t)=\frac{e^t}{n}\frac{1-e^{nt}}{1-e^t} $$
定理3の証明(気になる方だけクリックしてください)
(1) $$ \begin{align} E(X)&=\sum_{k=1}^nk\frac{1}{n}=\frac{1}{n}\cdot \frac{1}{2}n(n+1)=\frac{n+1}{2} \end{align} $$
$$ \begin{align} E(X^2)&=\sum_{k=1}^nk^2\frac{1}{n}=\frac{1}{n}\cdot \frac{1}{6}n(n+1)(2n+1)=\frac{(n+1)(2n+1)}{6} \end{align} $$
$$ \begin{align} V(X)&=E(X^2)-\{ E(X) \}^2=\frac{(n+1)(2n+1)}{6}-\frac{(n+1)^2}{4}=\frac{(n+1)(n-1)}{12} \end{align} $$
(2) 等比数列の和の公式より、
$$ \begin{align} M_X(t)&=E(e^{tX})=\sum_{k=1}^ne^{tk}\frac{1}{n} \\ &=\frac{1}{n}\frac{e^t(1-e^{nt})}{1-e^t}=\frac{e^t}{n}\frac{1-e^{nt}}{1-e^t} \end{align} $$
さいころを1回投げて出た目の数 \( X \) の平均と標準偏差を求める。
\( X \) は離散一様分布 \( DU(1,\cdots,6) \) に従うので、
$$ E(X)=\frac{7}{2}, \quad \sigma(X)=\sqrt{V(X)}=\sqrt{\frac{7\times 5}{12}}≒1.71 $$
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。