こんにちは、ひかりです。
今回は確率・統計から複数個の確率変数の確率分布と期待値・分散について解説していきます。
この記事では以下のことを紹介します。
- 同時分布と周辺分布について
- 複数個の確率変数の独立性について
- 複数個の確率変数の期待値と分散について
同時分布と周辺分布
いままで、1つの確率変数に対して確率分布を考えてきましたが、今度は複数個の確率変数の確率分布について見ていきましょう。
表が出る確率が \( \frac{1}{3} \) 、裏が出る確率が \( \frac{2}{3} \) のコインを2回投げる。
このとき、1回目のコイン投げの結果を \( X \) 、2回目のコイン投げの結果を \( Y \) とおく。
ただし、表が出たとき \( 0 \) 、裏が出たとき \( 1 \) とする。
このとき、 \( X \) と \( Y \) の確率分布は次のようになる。
\( X \ \backslash \ Y \) | \( 0 \) | \( 1 \) |
\( 0 \) | \( \frac{1}{9} \) | \( \frac{2}{9} \) |
\( 1 \) | \( \frac{2}{9} \) | \( \frac{4}{9} \) |
また、 \( Y \) は何でもいいので \( X=0 \) となる確率 \( P(X=0) \) は
$$ P(X=0)=P(X=0,Y=0)+P(X=0,Y=1)=\frac{1}{9}+\frac{2}{9}=\frac{1}{3} $$
\( X \) は何でもいいので \( Y=1 \) となる確率 \( P(Y=1) \) は
$$ P(Y=1)=P(X=0,Y=1)+P(X=1,Y=1)=\frac{2}{9}+\frac{4}{9}=\frac{2}{3} $$
となる。したがって、 \( X \) の確率分布と \( Y \) の確率分布は次のようになる。
\( X \) | \( 0 \) | \( 1 \) |
\( P \) | \( \frac{1}{3} \) | \( \frac{2}{3} \) |
\( Y \) | \( 0 \) | \( 1 \) |
\( P \) | \( \frac{1}{3} \) | \( \frac{2}{3} \) |
この例のように、2つの確率変数 \( X,Y \) に対して、 \( X \) と \( Y \) を両方考慮した確率分布と \( X \) と \( Y \) の一方を無視したもう一方に対する確率分布の2つが考えることができます。
これらをそれぞれ、同時分布と周辺分布といい、次のように定義されます。
2つの離散型確率変数 \( X,Y \) に対して、 \( X \) のとる値が \( x_1,x_2,\cdots \) 、 \( Y \) のとる値が \( y_1,y_2,\cdots \) であるとする。(値が有限個でもよい)
そして、 \( X=x_i \) かつ \( Y=y_j \) である確率を
$$ P(X=x_i,Y=y_j)=p_{ij} \quad (i,j=1,2,\cdots) $$
と表す。このとき、 \( \{p_{ij}\} \) を確率変数 \( X,Y \) の同時確率分布または同時分布という。
これは1つの確率変数の確率分布のときと同様に次をみたす。
$$ p_{ij}≧0, \quad \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1 $$
また、同時分布から \( X \) と \( Y \) の単独の確率分布を次のように求めることができる。
$$ \begin{align} P(X=x_i)&=\sum_{j=1}^{\infty}P(X=x_i,Y=y_j) \\ &=\sum_{j=1}^{\infty}p_{ij}=p_i \quad (i=1,2,\cdots) \end{align} $$
$$ \begin{align} P(Y=y_j)&=\sum_{i=1}^{\infty}P(X=x_i,Y=y_j) \\ &=\sum_{i=1}^{\infty}p_{ij}=p_j \quad (j=1,2,\cdots) \end{align} $$
これらをそれぞれ確率変数 \( X,Y \) の周辺確率分布または周辺分布という。
2つの連続型確率変数 \( X,Y \) があり、任意の2次元の集合 \( D \) に対して \( (X,Y)\in D \) となる確率が
$$ P((X,Y)\in D)=\iint_D h(x,y)dxdy $$
となる関数 \( h(x,y) \) が存在するとき、 \( h(x,y) \) を同時確率密度関数という。
これは1つの確率変数の確率分布のときと同様に次をみたす。
$$ h(x,y)≧0, \quad \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}h(x,y)dxdy=1 $$
$$ P(a≦X≦b,c≦Y≦d)=\int_c^d\int_a^bh(x,y)dxdy $$
また、同時確率密度関数から \( X \) と \( Y \) の単独の確率密度関数を次のように求めることができる。
$$ f(x)=\int_{-\infty}^{\infty}h(x,y)dy $$
$$ g(y)=\int_{-\infty}^{\infty}h(x,y)dx $$
これらをそれぞれ確率変数 \( X,Y \) の周辺確率密度関数という。
連続型確率変数 \( X,Y \) に対して、次のような同時確率密度関数を考える。
$$ h(x,y)=\begin{cases} cx^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$
このとき、 \( X \) の周辺確率密度関数 \( f(x) \) と \( Y \) の周辺確率密度関数 \( g(y) \) を求める。
まず、 \( c \) の値を求めるために、 \( -\infty \) から \( \infty \) まで積分をすると、
$$ \begin{align} 1=\int_{-\infty}^{\infty}h(x,y)dxdy&=\int_0^1\int_0^1cx^2y dxdy \quad (0<x,y<1以外では h(x,y)=0である) \\ &=c\int_0^1x^2dx\int_0^1ydy \\ &=c\left[ \frac{1}{3}x^3 \right]^1_0\left[ \frac{1}{2}y^2 \right]^1_0=\frac{1}{6}c \end{align} $$
よって、 \( c=6 \) である。
そして、 \( X \) の周辺確率密度関数 \( f(x) \) を求めると、 \( 0<x<1 \) では
$$ \begin{align} f(x)&=\int_{-\infty}^{\infty}h(x,y)dy \\ &=\int_0^16x^2ydy \quad (0<y<1以外では h(x,y)=0である) \\ &=6x^2\int_0^1ydy \quad (xはyの積分に関与しない) \\ &=6x^2\left[ \frac{1}{2}y^2 \right]^1_0=3x^2 \end{align} $$
したがって、
$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$
また、 \( Y \) の周辺確率密度関数 \( g(y) \) を求めると、 \( 0<y<1 \) では
$$ \begin{align} g(y)&=\int_{-\infty}^{\infty}h(x,y)dx \\ &=\int_0^16x^2ydx \quad (0<x<1以外では h(x,y)=0である) \\ &=6y\int_0^1x^2dx \quad (yはxの積分に関与しない) \\ &=6y\left[ \frac{1}{3}x^3 \right]^1_0=2y \end{align} $$
したがって、
$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$
複数個の確率変数の独立性
確率・統計06の記事で事象の独立性について扱いました。
似たようにして、2つの確率変数 \( X,Y \) に対して独立性を次のように定義します。
2つの確率変数 \( X,Y \) が任意の区間 \( A,B \) に対して、
$$ P(X\in A,Y\in B)=P(X\in A)P(Y\in B) $$
となるとき、 \( X,Y \) は互いに独立であるという。
\( X,Y \) が離散型確率変数の場合は、この独立性の条件は次のように考えられます。
任意の \( i,j \) に対して、
$$ P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j) $$
また、 \( X,Y \) が連続型確率変数の場合は次のようになります。
任意の \( x,y \) に対して、
$$ h(x,y)=f(x)g(y) $$
例2の同時確率密度関数
$$ h(x,y)=\begin{cases} 6x^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$
を考えると、例2より
$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$
$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$
となるので、任意の \( x,y \) に対して、
$$ h(x,y)=f(x)g(y) $$
したがって、 \( X,Y \) は互いに独立である。
3つ以上の確率変数の独立性についても同様に定義できます。
\( n \) 個の確率変数 \( X_1,x_2,\cdots,X_n \) が任意の区間 \( A_1,A_2,\cdots,A_n \) に対して、
$$ P(X_1\in A_1,X_2\in A_2,\cdots X_n\in A_n)=P(X_1\in A_1)P(X_2\in A_2)\cdots P(X_n\in A_n) $$
をみたすとき、 \( X_1,X_2,\cdots,X_n \) は互いに独立であるという。
複数個の確率変数の期待値と分散
確率・統計08の記事で、確率変数 \( X \) に対して、確率変数 \( g(X) \) の期待値を考えました。
同様にして、確率変数 \( X,Y \) に対して、確率変数 \( g(X,Y) \) の期待値を次で定めます。
確率変数 \( X,Y \) と連続関数 \( g(x,y) \) に対して、確率変数 \( g(X,Y) \) の期待値または平均 \( E(g(X,Y)) \) を次で定める。
$$ E(g(X,Y))=\begin{cases} \displaystyle \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}g(x_i,y_j)p_{ij} & (X,Yが離散型確率変数) \\ \displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)h(x,y)dxdy & (X,Yが連続型確率変数) \end{cases} $$
また、2変数データの共分散と相関係数の場合と同様にして、確率変数 \( X,Y \) の共分散と相関係数を次で定めます。
2つの確率変数 \( X,Y \) に対して、 \( X \) と \( Y \) の共分散 \( \text{Cov}(X,Y) \) を次で定める。
$$ \text{Cov}(X,Y)=E[\{X-E(X)\}\{Y-E(Y)\}] $$
また、 \( X \) と \( Y \) の相関係数 \( \rho(X,Y) \) を次で定める。
$$ \rho(X,Y)=\frac{\text{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} $$
共分散は定義通りに計算するのは大変なので変形をすると、
$$ \begin{align} \text{Cov}(X,Y)&=E[\{X-E(X)\}\{Y-E(Y)\}] \\ &=E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ &=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y) \\ &=E(XY)-E(X)E(Y) \end{align} $$
となります。
例2の同時確率密度関数
$$ h(x,y)=\begin{cases} 6x^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$
に対して、共分散 \( \text{Cov}(X,Y) \) を求める。
まず、例2より、
$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$
$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$
であるので、
$$ \begin{align} E(X)&=\int_{-\infty}^{\infty}xf(x)dx=\int_0^13x^3dx \quad (0<x<1以外では f(x)=0である) \\ &=3\left[ \frac{1}{4}x^4 \right]^1_0=\frac{3}{4} \end{align} $$
$$ \begin{align} E(Y)&=\int_{-\infty}^{\infty}yg(y)dy=\int_0^12y^2dy \quad (0<y<1以外では g(y)=0である) \\ &=2\left[ \frac{1}{3}y^3 \right]^1_0=\frac{2}{3} \end{align} $$
また、
$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_0^1\int_0^16x^3y^2dxdy \quad (0<x,y<1以外では h(x,y)=0である) \\ &=6\left[ \frac{1}{4}x^4 \right]^1_0\left[ \frac{1}{3}y^3 \right]^1_0=\frac{1}{2} \end{align} $$
したがって、
$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{2}-\frac{3}{4}\cdot\frac{2}{3}=0 $$
2つの確率変数の和の期待値と分散について次が成り立ちます。
2つの確率変数 \( X,Y \) に対して、次が成り立つ。
(1) $$ E(X+Y)=E(X)+E(Y) $$
(2) $$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y) $$
定理1の証明(気になる方だけクリックしてください)
(1) \( X,Y \) が連続型確率変数の場合を示します。離散型確率変数の場合も同様に示せます。
$$ \begin{align} E(X+Y)&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x+y)h(x,y)dxdy \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xh(x,y)dxdy+\int_{-\infty}^{\infty}yh(x,y)dxdy \\ &=\int_{-\infty}^{\infty}x\left(\int_{-\infty}^{\infty}h(x,y)dy\right)dx+\int_{-\infty}^{\infty}y\left(\int_{-\infty}^{\infty}h(x,y)dx\right)dy \\ &=\int_{-\infty}^{\infty}xf(x)dx+\int_{-\infty}^{\infty}yg(y)dy \\ &=E(X)+E(Y) \end{align} $$
(2) $$ \begin{align} V(X+Y)&=E[\{ X+Y-E(X+Y)\}^2] \\ &=E[\{ (X-E(X))+(Y-E(Y))\}^2] \quad ((1)より) \\ &=E[\{X-E(X)\}^2]+E[\{Y-E(Y)\}^2]+2E[\{X-E(X)\}\{Y-E(Y)\}] \\ &=V(X)+V(Y)+2\text{Cov}(X,Y) \end{align} $$
定理1は \( n \) 個の確率変数に対しても同様に成り立ちます。
\( n \) 個の確率変数 \( X_1,X_2,\cdots,X_n \) に対して、次が成り立つ。
(1) $$ E\left( \sum_{i=1}^n X_i \right)=\sum_{i=1}^nE(X_i) $$
(2) $$ V\left( \sum_{i=1}^n X_i \right)=\sum_{i=1}^nV(X_i)+2\sum_{1≦i<j≦n}\text{Cov}(X_i,X_j) $$
(1) 2個のさいころを同時に投げるとき、出た目の数をそれぞれ \( X,Y \) とする。
このとき、出た目の数の和 \( X+Y \) の平均を求めると、
$$ E(X+Y)=E(X)+E(Y)=\frac{7}{2}+\frac{7}{2}=7 $$
同様に、3個のさいころを同時に投げるとき、出た目の数をそれぞれ \( X,Y,Z \) とする。
このとき、出た目の数の和 \( X+Y+Z \) の平均を求めると、
$$ E(X+Y+Z)=E(X)+E(Y)+E(Z)=\frac{7}{2}+\frac{7}{2}+\frac{7}{2}=\frac{21}{2} $$
(2) 確率変数 \( X,Y \) の確率分布が次のようになっているとする。
\( X \ \backslash \ Y \) | \( 0 \) | \( 1 \) |
\( 0 \) | \( \frac{1}{10} \) | \( \frac{3}{10} \) |
\( 1 \) | \( \frac{2}{5} \) | \( \frac{1}{5} \) |
このとき、 \( V(X+Y) \) を求める。
まず、 \( X,Y \) の周辺分布は次のようになる。
\( X \) | \( 0 \) | \( 1 \) |
\( P \) | \( \frac{2}{5} \) | \( \frac{3}{5} \) |
\( Y \) | \( 0 \) | \( 1 \) |
\( P \) | \( \frac{1}{2} \) | \( \frac{1}{2} \) |
よって、
$$ E(X)=\frac{3}{5}, \ E(X^2)=\frac{3}{5}, \ V(X)=E(X^2)-\{E(X)\}^2=\frac{6}{25} $$
$$ E(Y)=\frac{1}{2}, \ E(Y^2)=\frac{1}{2}, \ V(Y)=E(Y^2)-\{E(Y)\}^2=\frac{1}{4} $$
$$ E(XY)=0\cdot 0\cdot\frac{1}{10}+0\cdot1\cdot\frac{3}{10}+1\cdot0\cdot\frac{2}{5}+1\cdot1\cdot\frac{1}{5}=\frac{1}{5} $$
$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{5}-\frac{3}{5}\cdot\frac{1}{2}=-\frac{1}{10} $$
したがって、
$$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y)=\frac{6}{25}+\frac{1}{4}-\frac{1}{5}=\frac{29}{100} $$
さらに、確率変数 \( X,Y \) が独立であるとき、次のことが成り立ちます。
確率変数 \( X,Y \) が互いに独立であるとき、次が成り立つ。
(1) $$ E(XY)=E(X)E(Y) $$
(2) $$ \text{Cov}(X,Y)=0, \quad \rho(X,Y)=0 $$
(3) $$ V(X+Y)=V(X)+V(Y) $$
定理3の証明(気になる方だけクリックしてください)
(1) \( X,Y \) が連続型確率変数の場合を示します。離散型確率変数の場合も同様に示せます。
\( X,Y \) が独立より、 \( h(x,y)=f(x)g(y) \) であるので、
$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_{-\infty}^{\infty}xf(x)dx\int_{-\infty}yg(y)dy \\ &=E(X)E(Y) \end{align} $$
(2) (1)より、
$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0 $$
よって、
$$ \rho(X,Y)=\frac{\text{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}=0 $$
(3) (2)より、
$$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y)=V(X)+V(Y) $$
(1) 例5(1)の2個のさいころ投げを考える。
それぞれのさいころを投げる試行は独立であるので、
$$ E(XY)=E(X)E(Y)=\frac{7}{2}\cdot\frac{7}{2}=\frac{49}{4} $$
また、
$$ V(X)=E(X^2)-\{ E(X)\}^2=\frac{91}{6}-\left( \frac{7}{2} \right)^2=\frac{35}{12} $$
であるので、
$$ V(X+Y)=V(X)+V(Y)=\frac{35}{12}+\frac{35}{12}=\frac{35}{2} $$
(2) 2つの連続型確率変数 \( X,Y \) に対して、次の同時確率密度関数を考える。
$$ h(x,y)=\begin{cases} \frac{1}{4}(1-x^3y+xy^3) & (-1<x<1, \ -1<y<1) \\ 0 & (その他) \end{cases} $$
このとき、 \( \text{Cov}(X,Y)=0 \) であるが、 \( X \) と \( Y \) は独立ではない。
実際、 \( -1<x<1 \) のとき
$$ \begin{align} f(x)&=\int_{-\infty}^{\infty}h(x,y)dy=\int_{-1}^1\frac{1}{4}(1-x^3y+xy^3)dy \\ &=\frac{1}{4}[y]^1_{-1}-\frac{1}{4}x^3\left[ \frac{1}{2}y^2 \right]^1_{-1}+\frac{1}{4}x\left[ \frac{1}{4}y^4 \right]^1_{-1}=\frac{1}{2} \end{align} $$
また、 \( -1<y<1 \) のとき
$$ \begin{align} g(y)&=\int_{-\infty}^{\infty}h(x,y)dx=\int_{-1}^1\frac{1}{4}(1-x^3y+xy^3)dx \\ &=\frac{1}{4}[x]^1_{-1}-\frac{1}{4}y\left[ \frac{1}{4}x^4 \right]^1_{-1}+\frac{1}{4}y^3\left[ \frac{1}{2}x^2 \right]^1_{-1}=\frac{1}{2} \end{align} $$
したがって、 \( h(x,y)\not=f(x)g(y) \) であるので、 \( X \) と \( Y \) は独立ではない。
さらに、
$$ E(X)=\int_{-\infty}^{\infty}xf(x)dx=\int_{-1}^1\frac{1}{2}xdx=\frac{1}{2} \left[\frac{1}{2}x^2 \right]^1_{-1}=0 $$
$$ E(Y)=\int_{-\infty}^{\infty}yg(y)dy=\int_{-1}^1\frac{1}{2}ydy=\frac{1}{2} \left[\frac{1}{2}y^2 \right]^1_{-1}=0 $$
$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_{-1}^1\int_{-1}^1xy\cdot\frac{1}{4}(1-x^3y+xy^3)dxdy \\ &=\frac{1}{4}\left[\frac{1}{2}x^2\right]^1_{-1}\left[ \frac{1}{2}y^2 \right]^1_{-1}-\frac{1}{4}\left[\frac{1}{5}x^5\right]^1_{-1}\left[\frac{1}{3}y^3\right]^1_{-1} \\ & \quad +\frac{1}{4}\left[\frac{1}{3}x^3 \right]^1_{-1}\left[ \frac{1}{5}y^5 \right]^1_{-1} \\ &=0 \end{align} $$
より、
$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=0 $$
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。