確率・統計(統計検定2級対応)09:複数個の確率変数の確率分布と期待値・分散

こんにちは、ひかりです。

今回は確率・統計から複数個の確率変数の確率分布と期待値・分散について解説していきます。

この記事では以下のことを紹介します。

  • 同時分布と周辺分布について
  • 複数個の確率変数の独立性について
  • 複数個の確率変数の期待値と分散について
目次

同時分布と周辺分布

いままで、1つの確率変数に対して確率分布を考えてきましたが、今度は複数個の確率変数の確率分布について見ていきましょう。

例1

表が出る確率が \( \frac{1}{3} \) 、裏が出る確率が \( \frac{2}{3} \) のコインを2回投げる。

このとき、1回目のコイン投げの結果を \( X \) 、2回目のコイン投げの結果を \( Y \) とおく。

ただし、表が出たとき \( 0 \) 、裏が出たとき \( 1 \) とする。

このとき、 \( X \) と \( Y \) の確率分布は次のようになる。

\( X \ \backslash \ Y \)\( 0 \)\( 1 \)
\( 0 \)\( \frac{1}{9} \)\( \frac{2}{9} \)
\( 1 \)\( \frac{2}{9} \)\( \frac{4}{9} \)

また、 \( Y \) は何でもいいので \( X=0 \) となる確率 \( P(X=0) \) は

$$ P(X=0)=P(X=0,Y=0)+P(X=0,Y=1)=\frac{1}{9}+\frac{2}{9}=\frac{1}{3} $$

\( X \) は何でもいいので \( Y=1 \) となる確率 \( P(Y=1) \) は

$$ P(Y=1)=P(X=0,Y=1)+P(X=1,Y=1)=\frac{2}{9}+\frac{4}{9}=\frac{2}{3} $$

となる。したがって、 \( X \) の確率分布と \( Y \) の確率分布は次のようになる。

\( X \) \( 0 \)\( 1 \)
\( P \)\( \frac{1}{3} \)\( \frac{2}{3} \)
\( Y \)\( 0 \)\( 1 \)
\( P \)\( \frac{1}{3} \)\( \frac{2}{3} \)

この例のように、2つの確率変数 \( X,Y \) に対して、 \( X \) と \( Y \) を両方考慮した確率分布と \( X \) と \( Y \) の一方を無視したもう一方に対する確率分布の2つが考えることができます。

これらをそれぞれ、同時分布周辺分布といい、次のように定義されます。

定義1 (離散型確率変数の同時分布と周辺分布)

2つの離散型確率変数 \( X,Y \) に対して、 \( X \) のとる値が \( x_1,x_2,\cdots \) 、 \( Y \) のとる値が \( y_1,y_2,\cdots \) であるとする。(値が有限個でもよい)

そして、 \( X=x_i \) かつ \( Y=y_j \) である確率を

$$ P(X=x_i,Y=y_j)=p_{ij} \quad (i,j=1,2,\cdots) $$

と表す。このとき、 \( \{p_{ij}\} \) を確率変数 \( X,Y \) の同時確率分布または同時分布という。

これは1つの確率変数の確率分布のときと同様に次をみたす。

$$ p_{ij}≧0, \quad \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1 $$

また、同時分布から \( X \) と \( Y \) の単独の確率分布を次のように求めることができる。

$$ \begin{align} P(X=x_i)&=\sum_{j=1}^{\infty}P(X=x_i,Y=y_j) \\ &=\sum_{j=1}^{\infty}p_{ij}=p_i \quad (i=1,2,\cdots) \end{align} $$

$$ \begin{align} P(Y=y_j)&=\sum_{i=1}^{\infty}P(X=x_i,Y=y_j) \\ &=\sum_{i=1}^{\infty}p_{ij}=p_j \quad (j=1,2,\cdots) \end{align} $$

これらをそれぞれ確率変数 \( X,Y \) の周辺確率分布または周辺分布という。

定義2 (連続型確率変数の同時確率密度関数と周辺確率密度関数)

2つの連続型確率変数 \( X,Y \) があり、任意の2次元の集合 \( D \) に対して \( (X,Y)\in D \) となる確率が

$$ P((X,Y)\in D)=\iint_D h(x,y)dxdy $$

となる関数 \( h(x,y) \) が存在するとき、 \( h(x,y) \) を同時確率密度関数という。

これは1つの確率変数の確率分布のときと同様に次をみたす。

$$ h(x,y)≧0, \quad \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}h(x,y)dxdy=1 $$

$$ P(a≦X≦b,c≦Y≦d)=\int_c^d\int_a^bh(x,y)dxdy $$

また、同時確率密度関数から \( X \) と \( Y \) の単独の確率密度関数を次のように求めることができる。

$$ f(x)=\int_{-\infty}^{\infty}h(x,y)dy $$

$$ g(y)=\int_{-\infty}^{\infty}h(x,y)dx $$

これらをそれぞれ確率変数 \( X,Y \) の周辺確率密度関数という。

例2

連続型確率変数 \( X,Y \) に対して、次のような同時確率密度関数を考える。

$$ h(x,y)=\begin{cases} cx^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$

このとき、 \( X \) の周辺確率密度関数 \( f(x) \) と \( Y \) の周辺確率密度関数 \( g(y) \) を求める。

まず、 \( c \) の値を求めるために、 \( -\infty \) から \( \infty \) まで積分をすると、

$$ \begin{align} 1=\int_{-\infty}^{\infty}h(x,y)dxdy&=\int_0^1\int_0^1cx^2y dxdy \quad (0<x,y<1以外では h(x,y)=0である) \\ &=c\int_0^1x^2dx\int_0^1ydy \\ &=c\left[ \frac{1}{3}x^3 \right]^1_0\left[ \frac{1}{2}y^2 \right]^1_0=\frac{1}{6}c \end{align} $$

よって、 \( c=6 \) である。

そして、 \( X \) の周辺確率密度関数 \( f(x) \) を求めると、 \( 0<x<1 \) では

$$ \begin{align} f(x)&=\int_{-\infty}^{\infty}h(x,y)dy \\ &=\int_0^16x^2ydy \quad (0<y<1以外では h(x,y)=0である) \\ &=6x^2\int_0^1ydy \quad (xはyの積分に関与しない) \\ &=6x^2\left[ \frac{1}{2}y^2 \right]^1_0=3x^2 \end{align} $$

したがって、

$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$

また、 \( Y \) の周辺確率密度関数 \( g(y) \) を求めると、 \( 0<y<1 \) では

$$ \begin{align} g(y)&=\int_{-\infty}^{\infty}h(x,y)dx \\ &=\int_0^16x^2ydx \quad (0<x<1以外では h(x,y)=0である) \\ &=6y\int_0^1x^2dx \quad (yはxの積分に関与しない) \\ &=6y\left[ \frac{1}{3}x^3 \right]^1_0=2y \end{align} $$

したがって、

$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$

複数個の確率変数の独立性

確率・統計06の記事で事象の独立性について扱いました。

似たようにして、2つの確率変数 \( X,Y \) に対して独立性を次のように定義します。

定義3 (確率変数の独立性1)

2つの確率変数 \( X,Y \) が任意の区間 \( A,B \) に対して、

$$ P(X\in A,Y\in B)=P(X\in A)P(Y\in B) $$

となるとき、 \( X,Y \) は互いに独立であるという。

\( X,Y \) が離散型確率変数の場合は、この独立性の条件は次のように考えられます。

任意の \( i,j \) に対して、

$$ P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j) $$

また、 \( X,Y \) が連続型確率変数の場合は次のようになります。

任意の \( x,y \) に対して、

$$ h(x,y)=f(x)g(y) $$

例3

例2の同時確率密度関数

$$ h(x,y)=\begin{cases} 6x^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$

を考えると、例2より

$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$

$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$

となるので、任意の \( x,y \) に対して、

$$ h(x,y)=f(x)g(y) $$

したがって、 \( X,Y \) は互いに独立である。

3つ以上の確率変数の独立性についても同様に定義できます。

定義4 (確率変数の独立性2)

\( n \) 個の確率変数 \( X_1,x_2,\cdots,X_n \) が任意の区間 \( A_1,A_2,\cdots,A_n \) に対して、

$$ P(X_1\in A_1,X_2\in A_2,\cdots X_n\in A_n)=P(X_1\in A_1)P(X_2\in A_2)\cdots P(X_n\in A_n) $$

をみたすとき、 \( X_1,X_2,\cdots,X_n \) は互いに独立であるという。

事象の独立性の場合は次をすべてみたす必要がありました。例えば、3つの事象 \( A,B,C \) であれば、$$ P(A\cap B)=P(A)P(B), \quad P(A\cap C)=P(A)P(C), $$ $$ P(B\cap C)=P(B)P(C), \quad P(A\cap B\cap C)=P(A)P(B)P(C) $$ 確率変数の場合は一見、事象の場合と違うように見えますが、区間として実数全体 \( \mathbb{R} \) を考えてあげれば、 $$ \begin{align} P(X_1\in A_1, X_3\in A_3)&=P(X_1\in A_1, X_2\in \mathbb{R}, X_3\in A_3) \\ &=P(X_1\in A_1)P(X_2\in \mathbb{R})P(X_3\in A_3) \\ &=P(X_1\in A_1)P(X_3\in A_3) \end{align} $$ となり、事象の独立性の定義と同様の定義の仕方となっています。

複数個の確率変数の期待値と分散

確率・統計08の記事で、確率変数 \( X \) に対して、確率変数 \( g(X) \) の期待値を考えました。

同様にして、確率変数 \( X,Y \) に対して、確率変数 \( g(X,Y) \) の期待値を次で定めます。

定義5

確率変数 \( X,Y \) と連続関数 \( g(x,y) \) に対して、確率変数 \( g(X,Y) \) の期待値または平均 \( E(g(X,Y)) \) を次で定める。

$$ E(g(X,Y))=\begin{cases} \displaystyle \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}g(x_i,y_j)p_{ij} & (X,Yが離散型確率変数) \\ \displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)h(x,y)dxdy & (X,Yが連続型確率変数) \end{cases} $$

また、2変数データの共分散と相関係数の場合と同様にして、確率変数 \( X,Y \) の共分散と相関係数を次で定めます。

定義6 (確率変数の共分散と相関係数)

2つの確率変数 \( X,Y \) に対して、 \( X \) と \( Y \) の共分散 \( \text{Cov}(X,Y) \) を次で定める。

$$ \text{Cov}(X,Y)=E[\{X-E(X)\}\{Y-E(Y)\}] $$

また、 \( X \) と \( Y \) の相関係数 \( \rho(X,Y) \) を次で定める。

$$ \rho(X,Y)=\frac{\text{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}} $$

共分散は定義通りに計算するのは大変なので変形をすると、

$$ \begin{align} \text{Cov}(X,Y)&=E[\{X-E(X)\}\{Y-E(Y)\}] \\ &=E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ &=E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y) \\ &=E(XY)-E(X)E(Y) \end{align} $$

となります。

例4

例2の同時確率密度関数

$$ h(x,y)=\begin{cases} 6x^2y & (0<x<1, \ 0<y<1) \\ 0 & (その他) \end{cases} $$

に対して、共分散 \( \text{Cov}(X,Y) \) を求める。

まず、例2より、

$$ f(x)=\begin{cases} 3x^2 & (0<x<1) \\ 0 & (その他) \end{cases} $$

$$ g(y)=\begin{cases} 2y & (0<y<1) \\ 0 & (その他) \end{cases} $$

であるので、

$$ \begin{align} E(X)&=\int_{-\infty}^{\infty}xf(x)dx=\int_0^13x^3dx \quad (0<x<1以外では f(x)=0である) \\ &=3\left[ \frac{1}{4}x^4 \right]^1_0=\frac{3}{4} \end{align} $$

$$ \begin{align} E(Y)&=\int_{-\infty}^{\infty}yg(y)dy=\int_0^12y^2dy \quad (0<y<1以外では g(y)=0である) \\ &=2\left[ \frac{1}{3}y^3 \right]^1_0=\frac{2}{3} \end{align} $$

また、

$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_0^1\int_0^16x^3y^2dxdy \quad (0<x,y<1以外では h(x,y)=0である) \\ &=6\left[ \frac{1}{4}x^4 \right]^1_0\left[ \frac{1}{3}y^3 \right]^1_0=\frac{1}{2} \end{align} $$

したがって、

$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{2}-\frac{3}{4}\cdot\frac{2}{3}=0 $$

2つの確率変数の和の期待値と分散について次が成り立ちます。

定理1 (2つの確率変数の和の期待値と分散)

2つの確率変数 \( X,Y \) に対して、次が成り立つ。

(1) $$ E(X+Y)=E(X)+E(Y) $$

(2) $$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y) $$

定理1の証明(気になる方だけクリックしてください)

(1) \( X,Y \) が連続型確率変数の場合を示します。離散型確率変数の場合も同様に示せます。

$$ \begin{align} E(X+Y)&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x+y)h(x,y)dxdy \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xh(x,y)dxdy+\int_{-\infty}^{\infty}yh(x,y)dxdy \\ &=\int_{-\infty}^{\infty}x\left(\int_{-\infty}^{\infty}h(x,y)dy\right)dx+\int_{-\infty}^{\infty}y\left(\int_{-\infty}^{\infty}h(x,y)dx\right)dy \\ &=\int_{-\infty}^{\infty}xf(x)dx+\int_{-\infty}^{\infty}yg(y)dy \\ &=E(X)+E(Y) \end{align} $$


(2) $$ \begin{align} V(X+Y)&=E[\{ X+Y-E(X+Y)\}^2] \\ &=E[\{ (X-E(X))+(Y-E(Y))\}^2] \quad ((1)より) \\ &=E[\{X-E(X)\}^2]+E[\{Y-E(Y)\}^2]+2E[\{X-E(X)\}\{Y-E(Y)\}] \\ &=V(X)+V(Y)+2\text{Cov}(X,Y) \end{align} $$

定理1は \( n \) 個の確率変数に対しても同様に成り立ちます。

定理2 (\( n \) 個の確率変数の和の期待値と分散)

\( n \) 個の確率変数 \( X_1,X_2,\cdots,X_n \) に対して、次が成り立つ。

(1) $$ E\left( \sum_{i=1}^n X_i \right)=\sum_{i=1}^nE(X_i) $$

(2) $$ V\left( \sum_{i=1}^n X_i \right)=\sum_{i=1}^nV(X_i)+2\sum_{1≦i<j≦n}\text{Cov}(X_i,X_j) $$

例5

(1) 2個のさいころを同時に投げるとき、出た目の数をそれぞれ \( X,Y \) とする。

このとき、出た目の数の和 \( X+Y \) の平均を求めると、

$$ E(X+Y)=E(X)+E(Y)=\frac{7}{2}+\frac{7}{2}=7 $$

同様に、3個のさいころを同時に投げるとき、出た目の数をそれぞれ \( X,Y,Z \) とする。

このとき、出た目の数の和 \( X+Y+Z \) の平均を求めると、

$$ E(X+Y+Z)=E(X)+E(Y)+E(Z)=\frac{7}{2}+\frac{7}{2}+\frac{7}{2}=\frac{21}{2} $$


(2) 確率変数 \( X,Y \) の確率分布が次のようになっているとする。

\( X \ \backslash \ Y \)\( 0 \)\( 1 \)
\( 0 \)\( \frac{1}{10} \)\( \frac{3}{10} \)
\( 1 \)\( \frac{2}{5} \)\( \frac{1}{5} \)

このとき、 \( V(X+Y) \) を求める。

まず、 \( X,Y \) の周辺分布は次のようになる。

\( X \)\( 0 \)\( 1 \)
\( P \)\( \frac{2}{5} \)\( \frac{3}{5} \)
\( Y \)\( 0 \)\( 1 \)
\( P \)\( \frac{1}{2} \)\( \frac{1}{2} \)

よって、

$$ E(X)=\frac{3}{5}, \ E(X^2)=\frac{3}{5}, \ V(X)=E(X^2)-\{E(X)\}^2=\frac{6}{25} $$

$$ E(Y)=\frac{1}{2}, \ E(Y^2)=\frac{1}{2}, \ V(Y)=E(Y^2)-\{E(Y)\}^2=\frac{1}{4} $$

$$ E(XY)=0\cdot 0\cdot\frac{1}{10}+0\cdot1\cdot\frac{3}{10}+1\cdot0\cdot\frac{2}{5}+1\cdot1\cdot\frac{1}{5}=\frac{1}{5} $$

$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{5}-\frac{3}{5}\cdot\frac{1}{2}=-\frac{1}{10} $$

したがって、

$$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y)=\frac{6}{25}+\frac{1}{4}-\frac{1}{5}=\frac{29}{100} $$

さらに、確率変数 \( X,Y \) が独立であるとき、次のことが成り立ちます。

定理3

確率変数 \( X,Y \) が互いに独立であるとき、次が成り立つ。

(1) $$ E(XY)=E(X)E(Y) $$

(2) $$ \text{Cov}(X,Y)=0, \quad \rho(X,Y)=0 $$

(3) $$ V(X+Y)=V(X)+V(Y) $$

(1)は次のように一般化することができます。確率変数 \( X,Y \) が互いに独立であるとき、連続関数 \( f(x),g(y) \) に対して、 $$ E[f(X)g(Y)]=E[f(X)]E[g(Y)] $$

(2)の逆は成り立ちません。つまり、 \( \text{Cov}(X,Y)=0 \) であっても \( X \) と \( Y \) は独立であるとは限りません。(例6の(2)をご覧ください。)

定理3の証明(気になる方だけクリックしてください)

(1) \( X,Y \) が連続型確率変数の場合を示します。離散型確率変数の場合も同様に示せます。

\( X,Y \) が独立より、 \( h(x,y)=f(x)g(y) \) であるので、

$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_{-\infty}^{\infty}xf(x)dx\int_{-\infty}yg(y)dy \\ &=E(X)E(Y) \end{align} $$


(2) (1)より、

$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=E(X)E(Y)-E(X)E(Y)=0 $$

よって、

$$ \rho(X,Y)=\frac{\text{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}=0 $$


(3) (2)より、

$$ V(X+Y)=V(X)+V(Y)+2\text{Cov}(X,Y)=V(X)+V(Y) $$

例6

(1) 例5(1)の2個のさいころ投げを考える。

それぞれのさいころを投げる試行は独立であるので、

$$ E(XY)=E(X)E(Y)=\frac{7}{2}\cdot\frac{7}{2}=\frac{49}{4} $$

また、

$$ V(X)=E(X^2)-\{ E(X)\}^2=\frac{91}{6}-\left( \frac{7}{2} \right)^2=\frac{35}{12} $$

であるので、

$$ V(X+Y)=V(X)+V(Y)=\frac{35}{12}+\frac{35}{12}=\frac{35}{2} $$


(2) 2つの連続型確率変数 \( X,Y \) に対して、次の同時確率密度関数を考える。

$$ h(x,y)=\begin{cases} \frac{1}{4}(1-x^3y+xy^3) & (-1<x<1, \ -1<y<1) \\ 0 & (その他) \end{cases} $$

このとき、 \( \text{Cov}(X,Y)=0 \) であるが、 \( X \) と \( Y \) は独立ではない。

実際、 \( -1<x<1 \) のとき

$$ \begin{align} f(x)&=\int_{-\infty}^{\infty}h(x,y)dy=\int_{-1}^1\frac{1}{4}(1-x^3y+xy^3)dy \\ &=\frac{1}{4}[y]^1_{-1}-\frac{1}{4}x^3\left[ \frac{1}{2}y^2 \right]^1_{-1}+\frac{1}{4}x\left[ \frac{1}{4}y^4 \right]^1_{-1}=\frac{1}{2} \end{align} $$

また、 \( -1<y<1 \) のとき

$$ \begin{align} g(y)&=\int_{-\infty}^{\infty}h(x,y)dx=\int_{-1}^1\frac{1}{4}(1-x^3y+xy^3)dx \\ &=\frac{1}{4}[x]^1_{-1}-\frac{1}{4}y\left[ \frac{1}{4}x^4 \right]^1_{-1}+\frac{1}{4}y^3\left[ \frac{1}{2}x^2 \right]^1_{-1}=\frac{1}{2} \end{align} $$

したがって、 \( h(x,y)\not=f(x)g(y) \) であるので、 \( X \) と \( Y \) は独立ではない。

さらに、

$$ E(X)=\int_{-\infty}^{\infty}xf(x)dx=\int_{-1}^1\frac{1}{2}xdx=\frac{1}{2} \left[\frac{1}{2}x^2 \right]^1_{-1}=0 $$

$$ E(Y)=\int_{-\infty}^{\infty}yg(y)dy=\int_{-1}^1\frac{1}{2}ydy=\frac{1}{2} \left[\frac{1}{2}y^2 \right]^1_{-1}=0 $$

$$ \begin{align} E(XY)&=\int_{-\infty}^{\infty}xyh(x,y)dxdy \\ &=\int_{-1}^1\int_{-1}^1xy\cdot\frac{1}{4}(1-x^3y+xy^3)dxdy \\ &=\frac{1}{4}\left[\frac{1}{2}x^2\right]^1_{-1}\left[ \frac{1}{2}y^2 \right]^1_{-1}-\frac{1}{4}\left[\frac{1}{5}x^5\right]^1_{-1}\left[\frac{1}{3}y^3\right]^1_{-1} \\ & \quad +\frac{1}{4}\left[\frac{1}{3}x^3 \right]^1_{-1}\left[ \frac{1}{5}y^5 \right]^1_{-1} \\ &=0 \end{align} $$

より、

$$ \text{Cov}(X,Y)=E(XY)-E(X)E(Y)=0 $$

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

目次