確率・統計(統計検定2級対応)20：2つの母集団の母数に関する区間推定

2023年9月24日2024年3月25日

こんにちは、ひかりです。

今回は確率・統計から2つの母集団の母数に関する区間推定について解説していきます。

この記事では以下のことを紹介します。

2つの正規母集団の母平均の差の区間推定について
2つの正規母集団の母分散の比の区間推定について
2つの母比率の差の区間推定について

2つの正規母集団の母平均の差の区間推定

今までは、1つの母集団から抽出した標本に対する区間推定を考えましたが、ここでは2つの母集団からそれぞれ標本を抽出してそれらの間の関係について見ていきます。

まず初めにそれぞれの標本をもとに2つの母平均の差を区間推定してみましょう。

ここで、正規分布 $ N(\mu_1,\sigma^2_1) $ に従う正規母集団 $ A $ から抽出した標本を $ X_1,\cdots,X_m $ 、正規分布 $ N(\mu_2,\sigma^2_2) $ に従う正規母集団 $ B $ から抽出した標本を $ Y_1,\cdots,Y_n $ とします。

母分散が既知の場合

まずは、母分散 $ \sigma^2_1,\sigma^2_2 $ が既知の場合について扱います。

それぞれの標本 $ X_1,\cdots,X_m $ と $ Y_1,\cdots, Y_n $ に対して、標本平均を

$$ \overline{X}=\frac{1}{m}\sum_{i=1}^mX_i, \quad \overline{Y}=\frac{1}{n}\sum_{i=1}^nY_i $$

とおくと、 $ \overline{X} $ は正規分布 $ N\left(\mu_1,\frac{\sigma_1^2}{m}\right) $ 、 $ \overline{Y} $ は正規分布 $ N\left(\mu_2,\frac{\sigma^2_2}{n}\right) $ に従います。

よって、正規分布の再生性より、 $ \overline{X}-\overline{Y} $ は正規分布 $ N\left( \mu_1-\mu_2,\frac{\sigma_1^2}{m}+\frac{\sigma^2_2}{n} \right) $ に従います。

したがって、標準化した

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}} $$

は標準正規分布 $ N(0,1) $ に従います。

このとき、正規分布表を見ると、

$$ \begin{align} 0.95&=P\left( -1.96≦\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}}≦1.96 \right) \\ &=P\left( (\overline{X}-\overline{Y})-1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}≦\mu_1-\mu_2≦(\overline{X}-\overline{Y})+1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}} \right) \end{align} $$

したがって、それぞれの実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ とするときの95%信頼区間は

$$ \left[ (\overline{x}-\overline{y})-1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}},(\overline{x}-\overline{y})+1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}\right] $$

ここで、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i $$

になります。

同様に実現値を $ x_1,\cdots,x_n $ と $ y_1,\cdots,y_n $ とするときの99%信頼区間は

$$ \left[ (\overline{x}-\overline{y})-2.58\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}},(\overline{x}-\overline{y})+2.58\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}\right] $$

まとめると、

定理1 (分散既知の場合における2つの正規母集団の母平均の差の区間推定)

2つの母集団がそれぞれ正規分布 $ N(\mu_1,\sigma_1^2),N(\mu_2,\sigma^2_2) $ に従っていて、母分散 $ \sigma^2_1,\sigma^2_2 $ がわかっているとする。

また、それぞれの正規母集団から抽出した標本を $ X_1,\cdots,X_m $ と $ Y_1,\cdots, Y_n $ とする。

このとき、それぞれの標本の実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ として、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i $$

とするとき、母平均の差 $ \mu_1-\mu_2 $ の信頼区間は次のようになる。

$$ 95％信頼区間 \quad \left[ (\overline{x}-\overline{y})-1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}},(\overline{x}-\overline{y})+1.96\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}\right] $$

$$ 99％信頼区間 \quad \left[ (\overline{x}-\overline{y})-2.58\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}},(\overline{x}-\overline{y})+2.58\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}\right] $$

例1

$ A $ 高校の受験生の1日の勉強時間は正規分布 $ N(\mu_1,0.08) $ 、 $ B $ 高校の受験生は正規分布 $ N(\mu_2,0.05) $ に従うとする。

このとき、 $ A $ 高校から5人抽出したとき、次のデータが得られた。

$$ 13.1, \ 12.9, \ 11.9, \ 12.6, \ 13.3 \ (時間) $$

また、 $ B $ 高校から4人抽出したとき、次のデータが得られた。

$$ 7.8, \ 9.0, \ 8.8, \ 8.5, \ (時間) $$

このとき、平均勉強時間の差 $ \mu_1-\mu_2 $ の95％信頼区間を求める。

$$ \overline{x}=12.76, \quad \overline{y}=8.525 $$

より、95％信頼区間は

$$ \begin{align} &\left[ (12.76-8.525)-1.96\sqrt{\frac{0.08^2}{5}+\frac{0.05^2}{4}},(12.76-8.525)+1.96\sqrt{\frac{0.08^2}{5}+\frac{0.05^2}{4}}\right] \\ &=[4.15,4.32] \end{align} $$

母分散が未知で標本数が十分多い場合

母分散が未知であっても、標本数 $ m,n $ が十分大きい場合(目安は $ m,n≧50 $ )は標本分散

$$ S_1^2=\frac{1}{m-1}\sum_{i=1}^m(X_i-\overline{X})^2, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\overline{Y})^2 $$

が母分散 $ \sigma^2_1,\sigma^2_2 $ の一致推定量であることから、上の議論で母分散 $ \sigma^2_1,\sigma^2_2 $ の代わりに標本分散 $ S_1^2,S_2^2 $ を用いることができます。

したがって、区間推定は次のようになります。

定理2 (分散未知で大標本の場合における2つの正規母集団の母平均の差の区間推定)

2つの母集団がそれぞれ正規分布 $ N(\mu_1,\sigma_1^2),N(\mu_2,\sigma^2_2) $ に従っていて、母分散 $ \sigma_1^2,\sigma^2_2 $ がわかっていないとする。

また、2つの正規母集団から十分多く(目安は $ m,n≧50 $)抽出した標本をそれぞれ $ X_1,\cdots,X_m $ と $ Y_1,\cdots,Y_n $ とする。

このとき、それぞれの標本の実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ として、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\overline{x})^2 $$

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2 $$

とするとき、母平均の差 $ \mu_1-\mu_2 $ の信頼区間は次のようになる。

$$ 95％信頼区間 \quad \left[ (\overline{x}-\overline{y})-1.96\sqrt{\frac{S^2_1}{m}+\frac{S^2_2}{n}},(\overline{x}-\overline{y})+1.96\sqrt{\frac{S^2_1}{m}+\frac{S^2_2}{n}}\right] $$

$$ 99％信頼区間 \quad \left[ (\overline{x}-\overline{y})-2.58\sqrt{\frac{S^2_1}{m}+\frac{S^2_2}{n}},(\overline{x}-\overline{y})+2.58\sqrt{\frac{S^2_1}{m}+\frac{S^2_2}{n}}\right] $$

標本数が少なく母分散が未知だが等分散である場合

こんどは、2つの母集団の母分散が未知であり、標本数も少ない場合を考えます。

ここで、もし等分散 $ \sigma^2_1=\sigma^2_2=\sigma^2 $ であるということがわかっていたとすると、上の議論において $ \overline{X}-\overline{Y} $ は正規分布 $ N\left( \mu_1-\mu_2,\sigma^2\left(\frac{1}{m}+\frac{1}{n}\right) \right) $ に従います。

したがって、標準化した

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\sigma^2\left(\frac{1}{m}+\frac{1}{n}\right)}} $$

は標準正規分布 $ N(0,1) $ に従います。

ただし、これだとまだ未知の母分散を含んだ形となるので、次を考えます。

$$ \hat{\sigma}^2=\frac{(m-1)S_1^2+(n-1)S^2_2}{(m-1)+(n-1)}=\frac{\sum_{i=1}^m(X_i-\overline{X})^2+\sum_{i=1}^n(Y_i-\overline{Y})^2}{m+n-2} $$

この $ \hat{\sigma}^2 $ のことをプールした分散もしくは合併標本分散といいます。

よって、 $ \sigma^2 $ の代わりに $ \hat{\sigma}^2 $ に置き換えた

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}} $$

を考えます。

これは次の分布に従うことがわかります。

定理3

上の状況のもと、

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}} $$

は自由度 $ m+n-2 $ の $ t $ 分布 $ t(m+n-2) $ に従う。

定理3の証明(気になる方だけクリックしてください)

$$ S_1^2=\frac{1}{m-1}\sum_{i=1}^m(X_i-\overline{X})^2, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\overline{Y})^2 $$

$$ s_1^2=\frac{1}{m}\sum_{i=1}^m(X_i-\overline{X})^2, \quad s_2^2=\frac{1}{n}\sum_{i=1}^n(Y_i-\overline{Y})^2 $$

とおくと、

$$ \begin{align} \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}}&=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{(m-1)S_1^2+(n-1)S^2_2}{(m-1)+(n-1)}\left(\frac{1}{m}+\frac{1}{n}\right)}} \\ &=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{ms_1^2+ns^2_2}{m+n-2}}\sqrt{\left(\frac{1}{m}+\frac{1}{n}\right)}} \\ &=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}}\left( \sqrt{\frac{\frac{1}{\sigma^2}(ms_1^2+ns_2^2)}{m+n-2}}\right)^{-1} \end{align} $$

ここで、

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2}{m}+\frac{\sigma^2}{n}}} $$

は

$$ E(\overline{X}-\overline{Y})=\mu_1-\mu_2, \quad V(\overline{X}-\overline{Y})=\frac{\sigma^2}{m}+\frac{\sigma^2}{n} $$

より、標準正規分布 $ N(0,1) $ に従います。また、

$$ \frac{1}{\sigma^2}(ms_1^2+ns_2^2) $$

は

$$ \frac{1}{\sigma^2}ms_1^2=\frac{1}{\sigma^2}\sum_{i=1}^m(X_i-\overline{X})^2 $$

が自由度 $ m-1 $ のカイ2乗分布 $ \chi^2(m-1) $ に従い、

$$ \frac{1}{\sigma^2}ns_2^2=\frac{1}{\sigma^2}\sum_{j=1}^n(Y_i-\overline{Y})^2 $$

が自由度 $ n-1 $ のカイ2乗分布 $ \chi^2(n-1) $ に従うので、カイ2乗分布の再生性より、自由度

$$ (m-1)+(n-1)=m+n-2 $$

のカイ2乗分布 $ \chi^2(m+n-2) $ に従います。

したがって、 $ t $ 分布の定義より、

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}} $$

は自由度 $ m+n-2 $ の $ t $ 分布 $ t(m+n-2) $ に従います。

ここで、自由度 $ n $ の $ t $ 分布 $ t(n) $ に従う確率変数 $ X $ に対して

$$ P(X≧x)=\alpha $$

となる $ x $ の値を $ x=t_{\alpha}(n) $ とおくことにします。

このとき、$ t $ 分布表を見ると、

$$ \begin{align} 0.95&=P\left( -t_{0.025}(m+n-2)≦\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}}≦t_{0.025}(m+n-2) \right) \\ &=P\left( (\overline{X}-\overline{Y})-t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}≦\mu_1-\mu_2 \right. \\ &\left. \quad \quad \quad \quad ≦(\overline{X}-\overline{Y})+t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)} \right) \end{align} $$

したがって、それぞれの実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ とするときの95%信頼区間は

$$ \left[ (\overline{x}-\overline{y})-t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)},(\overline{x}-\overline{y})+t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)} \right] $$

ここで、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i $$

$$ \hat{\sigma}^2=\frac{(m-1)S_1^2+(n-1)S^2_2}{(m-1)+(n-1)}=\frac{\sum_{i=1}^m(x_i-\overline{x})^2+\sum_{i=1}^n(y_i-\overline{y})^2}{m+n-2} $$

になります。

同様に実現値を $ x_1,\cdots,x_n $ と $ y_1,\cdots,y_n $ とするときの99%信頼区間は

$$ \left[ (\overline{x}-\overline{y})-t_{0.005}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)},(\overline{x}-\overline{y})+t_{0.005}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)} \right] $$

まとめると、

定理4 (分散未知で小標本で等分散の場合における2つの正規母集団の母平均の差の区間推定)

2つの母集団がそれぞれ正規分布 $ N(\mu_1,\sigma_1^2),N(\mu_2,\sigma^2_2) $ に従っていて、母分散 $ \sigma_1^2,\sigma^2_2 $ がわかっていないが等しい $ \sigma^2_1=\sigma^2_2=\sigma^2 $ とする。

また、2つの正規母集団から抽出した(十分大ではない)標本をそれぞれ $ X_1,\cdots,X_m $ と $ Y_1,\cdots,Y_n $ とする。

このとき、それぞれの標本の実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ として、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\overline{x})^2 $$

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2 $$

$$ \hat{\sigma}^2=\frac{(m-1)S_1^2+(n-1)S^2_2}{(m-1)+(n-1)}=\frac{\sum_{i=1}^m(x_i-\overline{x})^2+\sum_{i=1}^n(y_i-\overline{y})^2}{m+n-2} $$

とするとき、母平均の差 $ \mu_1-\mu_2 $ の信頼区間は次のようになる。

$$ \begin{align} &95％信頼区間 \\ &\left[ (\overline{x}-\overline{y})-t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)},(\overline{x}-\overline{y})+t_{0.025}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}\right] \end{align} $$

$$ \begin{align} &99％信頼区間 \\ &\left[ (\overline{x}-\overline{y})-t_{0.005}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)},(\overline{x}-\overline{y})+t_{0.005}(m+n-2)\sqrt{\hat{\sigma}^2\left(\frac{1}{m}+\frac{1}{n}\right)}\right] \end{align} $$

例2

$ A $ 工場と $ B $ 工場の製品の重さはそれぞれ母分散が等しいある正規分布に従うとする。

このとき、 $ A $ 工場から7個抽出したとき、次のデータが得られた。

$$ 21.4, \ 19.9, \ 24.5, \ 23.7, \ 20.3, \ 22.0, \ 22.6 \ (g) $$

また、 $ B $ 工場から8個抽出したとき、次のデータが得られた。

$$ 24.2, \ 24.9, \ 25.1, \ 23.2, \ 21.7, \ 23.9, \ 24.3, \ 22.3 \ (g) $$

このとき、平均重量の差 $ \mu_1-\mu_2 $ の95％信頼区間を求める。

$$ \overline{x}≒22.06, \quad S_1^2≒2.86 $$

$$ \overline{y}=23.7, \quad S_2^2≒1.47 $$

$$ \hat{\sigma}^2=\frac{6S_1^2+7S^2_2}{6+7}≒2.107 $$

より、95％信頼区間は

$$ \begin{align} &\left[ (22.06-23.7)-t_{0.025}(13)\sqrt{2.107\times \left(\frac{1}{7}+\frac{1}{8}\right)},\right. \\ & \quad \quad \quad \left.(22.06-23.7)+t_{0.025}(13)\sqrt{2.107\times \left(\frac{1}{7}+\frac{1}{8}\right)}\right] \\ &=[-3.266,-0.020] \end{align} $$

標本数が少なく母分散が未知で等分散でもない場合

2つの母集団の母分散が未知であり、標本数も少なく、等分散でもない場合は正確な信頼区間を求める方法はいまのところ知られていません。

ただし、近似的な信頼区間を求めることはできます。

詳しい内容については省略して、結果のみ述べたいと思います。

まず、定理3に対応する次の結果が成り立ちます。

定理5

$$ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{m}+\frac{S_2^2}{n}}} $$

は自由度

$$ \phi^*=\frac{\left( \frac{S_1^2}{m}+\frac{S_2^2}{n} \right)^2}{\frac{1}{m-1}\left( \frac{S_1^2}{m}\right)^2+\frac{1}{n-1}\left( \frac{S_2^2}{n} \right)^2} $$

の $ t $ 分布 $ t(\phi^*) $ に近似的に従う。

これをもとに次のようにして信頼区間を求めることができます。

定理6 (分散未知で小標本で等分散でない場合における2つの正規母集団の母平均の差の区間推定)

2つの母集団がそれぞれ正規分布 $ N(\mu_1,\sigma_1^2),N(\mu_2,\sigma^2_2) $ に従っていて、母分散 $ \sigma_1^2,\sigma^2_2 $ がわかっておらず等しくない $ \sigma^2_1\not=\sigma^2_2 $ とする。

また、2つの正規母集団から抽出した(十分大ではない)標本をそれぞれ $ X_1,\cdots,X_m $ と $ Y_1,\cdots,Y_n $ とする。

このとき、それぞれの標本の実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ として、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^m(x_i-\overline{x})^2 $$

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2 $$

とするとき、母平均の差 $ \mu_1-\mu_2 $ の信頼区間は次のようになる。

$$ \begin{align} &95％信頼区間 \\ &\left[ (\overline{x}-\overline{y})-t_{0.025}(\phi^*)\sqrt{\frac{S_1^2}{m}+\frac{S_2^2}{n}},(\overline{x}-\overline{y})+t_{0.025}(\phi^*)\sqrt{\frac{S_1^2}{m}+\frac{S_2^2}{n}}\right] \end{align} $$

$$ \begin{align} &99％信頼区間 \\ &\left[ (\overline{x}-\overline{y})-t_{0.005}(\phi^*)\sqrt{\frac{S_1^2}{m}+\frac{S_2^2}{n}},(\overline{x}-\overline{y})+t_{0.005}(\phi^*)\sqrt{\frac{S_1^2}{m}+\frac{S_2^2}{n}}\right] \end{align} $$

対応ある2標本の場合

今までの2つの母集団は互いに関連のない独立なものを想定しています。

そのため、2つの母集団が互いに関連がある場合については、上の区間推定を用いることはできません。

(例えば、勉強前後のテストの点数の平均や投薬前後の血圧の平均などを知りたい場合です)

しかし、この場合の2標本の母平均の差の区間推定は1標本の母平均の区間推定に帰着することができます。

互いに関連がある2つの母集団からそれぞれ標本 $ X_1,\cdots,X_n $ と $ Y_1,\cdots,Y_n $ を抽出します。

(抽出する標本の数は同じです。これらの標本のことを対応のある2標本といいます)

このときは、 $ Z_i=X_i-Y_i $ とおき、 $ Z_1,\cdots,Z_n $ を1つの標本だと思って、母平均の区間推定を行います。

例えば、母分散が未知で小標本の場合は確率・統計18の定理3より、標本の実現値を $ z_1,\cdots,z_n $ として、

$$ \overline{z}=\frac{1}{n}\sum_{i=1}^nz_i, \quad S^2=\frac{1}{n-1}\sum_{i=1}^n(z_i-\overline{z})^2 $$

とするとき、母平均 $ \mu $ の信頼区間は次のようになります。

$$ 95％信頼区間 \quad \left[ \overline{z}-t_{0.025}(n-1)\frac{S}{\sqrt{n}},\overline{z}+t_{0.025}(n-1)\frac{S}{\sqrt{n}} \right] $$

$$ 99％信頼区間 \quad \left[ \overline{z}-t_{0.005}(n-1)\frac{S}{\sqrt{n}},\overline{z}+t_{0.005}(n-1)\frac{S}{\sqrt{n}} \right] $$

2つの正規母集団の母分散の比の区間推定

次に、2つの母分散の比 $ \frac{\sigma_2^2}{\sigma^2_1} $ の区間推定について見ていきましょう。

(母分散は非負の値をとるので、差をとるのはあまり好ましくありません。)

ここでは、平均未知の場合を考えます。

2つの正規母集団からそれぞれの標本 $ X_1,\cdots,X_m $ と $ Y_1,\cdots, Y_n $ をとり、

$$ \overline{X}=\frac{1}{m}\sum_{i=1}^mX_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^n(X_i-\overline{X})^2 $$

$$ \overline{Y}=\frac{1}{n}\sum_{i=1}^nY_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(Y_i-\overline{Y})^2 $$

とおくと、確率・統計16の定理6より、

$$ \frac{\frac{S_1^2}{\sigma^2_1}}{\frac{S_2^2}{\sigma^2_2}}=\frac{S_1^2}{\sigma_1^2}\cdot \frac{\sigma^2_2}{S_2^2} $$

は自由度 $ (m-1,n-1) $ の $ F $ 分布 $ F(m-1,n-1) $ に従います。

ここで、自由度 $ (m,n) $ の $ F $ 分布 $ F(m,n) $ に従う確率変数 $ X $ に対して

$$ P(X≧x)=\alpha $$

となる $ x $ の値を $ x=F_{\alpha}(m,n) $ とおくことにします。

このとき、 $ F $ 分布表を見ると、

$$ \begin{align} 0.95&=P\left( F_{1-0.025}(m-1,n-1)≦\frac{S_1^2}{\sigma_1^2}\cdot \frac{\sigma^2_2}{S_2^2}≦F_{0.025}(m-1,n-1) \right) \\ &=P\left( F_{1-0.025}(m-1,n-1)\frac{S_2^2}{S_1^2}≦\frac{\sigma_2^2}{\sigma^2_1}≦F_{0.025}(m-1,n-1)\frac{S_2^2}{S_1^2} \right) \end{align} $$

したがって、それぞれの実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ とするときの95%信頼区間は

$$ \left[ F_{1-0.025}(m-1,n-1)\frac{S_2^2}{S_1^2},F_{0.025}(m-1,n-1)\frac{S_2^2}{S_1^2} \right] $$

ここで、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^nx_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^n(x_i-\overline{x})^2 $$

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2 $$

になります。

同様に実現値を $ x_1,\cdots,x_n $ と $ y_1,\cdots,y_n $ とするときの99%信頼区間は

$$ \left[ F_{1-0.005}(m-1,n-1)\frac{S_2^2}{S_1^2},F_{0.005}(m-1,n-1)\frac{S_2^2}{S_1^2} \right] $$

まとめると、

定理7 (平均未知の場合における2つの正規母集団の母分散の比の区間推定)

2つの母集団がそれぞれ正規分布 $ N(\mu_1,\sigma_1^2),N(\mu_2,\sigma^2_2) $ に従っていて、母平均 $ \mu_1,\mu_2 $ がわかっていないとする。

また、2つの正規母集団から抽出した標本をそれぞれ $ X_1,\cdots,X_m $ と $ Y_1,\cdots,Y_n $ とする。

このとき、それぞれの標本の実現値を $ x_1,\cdots,x_m $ と $ y_1,\cdots,y_n $ として、

$$ \overline{x}=\frac{1}{m}\sum_{i=1}^nx_i, \quad S_1^2=\frac{1}{m-1}\sum_{i=1}^n(x_i-\overline{x})^2 $$

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad S_2^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2 $$

とするとき、母分散の比 $ \frac{\sigma_2^2}{\sigma^2_1} $ の信頼区間は次のようになる。

$$ \begin{align} &95％信頼区間 \\ &\left[ F_{1-0.025}(m-1,n-1)\frac{S_2^2}{S_1^2},F_{0.025}(m-1,n-1)\frac{S_2^2}{S_1^2}\right] \end{align} $$

$$ \begin{align} &99％信頼区間 \\ &\left[ F_{1-0.005}(m-1,n-1)\frac{S_2^2}{S_1^2},F_{0.005}(m-1,n-1)\frac{S_2^2}{S_1^2}\right] \end{align} $$

例3

$ A $ 工場と $ B $ 工場の製品の重さはそれぞれある正規分布に従うとする。

このとき、 $ A $ 工場から4個抽出したとき、次のデータが得られた。

$$ 125.1, \ 120.9, \ 107.4, \ 113.4, \ (g) $$

また、 $ B $ 工場から6個抽出したとき、次のデータが得られた。

$$ 136.8, \ 122.1, \ 130.8, \ 121.5, \ 129.6, \ 118.8, \ (g) $$

このとき、重量の母分散の比 $ \frac{\sigma^2_2}{\sigma^2_1} $ の95％信頼区間を求める。

$$ \overline{x}=116.7, \quad S_1^2=46.395 $$

$$ \overline{y}=126.6, \quad S_2^2=39.63 $$

より、95％信頼区間は

$$ \begin{align} &\left[ F_{1-0.005}(3,5)\frac{39.63}{46.395},F_{0.005}(3,5)\frac{39.63}{46.395}\right]=[0.05,5.97] \end{align} $$

2つの母比率の差の区間推定

最後に、2つの母比率の差 $ p_1-p_2 $ の区間推定について見ていきましょう。

ここでは2つの母集団の要素は十分大きいとします。

すると、ある特性の母比率が $ p_1,p_2 $ の2つの母集団から抽出した(十分多い)標本 $ X_1,\cdots,X_m $ 、 $ Y_1,\cdots, Y_n $ の中でその特性をもっている標本の個数をそれぞれ $ X,Y $ とおくと、 $ X,Y $ は二項分布 $ B(m,p_1),B(n,p_2) $ に従います。

このとき、近似的な信頼区間を求めることができます。

詳しい内容については省略して、結果のみ述べたいと思います。

まず、標本分布に関する次の結果が成り立ちます。

定理8

$$ \hat{p}_1=\frac{X}{m}, \quad \hat{p}_2=\frac{Y}{n} $$

とおく。このとき、

$$ \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{m}+\frac{p_2(1-p_2)}{n}}} $$

は標準正規分布 $ N(0,1) $ に近似的に従う。

これをもとに次のようにして信頼区間を求めることができます。

定理9 (大標本の場合における2つの母比率の差の区間推定)

ある特性の母比率が $ p_1,p_2 $ の2つの母集団からそれぞれ $ m,n $ 個標本を抽出して、その特性をもっている標本の個数をそれぞれ $ X,Y $ とおく。

ただし、標本数 $ m,n $ は十分大きいとする。

このとき、それぞれの標本の実現値を $ x,y $ として、

$$ \hat{p}_1=\frac{X}{m}, \quad \hat{p}_2=\frac{Y}{n} $$

とするとき、母比率の差 $ p_1-p_2 $ の信頼区間は次のようになる。

$$ \begin{align} &95％信頼区間 \\ &\left[ (\hat{p}_1-\hat{p}_2)-1.96\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{m}+\frac{\hat{p}_2(1-\hat{p}_2)}{n}},\right. \\ & \quad \left. (\hat{p}_1-\hat{p}_2)+1.96\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{m}+\frac{\hat{p}_2(1-\hat{p}_2)}{n}}\right] \end{align} $$

$$ \begin{align} &99％信頼区間 \\ &\left[ (\hat{p}_1-\hat{p}_2)-2.58\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{m}+\frac{\hat{p}_2(1-\hat{p}_2)}{n}},\right. \\ & \quad \left.(\hat{p}_1-\hat{p}_2)+2.58\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{m}+\frac{\hat{p}_2(1-\hat{p}_2)}{n}}\right] \end{align} $$

例4

製品 $ A $ から標本を600個とったところ、不良品が93個あった。

また、製品 $ B $ から標本を400個とったところ、不良品が14個あった。

このとき、製品の不良率の差 $ p_1-p_2 $ の95％信頼区間を求める。

$$ \hat{p}_1=\frac{93}{600}=0.155, \quad \hat{p}_2=\frac{14}{400}=0.035 $$

より、95％信頼区間は

$$ \begin{align} &\left[ (0.155-0.035)-1.96\sqrt{\frac{0.155(1-0.155)}{600}+\frac{0.035(1-0.035)}{400}},\right. \\ & \quad \left. (0.155-0.035)+1.96\sqrt{\frac{0.155(1-0.155)}{600}+\frac{0.035(1-0.035)}{400}}\right]=[0.086,0.154] \end{align} $$

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

確率・統計(統計検定2級対応)21：正規母集団の母平均の仮説検定