確率・統計(統計検定2級対応)18:正規母集団の母平均の区間推定

こんにちは、ひかりです。

今回は確率・統計から正規母集団の母平均の区間推定について解説していきます。

この記事では以下のことを紹介します。

  • 区間推定について
  • 分散既知の場合における正規母集団の母平均の区間推定について
  • 分散未知の場合における正規母集団の母平均の区間推定について
目次

区間推定

確率・統計17の記事にて点推定について紹介しました。

点推定は母数 \( \theta \) を1点で推測するというものであり、基本的に誤差が生じるものとなります。

そこで、誤差が生じるという考えのもと母数 \( \theta \) を区間にて推測をすることを区間推定といいます。

つまり、2つの推定量 \( \hat{\theta}_1,\hat{\theta}_2 \) を用いて、母数 \( \theta \) が区間 \( [\hat{\theta}_1,\hat{\theta}_2] \) の間にあるだろうと推測をします。

ただし、どの程度の区間の広さで母数を推測するのかというのはとても重要になっていきます。

区間を広げれば広げるほど推測の精度は上がってきますが、広すぎても推測の意味がなくなってしまいます。

したがって、推測の精度を指定してあげて、その精度のもと区間推定を行っていきます。

そこで、次を定義します。

定義1 (信頼係数・信頼区間)

母集団がわかっている母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、2つの推定量

$$ \hat{\theta}_1=\hat{\theta}_1(X_1,\cdots,X_n), \quad \hat{\theta}_2=\hat{\theta}_2(X_1,\cdots,X_n) $$

を考えたときに、

$$ P(\hat{\theta}_1(X_1,\cdots,X_n)≦\theta≦\hat{\theta}_2(X_1,\cdots,X_n))=1-\alpha $$

となるとき、 \( 1-\alpha \) のことを信頼係数といい、このときの実現値 \( x_1,\cdots,x_n \) による区間

$$ [\hat{\theta}_1(x_1,\cdots,x_n),\hat{\theta}_2(x_1,\cdots,x_n))] $$

を \( \theta \) の \( 100(1-\alpha) \) %信頼区間という。

また、このときの

$$ \hat{\theta}_1=\hat{\theta}_1(x_1,\cdots,x_n), \quad \hat{\theta}_2=\hat{\theta}_2(x_1,\cdots,x_n) $$

信頼限界という。

よく用いられるのは \( \alpha=0.05,0.01 \) のときの \( 95 \) %信頼区間や \( 99 \) %信頼区間である。

おおざっぱに言うと、95%信頼区間というのは標本 \( X_1,\cdots,X_n \) を100回とってきたときに母数 \( \theta \) の真の値が95回信頼区間の中に入るということをいっています。

分散既知の場合における正規母集団の母平均の区間推定

それでは、母集団が正規分布 \( N(\mu,\sigma^2) \) に従っている場合に関する母平均 \( \mu \) の区間推定について見ていきましょう。

まず、母分散 \( \sigma^2 \) がわかっているときの状況を考えます。

正規母集団から抽出した標本 \( X_1,\cdots,X_n \) を考えると、標本平均 \( \displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i \) は確率・統計15の定理1より

$$ E(\overline{X})=\mu, \quad V(\overline{X})=\frac{\sigma^2}{n} $$

であるので、標準化した \( \displaystyle \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \) は標準正規分布 \( N(0,1) \) に従います。

このとき、正規分布表を見ると、

$$ \begin{align} 0.95&=P\left( -1.96≦\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}≦1.96 \right) \\ &=P\left( \overline{X}-1.96\frac{\sigma}{\sqrt{n}}≦\mu≦\overline{X}+1.96\frac{\sigma}{\sqrt{n}} \right) \end{align} $$

したがって、実現値を \( x_1,\cdots,x_n \) とするときの95%信頼区間は

$$ \left[ \overline{x}-1.96\frac{\sigma}{\sqrt{n}},\overline{x}+1.96\frac{\sigma}{\sqrt{n}}\right] $$

ここで、 \( \displaystyle \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i \) になります。

同様に実現値を \( x_1,\cdots,x_n \) とするときの99%信頼区間は

$$ \left[ \overline{x}-2.58\frac{\sigma}{\sqrt{n}},\overline{x}+2.58\frac{\sigma}{\sqrt{n}}\right] $$

まとめると、

定理1 (分散既知の場合における正規母集団の母平均の区間推定)

母集団が正規分布 \( N(\mu,\sigma^2) \) に従っていて、母分散 \( \sigma^2 \) がわかっているとする。

また、正規母集団から抽出した標本を \( X_1,\cdots,X_n \) とする。

このとき、標本の実現値を \( x_1,\cdots,x_n \) として、 \( \displaystyle \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i \) とするとき、母平均 \( \mu \) の信頼区間は次のようになる。

$$ 95%信頼区間 \quad \left[ \overline{x}-1.96\frac{\sigma}{\sqrt{n}},\overline{x}+1.96\frac{\sigma}{\sqrt{n}}\right] $$

$$ 99%信頼区間 \quad \left[ \overline{x}-2.58\frac{\sigma}{\sqrt{n}},\overline{x}+2.58\frac{\sigma}{\sqrt{n}}\right] $$

例1

ある工場の製品の重さ(g)を測ったところ次のようになった。

$$ 26.3, \ 25.5, \ 24.3, \ 26.1, \ 23.7 $$

このとき、母標準偏差が1.0gとわかっているとき、平均重量 \( \mu \) gに関する95%信頼区間を求める。

$$ \overline{x}=25.18, \quad \sigma=1.0, \quad n=5 $$

より、95%信頼区間は

$$ \left[ 25.18-1.96\frac{1.0}{\sqrt{5}},25.18+1.96\frac{1.0}{\sqrt{5}}\right]=[24.30,26.06] $$

分散未知の場合における正規母集団の母平均の区間推定

上で分散が既知の場合における区間推定を紹介しましたが、基本的に母平均がわかっていないにもかかわらず、母分散がわかっている状況というのはあまりありません。

よって、母分散が未知の場合の母平均の区間推定を知る必要が出てきます。

分散未知で標本数が十分大きい場合

母分散が未知であっても、標本数 \( n \) が十分大きい場合(目安は \( n≧30 \) )は標本分散 \( \displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \) が母分散 \( \sigma^2 \) の一致推定量であることから、上の議論で母分散 \( \sigma^2 \) の代わりに標本分散 \( S^2 \) を用いることができます。

したがって、区間推定は次のようになります。

定理2 (分散未知で大標本の場合における正規母集団の母平均の区間推定)

母集団が正規分布 \( N(\mu,\sigma^2) \) に従っていて、母分散 \( \sigma^2 \) がわかっていないとする。

また、正規母集団から十分多く(目安は \( n≧30 \))抽出した標本を \( X_1,\cdots,X_n \) とする。

このとき、標本の実現値を \( x_1,\cdots,x_n \) として、

$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 $$

とするとき、母平均 \( \mu \) の信頼区間は次のようになる。

$$ 95%信頼区間 \quad \left[ \overline{x}-1.96\frac{S}{\sqrt{n}},\overline{x}+1.96\frac{S}{\sqrt{n}}\right] $$

$$ 99%信頼区間 \quad \left[ \overline{x}-2.58\frac{S}{\sqrt{n}},\overline{x}+2.58\frac{S}{\sqrt{n}}\right] $$

分散未知で標本数が少ない場合

母分散が未知であり、かつ標本数が少ない場合には、上の区間推定は使えないため、別の方法を考えます。

正規母集団から抽出した標本 \( X_1,\cdots,X_n \) を考えて、標本平均を \( \displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i \) 、標本分散を \( \displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \) とおくと、確率・統計16の定理4より、

$$ \frac{\sqrt{n}(\overline{X}-\mu)}{S} $$

は自由度 \( n-1 \) の \( t \) 分布 \( t(n-1) \) に従います。

ここで、自由度 \( n \) の \( t \) 分布 \( t(n) \) に従う確率変数 \( X \) に対して

$$ P(X≧x)=\alpha $$

となる \( x \) の値を \( x=t_{\alpha}(n) \) とおくことにします。

このとき、\( t \) 分布表を見ると、

$$ \begin{align} 0.95&=P\left( -t_{0.025}(n-1)≦\frac{\sqrt{n}(\overline{X}-\mu)}{S}≦t_{0.025}(n-1) \right) \\ &=P\left( \overline{X}-t_{0.025}(n-1)\frac{S}{\sqrt{n}}≦\mu≦\overline{X}+t_{0.025}(n-1)\frac{S}{\sqrt{n}} \right) \end{align} $$

したがって、実現値を \( x_1,\cdots,x_n \) とするときの95%信頼区間は

$$ \left[ \overline{X}-t_{0.025}(n-1)\frac{S}{\sqrt{n}},\overline{X}+t_{0.025}(n-1)\frac{S}{\sqrt{n}} \right] $$

ここで、 \( \displaystyle \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i \) になります。

同様に実現値を \( x_1,\cdots,x_n \) とするときの99%信頼区間は

$$ \left[ \overline{X}-t_{0.005}(n-1)\frac{S}{\sqrt{n}},\overline{X}+t_{0.005}(n-1)\frac{S}{\sqrt{n}} \right] $$

まとめると、

定理3 (分散未知で小標本の場合における正規母集団の母平均の区間推定)

母集団が正規分布 \( N(\mu,\sigma^2) \) に従っていて、母分散 \( \sigma^2 \) がわかっていないとする。

また、正規母集団から抽出した標本を \( X_1,\cdots,X_n \) とする。

このとき、標本の実現値を \( x_1,\cdots,x_n \) として、

$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 $$

とするとき、母平均 \( \mu \) の信頼区間は次のようになる。

$$ 95%信頼区間 \quad \left[ \overline{x}-t_{0.025}(n-1)\frac{S}{\sqrt{n}},\overline{x}+t_{0.025}(n-1)\frac{S}{\sqrt{n}} \right] $$

$$ 99%信頼区間 \quad \left[ \overline{x}-t_{0.005}(n-1)\frac{S}{\sqrt{n}},\overline{x}+t_{0.005}(n-1)\frac{S}{\sqrt{n}} \right] $$

例2

例1と同じ状況を考える。

ある工場の製品の重さ(g)を測ったところ次のようになった。

$$ 26.3, \ 25.5, \ 24.3, \ 26.1, \ 23.7 $$

このとき、母標準偏差がわからないとき、平均重量 \( \mu \) gに関する95%信頼区間を求める。

$$ \overline{x}=25.18, \quad S=1.017, \quad n=5 $$

より、95%信頼区間は

$$ \begin{align} &\left[ 25.18-t_{0.025}(4)\frac{1.017}{\sqrt{5}},25.18+t_{0.025}(4)\frac{1.017}{\sqrt{5}}\right] \\ &=\left[ 25.18-2.776\frac{1.017}{\sqrt{5}},25.18+2.776\frac{1.017}{\sqrt{5}}\right] \\ &=[23.77,26.59] \end{align} $$

例1と例2は同じ状況にも関わらず、例2の方が95%信頼区間は広くなっています。これは母分散(母標準偏差)が未知であることによる精度の低下が原因になります。

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

目次