こんにちは、ひかりです。
今回は確率・統計から母分散と母比率の区間推定について解説していきます。
この記事では以下のことを紹介します。
- 平均既知の場合における正規母集団の母分散の区間推定について
- 平均未知の場合における正規母集団の母分散の区間推定について
- 母比率の区間推定について
平均既知の場合における正規母集団の母分散の区間推定
母集団が正規分布 \( N(\mu,\sigma^2) \) に従っている場合に関する母分散 \( \sigma^2 \) の区間推定について見ていきましょう。
まず、母平均 \( \mu \) がわかっているときの状況を考えます。
正規母集団から抽出した標本 \( X_1,\cdots,X_n \) として、
$$ (S^*)^2=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 $$
とおくと、確率・統計16の定理2(1)より、
$$ \sum_{i=1}^n\left( \frac{X_i-\mu}{\sigma} \right)^2=\frac{n(S^*)^2}{\sigma^2} $$
が自由度 \( n \) のカイ2乗分布 \( \chi^2(n) \) に従います。
ここで、自由度 \( n \) のカイ2乗分布 \( \chi^2(n) \) に従う確率変数 \( X \) に対して
$$ P(X≧x)=\alpha $$
となる \( x \) の値を \( x=\chi^2_{\alpha}(n) \) とおくことにします。
このとき、カイ2乗分布表を見ると、
$$ \begin{align} 0.95&=P\left( \chi^2_{1-0.025}(n)≦\frac{n(S^*)^2}{\sigma^2}≦\chi^2_{0.025}(n) \right) \\ &=P\left( \frac{n(S^*)^2}{\chi^2_{0.025}(n)}≦\sigma^2≦\frac{n(S^*)^2}{\chi^2_{1-0.025}(n)} \right) \end{align} $$
したがって、実現値を \( x_1,\cdots,x_n \) とするときの95%信頼区間は
$$ \left[ \frac{n(S_x^*)^2}{\chi^2_{0.025}(n)},\frac{n(S_x^*)^2}{\chi^2_{1-0.025}(n)} \right] $$
ここで、 \( \displaystyle (S_x^*)^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 \) になります。
同様に実現値を \( x_1,\cdots,x_n \) とするときの99%信頼区間は
$$ \left[ \frac{n(S_x^*)^2}{\chi^2_{0.005}(n)},\frac{n(S_x^*)^2}{\chi^2_{1-0.005}(n)} \right] $$
まとめると、
母集団が正規分布 \( N(\mu,\sigma^2) \) に従っていて、母平均 \( \mu \) がわかっているとする。
また、正規母集団から抽出した標本を \( X_1,\cdots,X_n \) とする。
このとき、標本の実現値を \( x_1,\cdots,x_n \) として、
$$ (S_x^*)^2=\frac{1}{n}\sum_{i=1}^n(x_i-\mu)^2 $$
とするとき、母分散 \( \sigma^2 \) の信頼区間は次のようになる。
$$ 95%信頼区間 \quad \left[ \frac{n(S_x^*)^2}{\chi^2_{0.025}(n)},\frac{n(S_x^*)^2}{\chi^2_{1-0.025}(n)} \right] $$
$$ 99%信頼区間 \quad \left[ \frac{n(S_x^*)^2}{\chi^2_{0.005}(n)},\frac{n(S_x^*)^2}{\chi^2_{1-0.005}(n)} \right] $$
ある工場の製品の重さ(g)を測ったところ次のようになった。
$$ 3.9, \ 3.6, \ 3.5, \ 3.7, \ 4.1, \ 3.8, \ 3.5, \ 4.0, \ 3.7, \ 3.6 $$
このとき、母平均が3.6gとわかっているとき、母分散 \( \sigma^2 \) に関する95%信頼区間を求める。
$$ (S_x^*)^2=\frac{1}{10}\sum_{i=1}^{10}(x_i-3.6)^2=0.058 $$
より、95%信頼区間は
$$ \left[ \frac{10\times 0.058}{\chi^2_{0.025}(10)},\frac{10\times 0.058}{\chi^2_{1-0.025}(10)} \right]=[0.028,0.178] $$
平均未知の場合における正規母集団の母分散の区間推定
こんどは、母平均 \( \mu \) がわかっていないときの状況を考えます。
正規母集団から抽出した標本 \( X_1,\cdots,X_n \) として、
$$ \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i, \quad S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 $$
とおくと、確率・統計16の定理2(2)より、
$$ \sum_{i=1}^n\left( \frac{X_i-\overline{X}}{\sigma} \right)^2=\frac{(n-1)S^2}{\sigma^2} $$
は自由度 \( n-1 \) のカイ2乗分布 \( \chi^2(n-1) \) に従います。
このとき、カイ2乗分布表を見ると、
$$ \begin{align} 0.95&=P\left( \chi^2_{1-0.025}(n-1)≦\frac{(n-1)S^2}{\sigma^2}≦\chi^2_{0.025}(n-1) \right) \\ &=P\left( \frac{(n-1)S^2}{\chi^2_{0.025}(n-1)}≦\sigma^2≦\frac{(n-1)S^2}{\chi^2_{1-0.025}(n-1)} \right) \end{align} $$
したがって、実現値を \( x_1,\cdots,x_n \) とするときの95%信頼区間は
$$ \left[ \frac{(n-1)S_x^2}{\chi^2_{0.025}(n-1)},\frac{(n-1)S_x^2}{\chi^2_{1-0.025}(n-1)} \right] $$
ここで、
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad S_x^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 $$
になります。
同様に実現値を \( x_1,\cdots,x_n \) とするときの99%信頼区間は
$$ \left[ \frac{(n-1)S_x^2}{\chi^2_{0.005}(n-1)},\frac{(n-1)S_x^2}{\chi^2_{1-0.005}(n-1)} \right] $$
まとめると、
母集団が正規分布 \( N(\mu,\sigma^2) \) に従っていて、母平均 \( \mu \) がわかっていないとする。
また、正規母集団から抽出した標本を \( X_1,\cdots,X_n \) とする。
このとき、標本の実現値を \( x_1,\cdots,x_n \) として、
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad S_x^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 $$
とするとき、母分散 \( \sigma^2 \) の信頼区間は次のようになる。
$$ 95%信頼区間 \quad \left[ \frac{(n-1)S_x^2}{\chi^2_{0.025}(n-1)},\frac{(n-1)S_x^2}{\chi^2_{1-0.025}(n-1)} \right] $$
$$ 99%信頼区間 \quad \left[ \frac{(n-1)S_x^2}{\chi^2_{0.005}(n-1)},\frac{(n-1)S_x^2}{\chi^2_{1-0.005}(n-1)} \right] $$
例1と同じ状況を考える。
ある工場の製品の重さ(g)を測ったところ次のようになった。
$$ 3.9, \ 3.6, \ 3.5, \ 3.7, \ 4.1, \ 3.8, \ 3.5, \ 4.0, \ 3.7, \ 3.6 $$
このとき、母平均がわかっていないとき、母分散 \( \sigma^2 \) に関する95%信頼区間を求める。
$$ \overline{x}=3.74, \quad S_x^2=\frac{1}{9}\sum_{i=1}^{10}(x_i-3.74)^2=0.0427 $$
より、95%信頼区間は
$$ \left[ \frac{9\times 0.0427}{\chi^2_{0.025}(9)},\frac{9\times 0.0427}{\chi^2_{1-0.025}(9)} \right]=[0.0202,0.1423] $$
母比率の区間推定
母集団の中である特性をもっているものの比率を母比率といい、 \( p \) で表すことにします。
(例えば、政党支持率・サービスの満足度・特定の病気の比率などが挙げられます。)
また、ここでは母集団の要素は十分大きいとします。
すると、ある特性の母比率が \( p \) の母集団から抽出した標本 \( X_1,\cdots,X_n \) の中でその特性をもっている標本の個数を \( X \) とおくと、
$$ P(X=k)={}_nC_kp^k(1-p)^{n-k} $$
となるので、 \( X \) は二項分布 \( B(n,p) \) に従います。
(非復元抽出にて標本を抽出した場合、母集団の要素が小さい場合は \( X \) は超幾何分布に従うことになります。母集団の要素が十分大きい場合は非復元抽出であっても復元抽出だとみなせるので、二項分布に従うことになります。)
標本が十分大きい場合
標本数 \( n \) が十分大きい場合は、ラプラスの定理より \( X \) は正規分布 \( N(np,np(1-p)) \) で近似することができます。
したがって、標準化
$$ \frac{X-np}{\sqrt{np(1-p)}} $$
は標準正規分布 \( N(0,1) \) に従います。
また、 \( n \) が十分大きいので、大数の(弱)法則より \( \frac{X}{n} \) は \( p \) で近似することができます。
したがって、 \( \sqrt{np(1-p)} \) の \( p \) を \( \frac{X}{n} \) で置き換えて正規分布表を見ると、
$$ \begin{align} 0.95&=P\left( -1.96≦\frac{X-np}{\sqrt{np(1-p)}}≦1.96 \right) \\ &=P\left( -1.96≦\frac{X-np}{\sqrt{X(1-\frac{X}{n})}}≦1.96 \right) \\ &=P\left( \frac{X}{n}-1.96\frac{\sqrt{X(1-\frac{X}{n})}}{n}≦p≦\frac{X}{n}+1.96\frac{\sqrt{X(1-\frac{X}{n})}}{n} \right) \end{align} $$
したがって、実現値を \( x \) とするときの95%信頼区間は
$$ \left[ \frac{x}{n}-1.96\frac{\sqrt{x(1-\frac{x}{n})}}{n},\frac{x}{n}+1.96\frac{\sqrt{x(1-\frac{x}{n})}}{n} \right] $$
同様に実現値を \( x \) とするときの99%信頼区間は
$$ \left[ \frac{x}{n}-2.58\frac{\sqrt{x(1-\frac{x}{n})}}{n},\frac{x}{n}+2.58\frac{\sqrt{x(1-\frac{x}{n})}}{n} \right] $$
まとめると、
ある特性の母比率が \( p \) の母集団から \( n \) 個標本を抽出して、その特性をもっている標本の個数を \( X \) とおく。
ただし、標本数 \( n \) は十分大きいとする。
(目安は \( np≧5 \) かつ \( n(1-p)≧5 \))
このとき、 \( X \) の実現値を \( x \) とするとき、母比率 \( p \) の信頼区間は次のようになる。
$$ 95%信頼区間 \quad \left[ \frac{x}{n}-1.96\frac{\sqrt{x(1-\frac{x}{n})}}{n},\frac{x}{n}+1.96\frac{\sqrt{x(1-\frac{x}{n})}}{n} \right] $$
$$ 99%信頼区間 \quad \left[ \frac{x}{n}-2.58\frac{\sqrt{x(1-\frac{x}{n})}}{n},\frac{x}{n}+2.58\frac{\sqrt{x(1-\frac{x}{n})}}{n} \right] $$
ある工場のある製品の中から100個を抽出したときに、不良品が9個出てきた。
このとき、この製品の不良率の95%信頼区間を求める。
$$ x=9, \quad n=100 $$
より、95%信頼区間は
$$ \left[ \frac{9}{100}-1.96\frac{\sqrt{9(1-\frac{9}{100})}}{100},\frac{9}{100}+1.96\frac{\sqrt{9(1-\frac{9}{100})}}{100} \right]=[0.034,0.146] $$
標本が少ない場合
標本数 \( n \) が小さい場合はラプラスの定理による二項分布の正規分布での近似をすることができません。
この場合は二項分布の \( F \) 分布による表現を用いることにより、母比率の正確な信頼区間を求めることができます。
詳細については省略することにして、結果のみを述べたいと思います。
自由度 \( (m,n) \) の \( F \) 分布 \( F(m,n) \) に従う確率変数 \( X \) に対して
$$ P(X≧x)=\alpha $$
となる \( x \) の値を \( x=F_{\alpha}(m,n) \) とおくことにします。
このとき、次が成り立ちます。
ある特性の母比率が \( p \) の母集団から \( n \) 個標本を抽出して、その特性をもっている標本の個数を \( X \) とおく。
ただし、標本数 \( n \) は少ないとする。
ここで、 \( X \) の実現値を \( k(≦n) \) とするとき、
$$ \begin{cases} m_1=2(n-k+1) \\ n_1=2k \end{cases} \quad \begin{cases} m_2=2(k+1) \\ n_2=2(n-k) \end{cases} $$
とおくと、母比率 \( p \) の信頼区間は次のようになる。
$$ 95%信頼区間 \quad \left[ \frac{n_1}{m_1F_{0.025}(m_1,n_1)+n_1},\frac{m_2F_{0.025}(m_2,n_2)}{m_2F_{0.025}(m_2,n_2)+n_2} \right] $$
$$ 99%信頼区間 \quad \left[ \frac{n_1}{m_1F_{0.005}(m_1,n_1)+n_1},\frac{m_2F_{0.005}(m_2,n_2)}{m_2F_{0.005}(m_2,n_2)+n_2} \right] $$
ある地域の有権者の中から22人を抽出したところ、ある政党を支持している人が3人いた。
このとき、この地域の有権者全体におけるその政党の支持率の95%信頼区間を求める。
$$ m_1=40, \ n_1=6, \ m_2=8, \ n_2=38 $$
より、95%信頼区間は
$$ \left[ \frac{6}{40F_{0.025}(40,6)+6},\frac{8F_{0.025}(8,38)}{8F_{0.025}(8,38)+38} \right]=[0.029,0.348] $$
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。