こんにちは、ひかりです。
今回は確率・統計から適合度と分割表による独立性の仮説検定について解説していきます。
この記事では以下のことを紹介します。
- 適合度の仮説検定について
- 分割表による独立性の仮説検定について
適合度の仮説検定
ここでは、母集団から抽出した標本に対して度数分布を考えて、それが母集団分布の度数分布に適合しているかを検定することを考えてみましょう。
単純仮説の場合における適合度の仮説検定
母集団が \( k \) 個の排反な事象 \( C_1,\cdots,C_k \) に分けられていて、 \( C_1,\cdots,C_k \) が現れる確率をそれぞれ
$$ p_1,\cdots, p_k \quad (p_1+\cdots+p_k=1) $$
とおきます。
このとき、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して事象 \( C_1,\cdots,C_k \) の観測度数(実現値をもとに求まる度数)がそれぞれ
$$ f_1,\cdots,f_k \quad (f_1+\cdots+f_k=n) $$
であるとします。
このとき、次のような仮説検定を行います。
$$ H_0:p_1=p_1^0, \cdots, p_k=p_k^0, \quad H_1:H_0の否定 $$
(このような仮説のことを単純仮説といいます)
この帰無仮説 \( H_0 \) が正しいとすると、標本 \( X_1,\cdots,X_n \) に関する事象 \( C_1,\cdots,C_k \) の期待度数(母集団の度数分布に従っているとしたらこうなるであろうという度数)はそれぞれ \( np_i^0 \) で与えられます。
つまり、観測度数と期待度数は次のような表にまとめられます。
事象 | \( C_1 \) | \( C_2 \) | \( \cdots \) | \( C_k \) | 計 |
観測度数 | \( f_1 \) | \( f_2 \) | \( \cdots \) | \( f_k \) | \( n \) |
期待度数 | \( np_1^0 \) | \( np_2^0 \) | \( \cdots \) | \( np_k^0 \) | \( n \) |
ここで、検定統計量 \( T \) を次で与えます。
$$ T=\sum_{i=1}^k\frac{(f_i-np_i^0)^2}{np_i^0} $$
すると、 \( T \) は標本数 \( n \) が十分大きい(目安は各 \( i \) に対して \( np_i^0≧5 \))とき、近似的に自由度 \( k-1 \) のカイ2乗分布 \( \chi^2(k-1) \) に従うことが知られています。
(そのため、この検定はピアソンの \( \chi^2 \) 検定ともよばれています)
したがって、 \( T≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦T≦\chi^2_{0.05}(k-1) \right) \\ &=P(\{ T>\chi^2_{0.05}(k-1)\}) \end{align} $$
より、
$$ R=\{ T>\chi^2_{0.05}(k-1)\} $$
となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ R=\{ T>\chi^2_{0.01}(k-1)\} $$
まとめると、
母集団が \( k \) 個の排反な事象 \( C_1,\cdots,C_k \) に分けられていて、 \( C_1,\cdots,C_k \) が現れる確率をそれぞれ
$$ p_1,\cdots, p_k \quad (p_1+\cdots+p_k=1) $$
とおく。また、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して事象 \( C_1,\cdots,C_k \) の観測度数(実現値をもとに求まる度数)がそれぞれ
$$ f_1,\cdots,f_k \quad (f_1+\cdots+f_k=n) $$
であるとする。
ここで、標本数 \( n \) は十分大きい(目安は各 \( i \) に対して \( np_i^0≧5 \))とする。
このとき、単純仮説
$$ H_0:p_1=p_1^0, \cdots, p_k=p_k^0, \quad H_1:H_0の否定 $$
に対して、有意水準 \( 0.05,0.01 \) の適合度の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\sum_{i=1}^k\frac{(f_i-np_i^0)^2}{np_i^0} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T>\chi^2_{0.05}(k-1)\} $$
$$ 有意水準0.01 \quad R=\{ T>\chi^2_{0.01}(k-1)\} $$
さいころを300回投げたとき、出た目は次のようになった。
出た目 | \( 1 \) | \( 2 \) | \( 3 \) | \( 4 \) | \( 5 \) | \( 6 \) | 計 |
観測度数 | \( 51 \) | \( 42 \) | \( 55 \) | \( 40 \) | \( 67 \) | \( 45 \) | \( 300 \) |
このとき、このさいころは正確なものであるといえるかを有意水準 \( 0.05 \) で検定する。
まず、 \( i \) の目のでる確率を \( p_i \) とおいて、仮説を
$$ H_0:p_1=\frac{1}{6}, \cdots, p_6=\frac{1}{6}, \quad H_1:H_0の否定 $$
とおく。また、有意水準は \( 0.05 \) である。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ T=\sum_{i=1}^6\frac{(f_i-300\times \frac{1}{6})^2}{300\times \frac{1}{6}} $$
は自由度 \( 5 \) のカイ2乗分布 \( \chi^2(5) \) に従う。
このとき、定理1より有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ T>\chi^2_{0.05}(5)\}=\{ T>11.07\} \end{align} $$
となる。したがって、
$$ f_1=51, \ f_2=42, \ f_3=55, \ f_4=40, \ f_5=67, \ f_6=45 $$
より、検定統計量 \( T \) の実現値 \( T^* \) が
$$ \begin{align} T^*&=\frac{1}{50}\{ (51-50)^2+(42-50)^2+(55-50)^2+(40-50)^2+(67-50)^2+(45-50)^2\} \\ &=10.08\not\in R \end{align} $$
となるので、帰無仮説 \( H_0 \) は受容される。
よって、このさいころは正確でないとはいいきれない。
(このさいころが正確であるとまではいえないことに注意)
複合仮説の場合における適合度の仮説検定
上で述べた適合度の仮説検定は、母集団が未知母数を含まないケースであると考えることができます。
(例えば、例1では母集団は離散一様分布 \( DU(1,\cdots,6) \) に従うので、母平均や母比率などはすべて既知になります)
ここでは、母集団の母数 \( \theta=(\theta_1,\cdots,\theta_m) \) が未知である場合を考えます。
この場合は仮説の \( p_i^0 \) は未知母数 \( \theta=(\theta_1,\cdots,\theta_m) \) に依存します。つまり、
$$ p_i^0(\theta)=p_i^0(\theta_1,\cdots,\theta_m) \quad (1≦i≦k) $$
このときは、次のような仮説検定を行います。
$$ H_0:p_1=p_1^0(\theta), \cdots, p_k=p_k^0(\theta), \quad H_1:H_0の否定 $$
(このような仮説のことを複合仮説といいます)
この場合、未知母数 \( \theta=(\theta_1,\cdots,\theta_m) \) は標本 \( X_1,\cdots,X_n \) から推定する必要が出てきます。
ここでは、母数の推定量として最尤推定法を用いた最尤推定量
$$ \hat{\theta}=(\hat{\theta}_1,\cdots,\hat{\theta}_m) $$
を利用します。そして、検定統計量 \( T \) を次で与えます。
$$ T=\sum_{i=1}^k\frac{(f_i-np_i^0(\hat{\theta}))^2}{np_i^0(\hat{\theta})} $$
すると、 \( T \) は最尤推定量に対する帰無仮説
$$ H_0:p_1=p_1^0(\hat{\theta}), \cdots, p_k=p_k^0(\hat{\theta}) $$
のもと、標本数 \( n \) が十分大きい(目安は各 \( i \) に対して \( np_i^0(\hat{\theta})≧5 \))とき、近似的に自由度 \( k-m-1 \) のカイ2乗分布 \( \chi^2(k-m-1) \) に従うことが知られています。
したがって、 \( T≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦T≦\chi^2_{0.05}(k-m-1) \right) \\ &=P(\{ T>\chi^2_{0.05}(k-m-1)\}) \end{align} $$
より、
$$ R=\{ T>\chi^2_{0.05}(k-m-1)\} $$
となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ R=\{ T>\chi^2_{0.01}(k-m-1)\} $$
まとめると、
未知母数 \( \theta=(\theta_1,\cdots,\theta_m) \) をもつ母集団が \( k \) 個の排反な事象 \( C_1,\cdots,C_k \) に分けられていて、 \( C_1,\cdots,C_k \) が現れる確率をそれぞれ
$$ p_1,\cdots, p_k \quad (p_1+\cdots+p_k=1) $$
とおく。また、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して事象 \( C_1,\cdots,C_k \) の観測度数(実現値をもとに求まる度数)がそれぞれ
$$ f_1,\cdots,f_k \quad (f_1+\cdots+f_k=n) $$
であるとする。
さらに、未知母数の最尤推定量を
$$ \hat{\theta}=(\hat{\theta}_1,\cdots,\hat{\theta}_m) $$
とおく。
ここで、標本数 \( n \) は十分大きい(目安は各 \( i \) に対して \( np_i^0(\hat{\theta})≧5 \))とする。
このとき、複合仮説
$$ H_0:p_1=p_1^0(\hat{\theta}), \cdots, p_k=p_k^0(\hat{\theta}), \quad H_1:H_0の否定 $$
に対して、有意水準 \( 0.05,0.01 \) の適合度の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\sum_{i=1}^k\frac{(f_i-np_i^0(\hat{\theta}))^2}{np_i^0(\hat{\theta})} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T>\chi^2_{0.05}(k-m-1)\} $$
$$ 有意水準0.01 \quad R=\{ T>\chi^2_{0.01}(k-m-1)\} $$
ある地域の交通事故での死亡者数を100日調査したところ、次のようになった。
死亡者数 | \( 0 \) | \( 1 \) | \( 2 \) | \( 3 \) | \( 4 \) | \( 5 \) | 計 |
日数 | \( 43 \) | \( 31 \) | \( 14 \) | \( 8 \) | \( 3 \) | \( 1 \) | \( 100 \) |
このとき、この地域の交通事故での死亡者数はポアソン分布に従っているといえるかを有意水準 \( 0.05 \) で検定する。
未知母数 \( \lambda \) のポアソン分布
$$ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} \quad (k=0,1,\cdots) $$
の最尤推定量は標本平均であるので、未知母数 \( \lambda \) を標本平均 \( \overline{X} \) で推定する。
つまり、 \( \lambda \) として、標本平均の実現値
$$ \overline{x}=\frac{0\times 43+1\times 31+2\times 14+3\times 8+4\times 3+5\times 1}{100}=1 $$
を利用する。
ここで、 死亡者数が \( k \) 人である確率を \( p_k^0 \) とおくと、
$$ p_k^0=P(X=k)=\frac{e^{-1}}{k!} $$
であるので、
$$ p_0^0=0.368, \quad p_1^0=0.368, \quad p_2^0=0.184, \quad \sum_{k=3}^{\infty}p_k^0=0.080 $$
ここで、 \( np_4^0,np_5^0<5 \) であるので、死亡者数が4以上の事象については死亡者数が3人である事象とまとめて死亡者数が3人以上の事象とする。
(この確率を改めて \( p_3 \) とおく)
よって、仮説を
$$ H_0:p_0=0.368, \ p_1=0.368, \ p_2=0.184, \ p_3=0.080, \quad H_1:H_0の否定 $$
とおく。また、有意水準は \( 0.05 \) である。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ T=\sum_{k=0}^3\frac{(f_i-100\times p_k)^2}{100\times p_k} $$
は自由度 \( 2 \) のカイ2乗分布 \( \chi^2(2) \) に従う。
このとき、定理2より有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ T>\chi^2_{0.05}(2)\}=\{ T>5.99\} \end{align} $$
となる。したがって、
$$ f_0=43, \ f_1=31, \ f_2=14, \ f_3=12 $$
より、検定統計量 \( T \) の実現値 \( T^* \) が
$$ \begin{align} T^*&=\frac{(43-36.8)^2}{36.8}+\frac{(31-36.8)^2}{36.8}+\frac{(14-18.4)^2}{18.4}+\frac{(12-8.0)^2}{8.0} \\ &=5.001\not\in R \end{align} $$
となるので、帰無仮説 \( H_0 \) は受容される。
よって、この地域の交通事故での死亡者数はポアソン分布に従っていないとはいいきれない。
(この地域の交通事故での死亡者数はポアソン分布に従っているとまではいえないことに注意)
分割表による独立性の仮説検定
母集団を2つの属性 \( A,B \) に分けて、属性 \( A \) と属性 \( B \) が独立であるかどうかを分割表を用いて仮説検定することを考えます。
\( \ell\times m \) 分割表による独立性の仮説検定
母集団の2つの属性 \( A,B \) をさらにそれぞれ事象 \( A_1,\cdots,A_{\ell} \) と \( B_1,\cdots,B_m \) に分割します。
このとき、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、各事象の観測度数を求めたときに、次のような表ができたとします。
\( A\backslash B \) | \( B_1 \) | \( B_2 \) | \( \cdots \) | \( B_m \) | 計 |
\( A_1 \) | \( f_{11} \) | \( f_{12} \) | \( \cdots \) | \( f_{1m} \) | \( f_{1\cdot} \) |
\( A_2 \) | \( f_{21} \) | \( f_{22} \) | \( \cdots \) | \( f_{2m} \) | \( f_{2\cdot} \) |
\( \vdots \) | \( \vdots \) | \( \vdots \) | \( \vdots \) | \( \vdots \) | |
\( A_{\ell} \) | \( f_{\ell 1} \) | \( f_{\ell 2} \) | \( \cdots \) | \( f_{\ell m} \) | \( f_{\ell \cdot} \) |
計 | \( f_{\cdot 1} \) | \( f_{\cdot 2} \) | \( \cdots \) | \( f_{\cdot m} \) | \( n \) |
ただし、ここで
$$ f_{i\cdot}=\sum_{j=1}^mf_{ij}, \quad f_{\cdot j}=\sum_{i=1}^{\ell}f_{ij}, \quad n=\sum_{i=1}^{\ell}\sum_{j=1}^mf_{ij} $$
この表のことを \( \ell\times m \) 分割表といいます。
ここで、次のような仮説検定を行います。
$$ H_0:属性Aと属性Bは独立である, \quad H_1:属性Aと属性Bは独立でない $$
帰無仮説 \( H_0 \) を仮定すると、確率の独立性より、
$$ P(A_i\cap B_j)=P(A_i)P(B_j) $$
となります。分割表より、
$$ P(A_i)=\frac{f_{i\cdot}}{n}, \quad P(B_j)=\frac{f_{\cdot j}}{n} $$
となるので、
$$ P(A_i\cap B_j)=\frac{f_{i\cdot}}{n}\times \frac{f_{\cdot j}}{n} $$
したがって、観測度数 \( f_{ij} \) に対する期待度数は
$$ nP(A_i\cap B_j)=\frac{f_{i\cdot}f_{\cdot j}}{n} $$
ここで、検定統計量 \( T \) を次で与えます。
$$ T=\sum_{i=1}^{\ell}\sum_{j=1}^m\frac{(f_{ij}-\frac{f_{i\cdot}f_{\cdot j}}{n})^2}{\frac{f_{i\cdot}f_{\cdot j}}{n}} $$
すると、 \( T \) は標本数 \( n \) が十分大きい(目安は各 \( i,j \) に対して \( \frac{f_{i\cdot}f_{\cdot j}}{n}≧5 \))とき、近似的に自由度 \( (\ell-1)(m-1) \) のカイ2乗分布 \( \chi^2((\ell-1)(m-1)) \) に従うことが知られています。
したがって、 \( T≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦T≦\chi^2_{0.05}((\ell-1)(m-1)) \right) \\ &=P(\{ T>\chi^2_{0.05}((\ell-1)(m-1))\}) \end{align} $$
より、
$$ R=\{ T>\chi^2_{0.05}((\ell-1)(m-1))\} $$
となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ R=\{ T>\chi^2_{0.01}((\ell-1)(m-1))\} $$
まとめると、
母集団の2つの属性 \( A,B \) をさらにそれぞれ事象 \( A_1,\cdots,A_{\ell} \) と \( B_1,\cdots,B_m \) に分割する。
このとき、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、各事象の観測度数を求めたときに、次のような \( \ell\times m \) 分割表ができたとする。
\( A\backslash B \) | \( B_1 \) | \( B_2 \) | \( \cdots \) | \( B_m \) | 計 |
\( A_1 \) | \( f_{11} \) | \( f_{12} \) | \( \cdots \) | \( f_{1m} \) | \( f_{1\cdot} \) |
\( A_2 \) | \( f_{21} \) | \( f_{22} \) | \( \cdots \) | \( f_{2m} \) | \( f_{2\cdot} \) |
\( \vdots \) | \( \vdots \) | \( \vdots \) | \( \vdots \) | \( \vdots \) | |
\( A_{\ell} \) | \( f_{\ell 1} \) | \( f_{\ell 2} \) | \( \cdots \) | \( f_{\ell m} \) | \( f_{\ell \cdot} \) |
計 | \( f_{\cdot 1} \) | \( f_{\cdot 2} \) | \( \cdots \) | \( f_{\cdot m} \) | \( n \) |
ただし、ここで
$$ f_{i\cdot}=\sum_{j=1}^mf_{ij}, \quad f_{\cdot j}=\sum_{i=1}^{\ell}f_{ij}, \quad n=\sum_{i=1}^{\ell}\sum_{j=1}^mf_{ij} $$
また、標本数 \( n \) は十分大きい(目安は各 \( i,j \) に対して \( \frac{f_{i\cdot}f_{\cdot j}}{n}≧5 \))とする。
このとき、仮説
$$ H_0:属性Aと属性Bは独立である, \quad H_1:属性Aと属性Bは独立でない $$
に対して、有意水準 \( 0.05,0.01 \) の適合度の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\sum_{i=1}^{\ell}\sum_{j=1}^m\frac{(f_{ij}-\frac{f_{i\cdot}f_{\cdot j}}{n})^2}{\frac{f_{i\cdot}f_{\cdot j}}{n}} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T>\chi^2_{0.05}((\ell-1)(m-1))\} $$
$$ 有意水準0.01 \quad R=\{ T>\chi^2_{0.01}((\ell-1)(m-1))\} $$
ある機械から作られる3つの製品 \( A,B,C \) の良品と不良品の数は次のようであった。
\( A \) | \( B \) | \( C \) | 計 | |
良品 | \( 185 \) | \( 201 \) | \( 220 \) | \( 606 \) |
不良品 | \( 60 \) | \( 35 \) | \( 30 \) | \( 125 \) |
計 | \( 245 \) | \( 236 \) | \( 250 \) | \( 731 \) |
このとき、3つの製品の不良品率に差があるといえるかを有意水準 \( 0.01 \) で検定する。
仮説を
$$ H_0:3つの製品と不良品率は独立である, \quad H_1:3つの製品と不良率は独立でない $$
とおく。また、有意水準は \( 0.01 \) である。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ T=\sum_{i=1}^2\sum_{j=1}^3\frac{(f_{ij}-\frac{f_{i\cdot}f_{\cdot j}}{731})^2}{\frac{f_{i\cdot}f_{\cdot j}}{731}} $$
は自由度 \( 2 \) のカイ2乗分布 \( \chi^2(2) \) に従う。
このとき、定理3より有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ T>\chi^2_{0.01}(2)\}=\{ T>9.21\} \end{align} $$
となる。したがって、上の表より、検定統計量 \( T \) の実現値 \( T^* \) が
$$ \begin{align} T^*&=\frac{(185-\frac{606\times 245}{731})^2}{\frac{606\times 245}{731}}+\frac{(201-\frac{606\times 236}{731})^2}{\frac{606\times 236}{731}}+\frac{(220-\frac{606\times 250}{731})^2}{\frac{606\times 250}{731}} \\ & \quad \quad +\frac{(60-\frac{125\times 245}{731})^2}{\frac{125\times 245}{731}}+\frac{(35-\frac{125\times 236}{731})^2}{\frac{125\times 236}{731}}+\frac{(30-\frac{125\times 250}{731})^2}{\frac{125\times 250}{731}} \\ &=14.89\in R \end{align} $$
となるので、帰無仮説 \( H_0 \) は棄却される。
よって、3つの製品の不良品率に差があるといえる。
\( 2\times 2 \) 分割表による独立性の仮説検定とイエーツの補正
特に、 \( \ell=m=2 \) のとき(つまり \( 2\times 2 \) 分割表を用いるとき)は定理3はもう少し簡単にまとめることができるので、紹介しておきます。
母集団の2つの属性 \( A,B \) をさらにそれぞれ事象 \( A_1,A_2 \) と \( B_1,B_2 \) に分割します。
このとき、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、各事象の観測度数を求めたときに、次のような \( 2\times 2 \) 分割表ができたとします。
\( A\backslash B \) | \( B_1 \) | \( B_2 \) | 計 |
\( A_1 \) | \( a \) | \( b \) | \( a+b \) |
\( A_2 \) | \( c \) | \( d \) | \( c+d \) |
計 | \( a+c \) | \( b+d \) | \( n \) |
このとき、検定統計量 \( T \) は
$$ T=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)} $$
となり、これは標本数 \( n \) が十分大きい(目安は \( a,b,c,d≧5 \))とき、近似的に自由度 \( 1 \) のカイ2乗分布 \( \chi^2(1) \) に従います。
したがって、 \( \ell=m=2 \) のとき、定理3は次のように表せます。
母集団の2つの属性 \( A,B \) をさらにそれぞれ事象 \( A_1,A_2 \) と \( B_1,B_2 \) に分割する。
このとき、母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、各事象の観測度数を求めたときに、次のような \( 2\times 2 \) 分割表ができたとする。
\( A\backslash B \) | \( B_1 \) | \( B_2 \) | 計 |
\( A_1 \) | \( a \) | \( b \) | \( a+b \) |
\( A_2 \) | \( c \) | \( d \) | \( c+d \) |
計 | \( a+c \) | \( b+d \) | \( n \) |
また、標本数 \( n \) は十分大きい(目安は \( a,b,c,d≧5 \))とする。
このとき、仮説
$$ H_0:属性Aと属性Bは独立である, \quad H_1:属性Aと属性Bは独立でない $$
に対して、有意水準 \( 0.05,0.01 \) の適合度の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T>\chi^2_{0.05}(1)\} $$
$$ 有意水準0.01 \quad R=\{ T>\chi^2_{0.01}(1)\} $$
さらに、 \( \ell=m=2 \) の場合は標本数が少ない場合(つまり、 \( a,b,c,d \) の少なくとも1つが5以下)においても、検定統計量 \( T \) を次のように修正することにより、独立性の仮説検定を行うことができます。
$$ T=\frac{n(|ad-bc|-\frac{n}{2})^2}{(a+b)(c+d)(a+c)(b+d)} $$
これをイエーツの補正といいます。
ある食べ物を毎日食べている人と食べていない人でかぜをひいた人とひいていない人の数を調べたところ、次のようであった。
かぜをひいてない | かぜをひいた | 計 | |
食べ物を食べている | \( 15 \) | \( 5 \) | \( 20 \) |
食べ物を食べていない | \( 6 \) | \( 18 \) | \( 24 \) |
計 | \( 21 \) | \( 23 \) | \( 44 \) |
このとき、この食べ物はかぜに効果的であるといえるかを有意水準 \( 0.01 \) で検定する。
仮説を
$$ H_0:かぜと食べ物は独立である, \quad H_1:かぜと食べ物は独立でない $$
とおく。また、有意水準は \( 0.01 \) である。
標本数が少ないので、イエーツの補正を用いて検定をする。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ T=\frac{44(|ad-bc|-\frac{44}{2})^2}{(a+b)(c+d)(a+c)(b+d)} $$
は自由度 \( 1 \) のカイ2乗分布 \( \chi^2(1) \) に従う。
このとき、定理4より有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ T>\chi^2_{0.01}(1)\}=\{ T>6.635\} \end{align} $$
となる。したがって、上の表より、検定統計量 \( T \) の実現値 \( T^* \) が
$$ \begin{align} T^*&=\frac{44(|15\times 18-5\times 6|-\frac{44}{2})^2}{(15+5)(6+18)(15+6)(5+18)} \\ &=9.1\in R \end{align} $$
となるので、帰無仮説 \( H_0 \) は棄却される。
よって、この食べ物はかぜに効果的であるといえる。
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。