こんにちは、ひかりです。
今回は確率・統計から1元配置分散分析モデルについて解説していきます。
この記事では以下のことを紹介します。
- 1元配置分散分析について
1元配置分散分析
確率・統計20では2つの母集団の母平均の差についての区間推定、確率・統計23では2つの母集団の母平均の差についての仮説検定について紹介しました。
ここでは、 \( k \ (k≧2) \) 個の母集団の母平均の差について見ていきます。
例えば、A社、B社、C社での同じ製品の平均重量に差があるといえるかを考えてみましょう。
ここで、測定値にばらつきをもたらす要因(会社)のことを因子、因子の中身(A社、B社、C社)のことを水準といいます。
このとき、確率・統計23の定理5の仮説検定( \( t \) 検定)を、A社とB社、B社とC社、A社とC社でそれぞれ行い平均重量に差があるといえるかどうかを調べることをはじめに思いつくと思います。
しかし、1回1回の仮説検定の有意水準が小さくても何回も繰り返し行うことにより、全体としての有意水準は上がっていきます。
そのため、 \( k \) が大きくなるほど第1種の誤りをする確率が上がっていきます。
また、 \( k \) が大きくなるほど \( t \) 検定の回数も多くなっていきます。
よって、別の方法を考えます。
そのため、 \( i \) 番目の母集団から抽出した \( j \) 個目のデータを \( y_{ij} \) と表して、次のようなモデルを考えます。
\( i \) 番目の水準の平均 \( \theta_i \) とばらつきの値を表す互いに独立で正規分布 \( N(0,\sigma^2) \) に従う確率変数 \( \varepsilon_{ij} \) に対して、
$$ y_{ij}=\theta_i+\varepsilon_{ij}, \quad (i=1,\cdots,k, \ j=1,\cdots,n(i)) $$
このとき、 \( y_{ij} \) の総平均 \( \mu \) は
$$ \mu=\frac{1}{k}\sum_{i=1}^k\theta_i $$
で表されます。よって、
$$ \alpha_i=\theta_i-\mu $$
とおくと、 \( \displaystyle \sum_{i=1}^k\alpha_i=0 \) となり、上のモデルは次のように表せます。
$$ y_{ij}=\mu+\alpha_i+\varepsilon_{ij}, \quad (i=1,\cdots,k, \ j=1,\cdots,n(i)) $$
このモデルをまとめると次のようになります。
1つの因子とその因子の \( k \ (k≧2) \) 個の水準に対して、 \( i \) 番目の水準から抽出した \( j \) 個目のデータ \( y_{ij} \) 、 \( i \) 番目の水準の平均 \( \theta_i \) とばらつきの値を表す互いに独立で正規分布 \( N(0,\sigma^2) \) に従う確率変数 \( \varepsilon_{ij} \) に対して、
$$ \mu=\frac{1}{k}\sum_{i=1}^k\theta_i $$
$$ \alpha_i=\theta_i-\mu $$
とおくとき、
$$ y_{ij}=\mu+\alpha_i+\varepsilon_{ij}, \quad (i=1,\cdots,k, \ j=1,\cdots,n(i)) $$
と表されるとき、このモデルを1元配置分散分析モデルという。
また、 \( \mu \) のことを一般平均、 \( \alpha_i \) のことを \( i \) 番目の水準の効果、 \( \varepsilon_{ij} \) のことを誤差項という。
A社、B社、C社で同じ製品を5つずつ抽出したときの製品の重量(g)は次のようになった。
A社 | \( 57.7 \) | \( 54.6 \) | \( 56.5 \) | \( 56.7 \) | \( 55.1 \) |
B社 | \( 57.9 \) | \( 57.1 \) | \( 58.3 \) | \( 56.0 \) | \( 57.7 \) |
C社 | \( 56.0 \) | \( 53.2 \) | \( 54.5 \) | \( 55.1 \) | \( 53.4 \) |
このとき、各社の製品の平均と効果を求めると、次のようになる。
会社 | 平均 \( \theta_i \) | 効果 \( \alpha_i \) |
A社 | \( \theta_1=56.12 \) | \( \alpha_1=0.133 \) |
B社 | \( \theta_2=57.4 \) | \( \alpha_2=1.413 \) |
C社 | \( \theta_3=54.44 \) | \( \alpha_3=-1.547 \) |
計 | 一般平均 \( \mu=55.987 \) | \( – \) |
したがって、1元配置分散分析モデルは
$$ y_{1j}=55.987+0.133+\varepsilon_{1j} \quad (j=1,\cdots,5) $$
$$ y_{2j}=55.987+1.413+\varepsilon_{2j} \quad (j=1,\cdots,5) $$
$$ y_{3j}=55.987-1.547+\varepsilon_{3j} \quad (j=1,\cdots,5) $$
となり、誤差項 \( \varepsilon_{ij} \) は次のようになる。
\( i\backslash j \) | \( 1 \) | \( 2 \) | \( 3 \) | \( 4 \) | \( 5 \) |
\( 1 \) | \( 1.58 \) | \( -1.52 \) | \( 0.38 \) | \( 0.58 \) | \( -1.02 \) |
\( 2 \) | \( 0.3 \) | \( -0.3 \) | \( 0.9 \) | \( -1.4 \) | \( 0.3 \) |
\( 3 \) | \( 1.56 \) | \( -1.24 \) | \( 0.06 \) | \( 0.66 \) | \( -1.04 \) |
このとき、 \( k \ (k≧2) \) 個の水準の平均に差があるといえるかを仮説検定することを考えましょう。
ただし、話を簡単にするために
$$ n(1)=\cdots=n(k)=n $$
として、
$$ N=\sum_{i=1}^kn(i)=nk $$
とおきます。また、仮説としては、
$$ H_0:\alpha_1=\cdots=\alpha_k=0, \quad H_1:H_0の否定 $$
とおきます。ここで、
$$ \overline{y}_{i\cdot}=\frac{1}{n}\sum_{j=1}^ny_{ij}, \quad \overline{y}_{\cdot\cdot}=\frac{1}{N}\sum_{i=1}^k\sum_{j=1}^ny_{ij}=\frac{1}{k}\sum_{i=1}^k\overline{y}_{i\cdot} $$
とおくと、
$$ \sum_{i=1}^k\sum_{j=1}^n(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})(y_{ij}-\overline{y}_{i\cdot})=\sum_{i=1}^k\left\{ (\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})\sum_{j=1}^n(y_{ij}-\overline{y}_{i\cdot}) \right\}=0 $$
より、
$$ \begin{align} \sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{\cdot\cdot})^2&=\sum_{i=1}^k\sum_{j=1}^n(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2+\sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{i\cdot})^2 \\ &=\sum_{i=1}^kn(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2+\sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{i\cdot})^2 \end{align} $$
というように平方和の分解をすることができます。このとき、最左辺の平方和
$$ TSS= \sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{\cdot\cdot})^2 $$
を総平方和といいます。また、最右辺の平方和
$$ BSS=\sum_{i=1}^kn(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2 $$
$$ WSS=\sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{i\cdot})^2 $$
をそれぞれ群間平方和、群内平方和といいます。
また、それぞれの自由度(平方和の中の自由に動ける変数の数)は \( k-1, \ N-k \) であり、自由度で割った
$$ \frac{BSS}{k-1}, \quad \frac{WSS}{N-k} $$
を平均平方といいます。そして、このとき統計量 \( F \) を
$$ F=\frac{\frac{BSS}{k-1}}{\frac{WSS}{N-k}} $$
とおくと、帰無仮説 \( H_0 \) が成り立つとき、自由度 \( (k-1,N-k) \) の \( F \) 分布に従うことが知られています。(詳細は省略します。)
また、これらの値をまとめた表のことを分散分析表といい、次のようになります。
変動要因 | 自由度 | 平方和 | 平方平均 | 統計量 \( F \) |
群間変動 | \( k-1 \) | \( BSS \) | \( \frac{BSS}{k-1} \) | \( F=\frac{\frac{BSS}{k-1}}{\frac{WSS}{N-k}} \) |
群内変動 | \( N-k \) | \( WSS \) | \( \frac{WSS}{N-k} \) | |
計 | \( N-1 \) | \( TSS \) |
したがって、 \( F≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦F≦F_{0.05}(k-1,N-k) \right) \\ &=P(\{ F>F_{0.05}(k-1,N-k)\}) \end{align} $$
より、
$$ R=\{ F>F_{0.05}(k-1,N-k)\} $$
となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ R=\{ F>F_{0.01}(k-1,N-k)\} $$
まとめると、
1つの因子とその因子の \( k \ (k≧2) \) 個の水準が次の1元配置分散分析モデルに従っているとする。
$$ y_{ij}=\mu+\alpha_i+\varepsilon_{ij}, \quad (i=1,\cdots,k, \ j=1,\cdots,n(i)) $$
ただし、話を簡単にするために
$$ n(1)=\cdots=n(k)=n $$
として、
$$ N=\sum_{i=1}^kn(i)=nk $$
とおく。ここで、 \( i \) 番目の水準から抽出した \( j \) 個目のデータの実現値を
$$ y_{ij} \quad (i=1,\cdots,k, \ j=1,\cdots,n) $$
として、次のような分散分析表になったとする。
変動要因 | 自由度 | 平方和 | 平方平均 | 統計量 \( F \) |
群間変動 | \( k-1 \) | \( BSS \) | \( \frac{BSS}{k-1} \) | \( F=\frac{\frac{BSS}{k-1}}{\frac{WSS}{N-k}} \) |
群内変動 | \( N-k \) | \( WSS \) | \( \frac{WSS}{N-k} \) | |
計 | \( N-1 \) | \( TSS \) |
ここで、
$$ \overline{y}_{i\cdot}=\frac{1}{n}\sum_{j=1}^ny_{ij}, \quad \overline{y}_{\cdot\cdot}=\frac{1}{N}\sum_{i=1}^k\sum_{j=1}^ny_{ij}=\frac{1}{k}\sum_{i=1}^k\overline{y}_{i\cdot} $$
$$ TSS= \sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{\cdot\cdot})^2 $$
$$ BSS=\sum_{i=1}^kn(\overline{y}_{i\cdot}-\overline{y}_{\cdot\cdot})^2 $$
$$ WSS=\sum_{i=1}^k\sum_{j=1}^n(y_{ij}-\overline{y}_{i\cdot})^2 $$
このとき、仮説
$$ H_0:\alpha_1=\cdots=\alpha_k=0, \quad H_1:H_0の否定 $$
に対して、有意水準 \( 0.05,0.01 \) の効果 \( \alpha_i \) の棄却域 \( R \) は次のようになる。
検定統計量を
$$ F=\frac{\frac{BSS}{k-1}}{\frac{WSS}{N-k}} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ F>F_{0.05}(k-1,N-k)\} $$
$$ 有意水準0.01 \quad R=\{ F>F_{0.01}(k-1,N-k)\} $$
例1と同じ状況を考える。
A社、B社、C社で同じ製品を5つずつ抽出したときの製品の重量(g)は次のようになった。
A社 | \( 57.7 \) | \( 54.6 \) | \( 56.5 \) | \( 56.7 \) | \( 55.1 \) |
B社 | \( 57.9 \) | \( 57.1 \) | \( 58.3 \) | \( 56.0 \) | \( 57.7 \) |
C社 | \( 56.0 \) | \( 53.2 \) | \( 54.5 \) | \( 55.1 \) | \( 53.4 \) |
このとき、各社の間に差があるといえるかを有意水準 \( 0.01 \) で検定する。
まず、仮説を
$$ H_0:\alpha_1=\alpha_2=\alpha_3=0, \quad H_1:H_0の否定 $$
とおく。また、有意水準は \( 0.01 \) である。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ F=\frac{\frac{BSS}{2}}{\frac{WSS}{12}} $$
は自由度 \( (2,12) \) の \( F \) 分布 \( F(2,12) \) に従う。
このとき、定理1より有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ F>F_{0.01}(2,12)\}=\{ F>6.93\} \end{align} $$
となる。
このとき、分散分析表は次のようになる。
変動要因 | 自由度 | 平方和 | 平方平均 | 統計量 \( F \) |
群間変動 | \( 2 \) | \( 22.0 \) | \( 11 \) | \( F^*=8.5 \) |
群内変動 | \( 12 \) | \( 15.1 \) | \( 1.3 \) | |
計 | \( 14 \) | \( 37.1 \) |
したがって、 \( F^*=8.5\in R \) となるので、帰無仮説 \( H_0 \) は棄却される。
よって、各社の間に差があるといえる。
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。