こんにちは、ひかりです。
今回は確率・統計から2元配置分散分析モデルについて解説していきます。
この記事では以下のことを紹介します。
- 2元配置分散分析について
2元配置分散分析
確率・統計29の記事では、因数が1つの分散分析である1元配置分散分析を見てきました。
今度は、因子が2つある分散分析について見てみましょう。
例えば、A社とB社にある機械aと機械bに対して、同じ製品の平均重量に差があるといえるかを考えてみましょう。
(つまり、因子は会社と機械の2つであり、会社の水準はA社とB社、機械の水準は機械aと機械bとなります)
このとき、1元配置分散分析モデルと同様にして、2元配置分散分析モデルを次のように定義します。
2つの因子 \( A,B \) と因子 \( A \) の \( \ell \ (\ell≧2) \) 個の水準および因子 \( B \) の \( m \ (m≧2) \) 個の水準に対して、因子 \( A \) の \( i \) 番目の水準と因子 \( B \) の \( j \) 番目の水準から抽出した \( k \) 個目のデータ \( y_{ijk} \) とばらつきの値を表す互いに独立で正規分布 \( N(0,\sigma^2) \) に従う確率変数 \( \varepsilon_{ijk} \) に対して、
$$ y_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\varepsilon_{ijk}, \quad (i=1,\cdots,\ell, \ j=1,\cdots,m, \ k=1,\cdots,n(i,j)) $$
と表されるとき、このモデルを2元配置分散分析モデルという。
ここで、 \( \alpha_i,\beta_j,\gamma_{ij} \) は次をみたす。
$$ \sum_{i=1}^{\ell}\alpha_i=\sum_{j=1}^m\beta_j=\sum_{i=1}^{\ell}\gamma_{ij}=\sum_{j=1}^m\gamma_{ij}=0 $$
また、 \( \mu \) のことを一般平均、 \( \alpha_i \) のことを \( A \) 因子主効果、 \( \beta_j \) のことを \( B \) 因子主効果、 \( \gamma_{ij} \) のことを交互作用効果、\( \varepsilon_{ijk} \) のことを誤差項という。
このとき、それぞれの因子の主効果および交互作用効果に差があるといえるかを仮説検定することを考えましょう。
ただし、話を簡単にするために
$$ n(i,j)=n $$
として、
$$ N=\sum_{i=1}^{\ell}\sum_{j=1}^mn(i,j)=n\ell m $$
とおきます。また、仮説としては、それぞれ
$$ H_0^{\alpha}:\alpha_1=\cdots=\alpha_{\ell}=0, \quad H_1^{\alpha}:H_0^{\alpha}の否定 $$
$$ H_0^{\beta}:\beta_1=\cdots=\beta_m=0, \quad H_1^{\beta}:H_0^{\beta}の否定 $$
$$ H_0^{\gamma}:\gamma_{ij}=0 \ (i=1,\cdots,\ell, \ j=1,\cdots,m), \quad H_1^{\gamma}:H_0^{\gamma}の否定 $$
とおきます。ここで、
$$ \overline{y}_{i\cdot\cdot}=\frac{1}{mn}\sum_{j=1}^m\sum_{k=1}^ny_{ijk}, \quad \overline{y}_{\cdot j\cdot}=\frac{1}{\ell n}\sum_{i=1}^{\ell}\sum_{k=1}^ny_{ijk} $$
$$ \overline{y}_{ij\cdot}=\frac{1}{n}\sum_{k=1}^ny_{ijk}m, \quad \overline{y}_{\cdot \cdot\cdot}=\frac{1}{N}\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^ny_{ijk} $$
とおくと、1元配置分散分析と同様にして、総平方和
$$ Q_T=\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^n(y_{ijk}-\overline{y}_{\cdot\cdot\cdot})^2 $$
は
$$ Q_T=Q_{\alpha}+Q_{\beta}+Q_{\gamma}+Q_e $$
と平方和の分解をすることができます。ここで、
$$ Q_{\alpha}=nm\sum_{i=1}^{\ell}(\overline{y}_{i\cdot\cdot}-\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_{\beta}=n\ell \sum_{j=1}^m(\overline{y}_{\cdot j\cdot}-\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_{\gamma}=n\sum_{i=1}^{\ell}\sum_{j=1}^m(\overline{y}_{ij\cdot}-\overline{y}_{i\cdot\cdot}-\overline{y}_{\cdot j\cdot}+\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_e=\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^n(y_{ijk}-\overline{y}_{ij\cdot})^2 $$
これらより、次のように2元配置の分散分析表を作成することができます。
要因 | 自由度 | 平方和 | 平均平方 | 統計量 \( F \) |
\( A \) 因子 | \( \ell-1 \) | \( Q_{\alpha} \) | \( V_{\alpha}^2=\frac{Q_{\alpha}}{\ell-1} \) | \( F_{\alpha}=\frac{V_{\alpha}^2}{\hat{\sigma}^2} \) |
\( B \) 因子 | \( m-1 \) | \( Q_{\beta} \) | \( V_{\beta}^2=\frac{Q_{\beta}}{m-1} \) | \( F_{\beta}=\frac{V_{\beta}^2}{\hat{\sigma}^2} \) |
交互作用 | \( (\ell-1)(m-1) \) | \( Q_{\gamma} \) | \( V_{\gamma}^2=\frac{Q_{\gamma}}{(\ell-1)(m-1)} \) | \( F_{\gamma}=\frac{V_{\gamma}^2}{\hat{\sigma}^2} \) |
残差 | \( N-\ell m \) | \( Q_e \) | \( \hat{\sigma}^2=\frac{Q_e}{N-\ell m} \) | |
計 | \( N-1 \) | \( Q_T \) |
この表にある統計量
$$ F_{\alpha}=\frac{V_{\alpha}^2}{\hat{\sigma}^2}, \quad F_{\beta}=\frac{V_{\beta}^2}{\hat{\sigma}^2}, \quad F_{\gamma}=\frac{V_{\gamma}^2}{\hat{\sigma}^2} $$
はそれぞれ帰無仮説 \( H_0^{\alpha},H_0^{\beta},H_0^{\gamma} \) が成り立つとき、それぞれ自由度
$$ (\ell-1,N-\ell m), \quad (m-1,N-\ell m), \quad ((\ell-1)(m-1),N-\ell m) $$
の \( F \) 分布
$$ F(\ell-1,N-\ell m), \quad F(m-1,N-\ell m), \quad F((\ell-1)(m-1),N-\ell m) $$
に従うことが知られています。
例えば、 \( H_0^{\alpha} \) に関する仮説検定を考えて、 \( F_{\alpha}≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦F_{\alpha}≦F_{0.05}(\ell-1,N-\ell m) \right) \\ &=P(\{ F_{\alpha}>F_{0.05}(\ell-1,N-\ell m)\}) \end{align} $$
より、
$$ R=\{ F_{\alpha}>F_{0.05}(\ell-1,N-\ell m)\} $$
となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ R=\{ F_{\alpha}>F_{0.01}(\ell-1,N-\ell m)\} $$
まとめると、
2つの因子 \( A,B \) と因子 \( A \) の \( \ell \ (\ell≧2) \) 個の水準および因子 \( B \) の \( m \ (m≧2) \) 個の水準が次の2元配置分散分析モデルに従っているとする。
$$ y_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\varepsilon_{ijk}, \quad (i=1,\cdots,\ell, \ j=1,\cdots,m, \ k=1,\cdots,n(i,j)) $$
ただし、話を簡単にするために
$$ n(i,j)=n $$
として、
$$ N=\sum_{i=1}^{\ell}\sum_{j=1}^mn(i,j)=n\ell m $$
とおく。ここで、因子 \( A \) の \( i \) 番目の水準と因子 \( B \) の \( j \) 番目の水準から抽出した \( k \) 個目のデータの実現値を
$$ y_{ijk} \quad (i=1,\cdots,\ell, \ j=1,\cdots,m, \ k=1,\cdots,n) $$
として、次のような分散分析表になったとする。
要因 | 自由度 | 平方和 | 平均平方 | 統計量 \( F \) |
\( A \) 因子 | \( \ell-1 \) | \( Q_{\alpha} \) | \( V_{\alpha}^2=\frac{Q_{\alpha}}{\ell-1} \) | \( F_{\alpha}=\frac{V_{\alpha}^2}{\hat{\sigma}^2} \) |
\( B \) 因子 | \( m-1 \) | \( Q_{\beta} \) | \( V_{\beta}^2=\frac{Q_{\beta}}{m-1} \) | \( F_{\beta}=\frac{V_{\beta}^2}{\hat{\sigma}^2} \) |
交互作用 | \( (\ell-1)(m-1) \) | \( Q_{\gamma} \) | \( V_{\gamma}^2=\frac{Q_{\gamma}}{(\ell-1)(m-1)} \) | \( F_{\gamma}=\frac{V_{\gamma}^2}{\hat{\sigma}^2} \) |
残差 | \( N-\ell m \) | \( Q_e \) | \( \hat{\sigma}^2=\frac{Q_e}{N-\ell m} \) | |
計 | \( N-1 \) | \( Q_T \) |
ここで、
$$ \overline{y}_{i\cdot\cdot}=\frac{1}{mn}\sum_{j=1}^m\sum_{k=1}^ny_{ijk}, \quad \overline{y}_{\cdot j\cdot}=\frac{1}{\ell n}\sum_{i=1}^{\ell}\sum_{k=1}^ny_{ijk} $$
$$ \overline{y}_{ij\cdot}=\frac{1}{n}\sum_{k=1}^ny_{ijk}m, \quad \overline{y}_{\cdot \cdot\cdot}=\frac{1}{N}\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^ny_{ijk} $$
$$ Q_T=\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^n(y_{ijk}-\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_{\alpha}=nm\sum_{i=1}^{\ell}(\overline{y}_{i\cdot\cdot}-\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_{\beta}=n\ell \sum_{j=1}^m(\overline{y}_{\cdot j\cdot}-\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_{\gamma}=n\sum_{i=1}^{\ell}\sum_{j=1}^m(\overline{y}_{ij\cdot}-\overline{y}_{i\cdot\cdot}-\overline{y}_{\cdot j\cdot}+\overline{y}_{\cdot\cdot\cdot})^2 $$
$$ Q_e=\sum_{i=1}^{\ell}\sum_{j=1}^m\sum_{k=1}^n(y_{ijk}-\overline{y}_{ij\cdot})^2 $$
このとき、仮説
$$ H_0^{\alpha}:\alpha_1=\cdots=\alpha_{\ell}=0, \quad H_1^{\alpha}:H_0^{\alpha}の否定 $$
$$ H_0^{\beta}:\beta_1=\cdots=\beta_m=0, \quad H_1^{\beta}:H_0^{\beta}の否定 $$
$$ H_0^{\gamma}:\gamma_{ij}=0 \ (i=1,\cdots,\ell, \ j=1,\cdots,m), \quad H_1^{\gamma}:H_0^{\gamma}の否定 $$
に対して、有意水準 \( 0.05,0.01 \) の効果 \( \alpha_i,\beta_j,\gamma_{ij} \) の棄却域 \( R \) は次のようになる。
検定統計量を
$$ F_{\alpha}=\frac{V_{\alpha}^2}{\hat{\sigma}^2}, \quad F_{\beta}=\frac{V_{\beta}^2}{\hat{\sigma}^2}, \quad F_{\gamma}=\frac{V_{\gamma}^2}{\hat{\sigma}^2} $$
とするとき、 \( F_{\alpha} \) の棄却域は
$$ 有意水準0.05 \quad R=\{ F_{\alpha}>F_{0.05}(\ell-1,N-\ell m)\} $$
$$ 有意水準0.01 \quad R=\{ F_{\alpha}>F_{0.01}(\ell-1,N-\ell m)\} $$
( \( F_{\beta},F_{\gamma} \) も同様である)
A社とB社にある機械aと機械bに対して、同じ製品を2つずつ取ったときの重量(g)は次のようであった。
\( 会社\backslash 機械 \) | \( 機械a \) | \( 機械b \) |
\( 会社A \) | \( 17.4 \) | \( 14.0 \) |
\( 18.5 \) | \( 14.3 \) | |
\( 会社B \) | \( 15.4 \) | \( 16.9 \) |
\( 16.2 \) | \( 17.5 \) |
このとき、各社と各機械の間に差があるといえるかを有意水準 \( 0.01 \) で検定する。
まず、仮説を
$$ H_0^{\alpha}:\alpha_1=\alpha_2=0, \quad H_1^{\alpha}:H_0^{\alpha}の否定 $$
$$ H_0^{\beta}:\beta_1=\beta_2=0, \quad H_1^{\beta}:H_0^{\beta}の否定 $$
$$ H_0^{\gamma}:\gamma_{ij}=0 \ (i=1,2, \ j=1,2), \quad H_1^{\gamma}:H_0^{\gamma}の否定 $$
とおく。また、有意水準は \( 0.01 \) である。
帰無仮説 \( H_0^{\alpha},H_0^{\beta},H_0^{\gamma} \) が正しいとすると、検定統計量
$$ F_{\alpha}=\frac{V_{\alpha}^2}{\hat{\sigma}^2}, \quad F_{\beta}=\frac{V_{\beta}^2}{\hat{\sigma}^2}, \quad F_{\gamma}=\frac{V_{\gamma}^2}{\hat{\sigma}^2} $$
はすべて自由度 \( (1,4) \) の \( F \) 分布 \( F(1,4) \) に従う。
このとき、定理1より有意水準 \( 0.01 \) の棄却域 \( R \) は
$$ \begin{align} R&=\{ F_{\alpha}>F_{0.01}(1,4)\}=\{ F_{\alpha}>21.2\} \end{align} $$
となる。(\( F_{\beta},F_{\gamma} \) の棄却域も同じ)
このとき、分散分析表は次のようになる。
要因 | 自由度 | 平方和 | 平均平方 | 統計量 \( F \) |
会社 | \( 1 \) | \( 40 \) | \( V_{\alpha}^2=40 \) | \( F_{\alpha}=1.39 \) |
機械 | \( 1 \) | \( 288 \) | \( V_{\beta}^2=288 \) | \( F_{\beta}=10.02 \) |
交互作用 | \( 1 \) | \( 1352 \) | \( V_{\gamma}^2=1352 \) | \( F_{\gamma}=47.03 \) |
残差 | \( 4 \) | \( 115 \) | \( \hat{\sigma}^2=28.75 \) | |
計 | \( 7 \) | \( 1795 \) |
したがって、 \( F^*_{\alpha}=1.39\not\in R \) となるので、帰無仮説 \( H_0^{\alpha} \) は受容される。
また、 \( F^*_{\beta}=10.02\not\in R \) となるので、帰無仮説 \( H_0^{\beta} \) は受容される。
また、 \( F^*_{\gamma}=47.03\in R \) となるので、帰無仮説 \( H_0^{\gamma} \) は棄却される。
よって、各社の間や機械の間に差があるとはいいきれない。
しかし、会社によって機械の性能が変わっているということがいえる。
今回までで確率・統計の内容について標準的なところまで含めて一通り紹介しました。お疲れ様でした。
それでは、またどこかの記事でお会いしましょう。ひかりでした。