確率・統計(統計検定2級対応)28:線形重回帰モデル

こんにちは、ひかりです。

今回は確率・統計から線形重回帰モデルについて解説していきます。

この記事では以下のことを紹介します。

  • 線形重回帰モデルについて
  • 最小二乗法による重回帰方程式の導出について
  • 回帰係数の区間推定について
  • 回帰係数の仮説検定について
目次

線形重回帰モデル

確率・統計27の記事にて、線形単回帰モデルについて紹介しました。

今度は、複数の説明変数 \( x_1,\cdots,x_p \) と応答変数 \( y \) の間に成り立つ

$$ y=a+b_1x_1+\cdots+b_px_p $$

という方程式の関係について見ていきます。

この方程式のことを重回帰方程式といい、係数 \( a,b_1,\cdots,b_p \) を回帰係数といいます。

まず、線形単回帰モデルと同様に、線形重回帰モデルを定義します。

定義1 (線形重回帰モデル)

母集団の \( p+1 \) 次元の要素 \( (x_{i1},\cdots,x_{ip},y_i) \ (i=1,\cdots,n) \) がある係数 \( \beta_0,\beta_1,\cdots,\beta_p \) と正規分布 \( N(0,\sigma^2) \) に従う互いに独立なばらつきの値 \( \varepsilon_i \) を用いて、

$$ y_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}+\varepsilon_i $$

と表されるとき、このモデルを線形重回帰モデルといい、係数 \( \beta_0,\beta_1,\cdots,\beta_p \) のことを母回帰係数という。

また、 \( \varepsilon_i \) のことを誤差項という。

これ以降では、話を簡単にするために \( p=2 \) として紹介していきます。(3以上の場合も同様)

つまり、線形重回帰モデルは

$$ y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\varepsilon_i $$

となります。

最小二乗法による重回帰方程式の導出

はじめに、与えられた3変数データ \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) に対して、それらのデータを近似する重回帰方程式

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

を最小二乗法を用いて求めてみましょう。

そのために、データの予測値と残差を

$$ \hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2} $$

$$ e_i=y_i-\hat{y}_i=y_i-(\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2}) $$

と表して、残差平方和

$$ S_e=\sum_{i=1}^ne_i^2=\sum_{i=1}^n\{ y_i-(\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2}) \}^2 $$

を最小にする \( \hat{\beta}_0,\hat{\beta}_1,\hat{\beta}_2 \) を求めます。

そのために、 \( S_e \) を各変数 \( \hat{\beta}_0,\hat{\beta}_1,\hat{\beta}_2 \) において偏微分したものを0とすると、

$$ \frac{\partial S_e}{\partial \hat{\beta}_0}=-2\sum_{i=1}^n(y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\hat{\beta}_2x_{i2})=0 $$

$$ \frac{\partial S_e}{\partial \hat{\beta}_1}=-2\sum_{i=1}^nx_{i1}(y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\hat{\beta}_2x_{i2})=0 $$

$$ \frac{\partial S_e}{\partial \hat{\beta}_2}=-2\sum_{i=1}^nx_{i2}(y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\hat{\beta}_2x_{i2})=0 $$

したがって、正規方程式は

$$ \begin{cases} n\hat{\beta}_0+\hat{\beta}_1\sum_{i=1}^n x_{i1}+\hat{\beta}_2\sum_{i=1}^nx_{i2}=\sum_{i=1}^n y_i \\ \hat{\beta}_0\sum_{i=1}^nx_{i1}+\hat{\beta}_1\sum_{i=1}^nx_{i1}^2+\hat{\beta}_2\sum_{i=1}^nx_{i1}x_{i2}=\sum_{i=1}^n x_{i1}y_i \\ \hat{\beta}_0\sum_{i=1}^nx_{i2}+\hat{\beta}_1\sum_{i=1}^nx_{i1}x_{i2}+\hat{\beta}_2\sum_{i=1}^nx_{i2}^2=\sum_{i=1}^n x_{i2}y_i \end{cases} $$

となるので、

$$ \overline{x}_1=\sum_{i=1}^nx_{i1}, \quad \overline{x}_2=\sum_{i=1}^nx_{i2}, \quad \overline{y}=\sum_{i=1}^ny_i $$

$$ T_{11}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)^2, \quad T_{22}=\sum_{i=1}^n(x_{i2}-\overline{x}_2)^2, $$

$$ T_{12}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)(x_{i2}-\overline{x}_2) $$

$$ T_{1y}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)(y_i-\overline{y}), \quad T_{2y}=\sum_{i=1}^n(x_{i2}-\overline{x}_2)(y_i-\overline{y}) $$

とおくと、次のようにまとめることができます。

$$ \begin{cases} \hat{\beta}_1T_{11}+\hat{\beta}_2T_{12}=T_{1y} \\ \hat{\beta}_1T_{12}+\hat{\beta}_2T_{22}=T_{2y} \end{cases} $$

これは行列を用いると、次のようになります。

$$ \begin{pmatrix} T_{11} & T_{12} \\ T_{12} & T_{22} \end{pmatrix}\begin{pmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix} =\begin{pmatrix} T_{1y} \\ T_{2y} \end{pmatrix} $$

行列 \( \begin{pmatrix} T_{11} & T_{12} \\ T_{12} & T_{22} \end{pmatrix} \) が逆行列をもつ( \( T_{11}T_{22}-T_{12}^2\not=0 \) )場合、

$$ \begin{align} \begin{pmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \end{pmatrix}&=\begin{pmatrix} T_{11} & T_{12} \\ T_{12} & T_{22} \end{pmatrix}^{-1}\begin{pmatrix} T_{1y} \\ T_{2y} \end{pmatrix} \\ &=\frac{1}{T_{11}T_{22}-T_{12}^2}\begin{pmatrix} T_{22} & -T_{12} \\ -T_{12} & T_{11} \end{pmatrix} \begin{pmatrix} T_{1y} \\ T_{2y} \end{pmatrix} \\ &=\frac{1}{T_{11}T_{22}-T_{12}^2}\begin{pmatrix} T_{22}T_{1y}-T_{12}T_{2y} \\ -T_{12}T_{1y}+T_{11}T_{2y} \end{pmatrix} \end{align} $$

となるので、係数 \( \hat{\beta}_0,\hat{\beta}_1,\hat{\beta}_2 \) は次のようになります。

$$ \hat{\beta}_0=\overline{y}-\hat{\beta}_1\overline{x}_1-\hat{\beta}_2\overline{x}_2, \quad \hat{\beta}_1=\frac{T_{22}T_{1y}-T_{12}T_{2y}}{T_{11}T_{22}-T_{12}^2}, \quad \hat{\beta}_2=\frac{-T_{12}T_{1y}+T_{11}T_{2y}}{T_{11}T_{22}-T_{12}^2} $$

まとめると、

定理1 (重回帰方程式)

\( n \) 個の3変数データ \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) に対して、

$$ \overline{x}_1=\sum_{i=1}^nx_{i1}, \quad \overline{x}_2=\sum_{i=1}^nx_{i2}, \quad \overline{y}=\sum_{i=1}^ny_i $$

$$ T_{11}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)^2, \quad T_{22}=\sum_{i=1}^n(x_{i2}-\overline{x}_2)^2, $$

$$ T_{12}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)(x_{i2}-\overline{x}_2) $$

$$ T_{1y}=\sum_{i=1}^n(x_{i1}-\overline{x}_1)(y_i-\overline{y}), \quad T_{2y}=\sum_{i=1}^n(x_{i2}-\overline{x}_2)(y_i-\overline{y}) $$

とおく。このとき、 \( T_{11}T_{22}-T_{12}^2\not=0 \) であるならば、重回帰方程式は次のようになる。

$$ y-\bar{y}=\frac{T_{22}T_{1y}-T_{12}T_{2y}}{T_{11}T_{22}-T_{12}^2}(x_1-\bar{x}_1)+\frac{-T_{12}T_{1y}+T_{11}T_{2y}}{T_{11}T_{22}-T_{12}^2}(x_2-\bar{x}_2) $$

\( T_{11}T_{22}-T_{12}^2=0 \) のときは、 \( x_1,x_2 \) の相関係数 \( r_{12} \) が \( r_{12}=\pm1 \) となります。つまり、 \( (x_{i1},x_{i2}) \ (i=1,\cdots,n) \) は完全に一直線上に並ぶことになります。よって、このときは、説明変数は \( x_1,x_2 \) のどちらか1つで応答変数 \( y \) を表すことができるので、 \( x_1,x_2 \) のうち扱いやすい方を選択すればよいということがわかります。

回帰係数の区間推定

それでは、確率・統計27と同様にして、重回帰方程式の母回帰係数 \( \beta_0,\beta_1,\beta_2 \) を区間推定してみましょう。

母集団から抽出した標本を \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) として、この標本が最小二乗法を用いて、ある回帰直線

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

で近似できたとします。このとき、定理1より、

$$ \hat{\beta}_0=\overline{y}-\hat{\beta}_1\overline{x}_1-\hat{\beta}_2\overline{x}_2, \quad \hat{\beta}_1=\frac{T_{22}T_{1y}-T_{12}T_{2y}}{T_{11}T_{22}-T_{12}^2}, \quad \hat{\beta}_2=\frac{-T_{12}T_{1y}+T_{11}T_{2y}}{T_{11}T_{22}-T_{12}^2} $$

となります。

このとき、確率・統計27と同様にして、 \( \hat{\beta}_1,\hat{\beta}_2 \) の標準偏差 \( \sqrt{V(\hat{\beta}_1)}, \sqrt{V(\hat{\beta}_2)} \) の中に現れる \( \sigma^2 \) を

$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

で置き換えたもの \( \hat{\sqrt{V(\hat{\beta}_1)}}, \hat{\sqrt{V(\hat{\beta}_2)}} \) を用いて、

$$ \frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}} \quad (j=1,2) $$

は自由度 \( n-3 \) の \( t \) 分布 \( t(n-3) \) に従うことが知られています。(詳細は省略します。)

(一般に説明変数が \( p \) 個の場合の自由度は \( n-p-1 \) となります。)

このとき、\( t \) 分布表を見ると、

$$ \begin{align} 0.95&=P\left( -t_{0.025}(n-3)≦\frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}}≦t_{0.025}(n-3) \right) \\ &=P\left( \hat{\beta}_j-t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}}≦\beta_j≦\hat{\beta}_j+t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right) \end{align} $$

したがって、実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) とするときの95%信頼区間は

$$ \left[ \hat{\beta}_j-t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}},\hat{\beta}_j+t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right] \ (j=1,2) $$

同様に実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) とするときの99%信頼区間は

$$ \left[ \hat{\beta}_j-t_{0.005}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}},\hat{\beta}_j+t_{0.005}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right] \ (j=1,2) $$

まとめると、

定理2 (重回帰方程式の母回帰係数の区間推定)

母集団が次の線形重回帰モデルに従っているとする。

$$ Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

このとき、標本の実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) として、

\( \hat{\beta}_1,\hat{\beta}_2 \) の標準偏差 \( \sqrt{V(\hat{\beta}_1)}, \sqrt{V(\hat{\beta}_2)} \) の中に現れる \( \sigma^2 \) を

$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

で置き換えたもの \( \hat{\sqrt{V(\hat{\beta}_1)}}, \hat{\sqrt{V(\hat{\beta}_2)}} \) を用いるとき、母回帰係数 \( \beta_1,\beta_2 \) の信頼区間は次のようになる。

$$ 95%信頼区間 \quad \left[ \hat{\beta}_j-t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}},\hat{\beta}_j+t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right] \ (j=1,2) $$

$$ 99%信頼区間 \quad \left[ \hat{\beta}_j-t_{0.005}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}},\hat{\beta}_j+t_{0.005}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right] \ (j=1,2) $$

(一般に説明変数が \( p \) 個の場合の \( t \) 分布の自由度は \( n-p-1 \) となる。)

回帰係数の仮説検定

個々の説明変数に対する有意性の仮説検定

まずは、単回帰分析の回帰係数の場合と同様に、各々の説明変数 \( x_i \) に対する母回帰係数 \( \beta_i \) の両側仮説

$$ H_0:\beta_i=\beta_i^0, \quad H_1:\beta_i\not=\beta_i^0 $$

を考えます。

(これはつまり、説明変数 \( x_i \) は応答変数 \( y \) の予測に影響を与えないという仮説を立てることになります)

このとき、定理2より、

$$ \begin{align} 0.95&=P\left( \hat{\beta}_j-t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}}≦\beta_j≦\hat{\beta}_j+t_{0.025}(n-3)\hat{\sqrt{V(\hat{\beta}_j)}} \right) \\ &=P\left( -t_{0.025}(n-3)≦\frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}}≦t_{0.025}(n-3) \right) \end{align} $$

となります。したがって、

$$ T=\frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}} $$

とおくと、有意水準 \( 0.05 \) の両側検定の棄却域 \( R \) は

$$ \begin{align} 0.05&=1-0.95=1-P\left( -t_{0.025}(n-3)≦T≦t_{0.025}(n-3) \right) \\ &=P(\{ T<-t_{0.025}(n-3)\}\cup\{ T>t_{0.025}(n-3)\}) \end{align} $$

より、

$$ R=\{ T<-t_{0.025}(n-3)\}\cup\{ T>t_{0.025}(n-3)\} $$

となります。同様に有意水準 \( 0.01 \) の両側検定の棄却域 \( R \) は

$$ R=\{ T<-t_{0.005}(n-3)\}\cup\{ T>t_{0.005}(n-3)\} $$

まとめると、

定理3 (重回帰方程式の個々の説明変数に対する母回帰係数の両側仮説検定)

母集団が次の線形重回帰モデルに従っているとする。

$$ Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

このとき、標本の実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) として、

\( \hat{\beta}_1,\hat{\beta}_2 \) の標準偏差 \( \sqrt{V(\hat{\beta}_1)}, \sqrt{V(\hat{\beta}_2)} \) の中に現れる \( \sigma^2 \) を

$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

で置き換えたもの \( \hat{\sqrt{V(\hat{\beta}_1)}}, \hat{\sqrt{V(\hat{\beta}_2)}} \) を用いるとき、仮説 \( H_0:\beta_i=\beta_i^0, \quad H_1:\beta_i\not=\beta_i^0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_i \) の両側検定の棄却域 \( R \) は次のようになる。

検定統計量を

$$ T=\frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}} $$

とするとき、

$$ 有意水準0.05 \quad R=\{ T<-t_{0.025}(n-3)\}\cup\{ T>t_{0.025}(n-3)\} $$

$$ 有意水準0.01 \quad R=\{ T<-t_{0.005}(n-3)\}\cup\{ T>t_{0.005}(n-3)\} $$

(一般に説明変数が \( p \) 個の場合の \( t \) 分布の自由度は \( n-p-1 \) となる。)

同様に片側検定の場合は次のようになります。

定理4 (重回帰方程式の個々の説明変数に対する母回帰係数の片側仮説検定)

母集団が次の線形重回帰モデルに従っているとする。

$$ Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

このとき、標本の実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) として、

\( \hat{\beta}_1,\hat{\beta}_2 \) の標準偏差 \( \sqrt{V(\hat{\beta}_1)}, \sqrt{V(\hat{\beta}_2)} \) の中に現れる \( \sigma^2 \) を

$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

で置き換えたもの \( \hat{\sqrt{V(\hat{\beta}_1)}}, \hat{\sqrt{V(\hat{\beta}_2)}} \) を用いるとき、仮説 \( H_0:\beta_i=\beta_i^0, \quad H_1:\beta_i<(>)\beta_i^0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_i \) の片側検定の棄却域 \( R \) は次のようになる。

検定統計量を

$$ T=\frac{\hat{\beta}_j-\beta_j}{\hat{\sqrt{V(\hat{\beta}_j)}}} $$

とするとき、

$$ 有意水準0.05 \quad R=\{ T<-t_{0.05}(n-3)\} \ (\{T>t_{0.05}(n-3)\}) $$

$$ 有意水準0.01 \quad R=\{ T<-t_{0.01}(n-3) \}\ (\{ T>t_{0.01}(n-3)\}) $$

(一般に説明変数が \( p \) 個の場合の \( t \) 分布の自由度は \( n-p-1 \) となる。)

全体の説明変数に対する有意性の仮説検定

今度は、すべての説明変数 \( x_1,x_2 \) に対する母回帰係数 \( \beta_1,\beta_2 \) の両側仮説

$$ H_0:\beta_1=\beta_2=0, \quad H_1:H_0の否定 $$

を考えます。

(これはつまり、応答変数 \( y \) の予測に影響を与える説明変数があるかどうかという仮説を立てることになります)

このとき、母集団から抽出した標本 \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) に対して、

$$ \overline{Y}=\frac{1}{n}\sum_{i=1}^nY_i, \quad \hat{Y}_i=\hat{\beta}_0+\hat{\beta}_1X_{i1}+\hat{\beta}_2X_{i2} $$

$$ S_y=\sum_{i=1}^n(Y_i-\overline{Y})^2, \quad S_R=\sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2, \quad S_e=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2 $$

とおくと、確率・統計03の定理2(5)より、

$$ S_y=S_R+S_e $$

となります。

このときは、帰無仮説 \( H_0 \) が成り立つとすると、 \( \frac{S_R}{\sigma^2} \) と \( \frac{S_e}{\sigma^2} \) は互いに独立でそれぞれ自由度 \( 2 \) と \( n-3 \) のカイ2乗分布 \( \chi^2(2), \ \chi^2(n-3) \) に従うことが知られています。

(一般に説明変数が \( p \) 個の場合のカイ2乗分布の自由度はそれぞれ \( p, \ n-p-1 \) となります)

よって、 \( F \) 分布の定義より、

$$ F=\frac{\frac{S_R}{\sigma^2}/2}{\frac{S_e}{\sigma^2}/(n-3)} $$

は自由度 \( (2,n-3) \) の \( F \) 分布 \( F(2,n-3) \) に従います。

(一般に説明変数が \( p \) 個の場合の \( F \) 分布の自由度は \( (p,n-p-1) \) となります)

ここで、

$$ V_R=\frac{S_R}{2}, \quad V_e=\frac{S_e}{n-3} $$

とおくと、 \( F=\frac{V_R}{V_e} \) となり、これを \( F \)-比といいます。

(一般に説明変数が \( p \) 個の場合は、 \( V_R=\frac{S_R}{p}, \quad V_e=\frac{S_e}{n-p-1} \) )

したがって、 \( F≧0 \) に注意すると、有意水準 \( 0.05 \) の棄却域 \( R \) は

$$ \begin{align} 0.05&=1-0.95=1-P\left( 0≦F≦F_{0.05}(2,n-3) \right) \\ &=P(\{ F>F_{0.05}(2,n-3)\}) \end{align} $$

より、

$$ R=\{ F>F_{0.05}(2,n-3)\} $$

となります。同様に有意水準 \( 0.01 \) の棄却域 \( R \) は

$$ R=\{ F>F_{0.01}(2,n-3)\} $$

まとめると、

定理5 (重回帰方程式の全体の説明変数に対する母回帰係数の仮説検定)

母集団が次の線形重回帰モデルに従っているとする。

$$ Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_{i1},X_{i2},Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2 $$

このとき、標本の実現値を \( (x_{i1},x_{i2},y_i) \ (i=1,\cdots,n) \) として、

$$ \overline{y}=\frac{1}{n}\sum_{i=1}^ny_i, \quad \hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2} $$

$$ S_y=\sum_{i=1}^n(y_i-\overline{y})^2, \quad S_R=\sum_{i=1}^n(\hat{y}_i-\overline{y})^2, \quad S_e=\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

とおく。このとき、仮説

$$ H_0:\beta_1=\beta_2=0, \quad H_1:H_0の否定 $$

に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_1,\beta_2 \) の棄却域 \( R \) は次のようになる。

検定統計量を

$$ F=\frac{\frac{S_R}{\sigma^2}/2}{\frac{S_e}{\sigma^2}/(n-3)}=\frac{V_R}{V_e} $$

とするとき、

$$ 有意水準0.05 \quad R=\{ F>F_{0.05}(2,n-3)\} $$

$$ 有意水準0.01 \quad R=\{ F>F_{0.01}(2,n-3)\} $$

(一般に説明変数が \( p \) 個の場合の \( F \) 分布の自由度は \( (p,n-p-1) \) となる。)

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

目次