確率・統計(統計検定2級対応)27:線形単回帰モデル

こんにちは、ひかりです。

今回は確率・統計から線形単回帰モデルについて解説していきます。

この記事では以下のことを紹介します。

  • 線形単回帰モデルについて
  • 回帰係数の区間推定について
  • 回帰係数の仮説検定について
目次

線形単回帰モデル

確率・統計03の記事にて、回帰直線を最小二乗法を用いて求めました。

回帰直線とは説明変数 \( x \) と応答変数 \( y \) の間に成り立つ

$$ y=a+bx $$

という直線関係のことをいい、係数 \( a,b \) のことを回帰係数といいました。

この回帰直線の回帰係数 \( a,b \) を最小二乗法で求めると、次のようになります。

定理1 (回帰直線)

\( x_i \) が少なくとも1つは異なるような \( n \) 個の2変数データ \( (x_i,y_i) \ (i=1,2,\cdots,n) \) に対して、

$$ \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad \bar{y}=\frac{1}{n}\sum_{i=1}^ny_i $$

$$ s_x=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2, \quad s_y=\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2 $$

$$ s_{xy}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}), \quad r_{xy}=\frac{s_{xy}}{s_xs_y} $$

とおく。このとき、回帰直線は次のようになる。

$$ y-\bar{y}=\frac{s_{xy}}{s_x^2}(x-\bar{x})=r_{xy}\frac{s_y}{s_x}(x-\bar{x}) $$

つまり、

$$ y=r_{xy}\frac{s_y}{s_x}x+(\bar{y}-r_{xy}\frac{s_y}{s_x}\bar{x}) $$

ここでは、2次元の母集団の要素が回帰直線

$$ y=\beta_1+\beta_2x $$

で近似することができるとき、母集団から抽出した2次元の標本 \( (X_i,Y_i) \ (i=1,2,\cdots, n) \) を用いて、母回帰係数 \( \beta_1,\beta_2 \) を推測することを考えます。

そのために次のような線形単回帰モデルというものを考えます。

定義1 (線形単回帰モデル)

母集団の2次元の要素 \( (x_i,y_i) \ (i=1,\cdots,n) \) がある係数 \( \beta_1,\beta_2 \) と正規分布 \( N(0,\sigma^2) \) に従う互いに独立なばらつきの値 \( \varepsilon_i \) を用いて、

$$ y_i=\beta_1+\beta_2x_i+\varepsilon_i $$

と表されるとき、このモデルを線形単回帰モデルといい、係数 \( \beta_1,\beta_2 \) のことを母回帰係数という。

また、 \( \varepsilon_i \) のことを誤差項という。

回帰係数の区間推定

この線形単回帰モデルを用いて、母回帰係数 \( \beta_1,\beta_2 \) を区間推定してみましょう。

母集団から抽出した標本を \( (X_i,Y_i) \ (i=1,\cdots,n) \) として、この標本が最小二乗法を用いて、ある回帰直線

$$ y=\hat{\beta}_1+\hat{\beta}_2x $$

で近似できたとします。このとき、定理1より、

$$ T_{xy}=\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}), \quad T_{xx}=\sum_{i=1}^n(X_i-\overline{X})^2 $$

とおくと、

$$ \hat{\beta}_2=r_{xy}\frac{s_y}{s_x}=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sum_{i=1}^n(X_i-\overline{X})^2}=\frac{T_{xy}}{T_{xx}}, \quad \hat{\beta}_1=\overline{Y}-\hat{\beta}_2\overline{X} $$

となります。

$$ \begin{align} T_{xy}=\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})&=\sum_{i=1}^n(X_iY_i-X_i\overline{Y}-\overline{X}Y_i+\overline{X}\overline{Y}) \\ &=\sum_{i=1}^nX_iY_i-\overline{Y}\sum_{i=1}^nX_i-\overline{X}\sum_{i=1}^nY_i+n\overline{X}\overline{Y} \\ &=\sum_{i=1}^nX_iY_i-n\overline{X}\overline{Y}-n\overline{X}\overline{Y}+n\overline{X}\overline{Y} \\ &=\sum_{i=1}^nX_iY_i-n\overline{X}\overline{Y}=\sum_{i=1}^n(X_i-\overline{X})Y_i \end{align} $$

に注意して、 \( T_{xy} \) に

$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$

を代入すると、

$$ \begin{align} T_{xy}&=\sum_{i=1}^n(X_i-\overline{X})Y_i=\sum_{i=1}^n(X_i-\overline{X})(\beta_1+\beta_2X_i+\varepsilon_i) \\ &=\beta_1\sum_{i=1}^n(X_i-\overline{X})+\beta_2\sum_{i=1}^n(X_i-\overline{X})X_i+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \\ &=\beta_2\sum_{i=1}^n(X_i-\overline{X})X_i+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \quad (第1項は0) \\ &=\beta_2\sum_{i=1}^n(X_i-\overline{X})^2+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \quad (上の注意と同様) \end{align} $$

したがって、

$$ \begin{align} \hat{\beta}_2&=\frac{T_{xy}}{T_{xx}}=\frac{1}{T_{xx}}\left(\beta_2\sum_{i=1}^n(X_i-\overline{X})^2+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \right) \\ &=\beta_2+\sum_{i=1}^nw_i\varepsilon_i \quad (ここで、w_i=\frac{X_i-\overline{X}}{T_{xx}}) \end{align} $$

となり、 \( \varepsilon_i \) の一次結合となるため、正規分布の再生性より \( \hat{\beta}_2 \) も正規分布に従います。

また、 \( \varepsilon_i \) が互いに独立で正規分布 \( N(0,\sigma^2) \) に従うため、 \( \hat{\beta}_2 \) の期待値と分散を求めると、

$$ E(\hat{\beta}_2)=\beta_2+\sum_{i=1}^nw_iE(\varepsilon_i)=\beta_2 $$

$$ V(\hat{\beta}_2)=\sum_{i=1}^nw_i^2V(\varepsilon_n)=\left(\sum_{i=1}^n w_i^2\right) \sigma^2=\left(\frac{1}{T_{xx}^2}\sum_{i=1}^n (X_i-\overline{X})^2\right) \sigma^2=\frac{\sigma^2}{T_{xx}} $$

したがって、 \( \hat{\beta}_2 \) は正規分布 \( N(\beta_2,\frac{\sigma^2}{T_{xx}}) \) に従うので、その標準化

$$ \frac{\hat{\beta}_2-\beta_2}{\frac{\sigma}{\sqrt{T_{xx}}}} \tag{1} $$

は標準正規分布 \( N(0,1) \) に従います。

しかし、このままでは \( \sigma^2 \) は未知母数であるため、 \( \sigma^2 \) を推定する必要があります。

そのために、実現値 \( (x_i,y_i) \ (i=1,\cdots,n) \) に対して、 \( x_i \) の回帰直線の予測値

$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$

と残差

$$ e_i=y_i-\hat{y}_i $$

を考えると、

$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

は \( \sigma^2 \) の不偏推定量となることが知られています。(詳細は省略します。)

すると、式(1)の \( \sigma \) を \( \hat{\sigma} \) に置き換えた

$$ \frac{\hat{\beta}_2-\beta_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$

は自由度 \( n-2 \) の \( t \) 分布 \( t(n-2) \) に従うことが知られています。(詳細は省略します。)

このとき、\( t \) 分布表を見ると、

$$ \begin{align} 0.95&=P\left( -t_{0.025}(n-2)≦\frac{\hat{\beta}_2-\beta_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}}≦t_{0.025}(n-2) \right) \\ &=P\left( \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}}≦\beta_2≦\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right) \end{align} $$

したがって、実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) とするときの95%信頼区間は

$$ \left[ \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$

同様に実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) とするときの99%信頼区間は

$$ \left[ \hat{\beta}_2-t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$

まとめると、

定理2 (母回帰係数の区間推定)

母集団が次の線形単回帰モデルに従っているとする。

$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_1+\hat{\beta}_2x $$

このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、

$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$

$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$

$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

とするとき、母回帰係数 \( \beta_2 \) の信頼区間は次のようになる。

$$ 95%信頼区間 \quad \left[ \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$

$$ 99%信頼区間 \quad \left[ \hat{\beta}_2-t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$

例1

ある製品の主成分の重量 \( x \) (g)と完成品の重量 \( y \) (g)の8個のデータが次で与えられているとする。

$$ (12,22), \ (12,24), \ (11,21), \ (7,19), \ (8,19), \ (9,22), \ (14,24), \ (11,23) $$

このとき、この製品の母回帰係数 \( \beta_2 \) の95%信頼区間を求める。

まず、この標本データから最小二乗法を用いて回帰直線を求めると、

$$ y=14.01+0.737x $$

したがって、

$$ \overline{x}=10.5, \quad T_{xx}=38 $$

$$ \hat{y}_1=22.854, \ \hat{y}_2=22.854, \ \hat{y}_3=22.117, \ \hat{y}_4=19.169, $$

$$ \hat{y}_5=19.906, \ \hat{y}_6=20.643, \ \hat{y}_7=24.328, \ \hat{y}_8=22.117 $$

$$ e_1=-0.854, \ e_2=1.146, \ e_3=-1.117, \ e_4=-0.169, $$

$$ e_5=-0.906, \ e_6=1.357, \ e_7=-0.328, \ e_8=0.883 $$

$$ \hat{\sigma}^2=\frac{1}{6}\sum_{i=1}^8e_i^2=1.14474, \quad \hat{\sigma}=1.069924 $$

より、95%信頼区間は

$$ \left[ 0.737-t_{0.025}(6)\frac{1.069924}{\sqrt{38}},0.737+t_{0.025}(6)\frac{1.069924}{\sqrt{38}} \right]=[0.312,1.162] $$

回帰係数の仮説検定

最後に母回帰係数 \( \beta_1,\beta_2 \) に関する仮説検定について紹介します。

初めに、両側検定

$$ H_0:\beta_2=\beta_0, \quad H_1:\beta_2\not=\beta_0 $$

を考えます。

(これはつまり、説明変数 \( x \) は応答変数 \( y \) の予測に影響を与えないという仮説を立てることになります)

このとき、定理2より、

$$ \begin{align} 0.95&=P\left( \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}}≦\beta_0≦\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right) \\ &=P\left( -t_{0.025}(n-2)≦\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}}≦t_{0.025}(n-2) \right) \end{align} $$

となります。したがって、

$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$

とおくと、有意水準 \( 0.05 \) の両側検定の棄却域 \( R \) は

$$ \begin{align} 0.05&=1-0.95=1-P\left( -t_{0.025}(n-2)≦T≦t_{0.025}(n-2) \right) \\ &=P(\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\}) \end{align} $$

より、

$$ R=\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\} $$

となります。同様に有意水準 \( 0.01 \) の両側検定の棄却域 \( R \) は

$$ R=\{ T<-t_{0.005}(n-2)\}\cup\{ T>t_{0.005}(n-2)\} $$

まとめると、

定理3 (母回帰係数の両側仮説検定)

母集団が次の線形単回帰モデルに従っているとする。

$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_1+\hat{\beta}_2x $$

このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、

$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$

$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$

$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

とおく。

仮説 \( H_0:\beta_2=\beta_0, \quad H_1:\beta_2\not=\beta_0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_2 \) の両側検定の棄却域 \( R \) は次のようになる。

検定統計量を

$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$

とするとき、

$$ 有意水準0.05 \quad R=\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\} $$

$$ 有意水準0.01 \quad R=\{ T<-t_{0.005}(n-2)\}\cup\{ T>t_{0.005}(n-2)\} $$

同様に片側検定の場合は次のようになります。

定理4 (母回帰係数の片側仮説検定)

母集団が次の線形単回帰モデルに従っているとする。

$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$

また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。

$$ y=\hat{\beta}_1+\hat{\beta}_2x $$

このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、

$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$

$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$

$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$

とおく。

仮説 \( H_0:\beta_2=\beta_0, \quad H_1:\beta_2<(>)\beta_0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_2 \) の片側検定の棄却域 \( R \) は次のようになる。

検定統計量を

$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$

とするとき、

$$ 有意水準0.05 \quad R=\{ T<-t_{0.05}(n-2)\} \ (\{T>t_{0.05}(n-2)\}) $$

$$ 有意水準0.01 \quad R=\{ T<-t_{0.01}(n-2) \}\ (\{ T>t_{0.01}(n-2)\}) $$

例2

例1と同じ状況を考える。

ある製品の主成分の重量 \( x \) (g)と完成品の重量 \( y \) (g)の8個のデータが次で与えられているとする。

$$ (12,22), \ (12,24), \ (11,21), \ (7,19), \ (8,19), \ (9,22), \ (14,24), \ (11,23) $$

このとき、母回帰係数が \( \beta_2=0 \) であるかどうかを有意水準 \( 0.05 \) で検定する。

まず、帰無仮説を \( H_0:\beta_2=0 \) とおき、対立仮説を \( H_1:\beta_2\not=0 \) とおく。

また、有意水準は \( 0.05 \) である。

帰無仮説 \( H_0 \) が正しいとすると、検定統計量

$$ T=\frac{\hat{\beta}_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$

は自由度 \( 6 \) の \( t \) 分布 \( t(6) \) に従う。

このとき、定理3より有意水準 \( 0.05 \) の棄却域 \( R \) は

$$ R=\{ T<-t_{0.025}(6)\}\cup\{ T>t_{0.025}(6)\}=\{ T<-2.447\}\cup\{ T>2.447\} $$

となる。したがって、

$$ \hat{\beta}_2=0.737, \quad \overline{x}=10.5, \quad T_{xx}=38 $$

$$ \hat{y}_1=22.854, \ \hat{y}_2=22.854, \ \hat{y}_3=22.117, \ \hat{y}_4=19.169, $$

$$ \hat{y}_5=19.906, \ \hat{y}_6=20.643, \ \hat{y}_7=24.328, \ \hat{y}_8=22.117 $$

$$ e_1=-0.854, \ e_2=1.146, \ e_3=-1.117, \ e_4=-0.169, $$

$$ e_5=-0.906, \ e_6=1.357, \ e_7=-0.328, \ e_8=0.883 $$

$$ \hat{\sigma}^2=\frac{1}{6}\sum_{i=1}^8e_i^2=1.14474, \quad \hat{\sigma}=1.069924 $$

より、検定統計量 \( T \) の実現値 \( T^* \) が

$$ T^*=\frac{0.737}{1.069924}{\sqrt{38}}=4.246\in R $$

となるので、帰無仮説 \( H_0 \) は棄却される。

よって、母回帰係数 \( \beta_2=0 \) ではないといえる。

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

目次