こんにちは、ひかりです。
今回は確率・統計から線形単回帰モデルについて解説していきます。
この記事では以下のことを紹介します。
- 線形単回帰モデルについて
- 回帰係数の区間推定について
- 回帰係数の仮説検定について
線形単回帰モデル
確率・統計03の記事にて、回帰直線を最小二乗法を用いて求めました。
回帰直線とは説明変数 \( x \) と応答変数 \( y \) の間に成り立つ
$$ y=a+bx $$
という直線関係のことをいい、係数 \( a,b \) のことを回帰係数といいました。
この回帰直線の回帰係数 \( a,b \) を最小二乗法で求めると、次のようになります。
\( x_i \) が少なくとも1つは異なるような \( n \) 個の2変数データ \( (x_i,y_i) \ (i=1,2,\cdots,n) \) に対して、
$$ \bar{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad \bar{y}=\frac{1}{n}\sum_{i=1}^ny_i $$
$$ s_x=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2, \quad s_y=\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2 $$
$$ s_{xy}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}), \quad r_{xy}=\frac{s_{xy}}{s_xs_y} $$
とおく。このとき、回帰直線は次のようになる。
$$ y-\bar{y}=\frac{s_{xy}}{s_x^2}(x-\bar{x})=r_{xy}\frac{s_y}{s_x}(x-\bar{x}) $$
つまり、
$$ y=r_{xy}\frac{s_y}{s_x}x+(\bar{y}-r_{xy}\frac{s_y}{s_x}\bar{x}) $$
ここでは、2次元の母集団の要素が回帰直線
$$ y=\beta_1+\beta_2x $$
で近似することができるとき、母集団から抽出した2次元の標本 \( (X_i,Y_i) \ (i=1,2,\cdots, n) \) を用いて、母回帰係数 \( \beta_1,\beta_2 \) を推測することを考えます。
そのために次のような線形単回帰モデルというものを考えます。
母集団の2次元の要素 \( (x_i,y_i) \ (i=1,\cdots,n) \) がある係数 \( \beta_1,\beta_2 \) と正規分布 \( N(0,\sigma^2) \) に従う互いに独立なばらつきの値 \( \varepsilon_i \) を用いて、
$$ y_i=\beta_1+\beta_2x_i+\varepsilon_i $$
と表されるとき、このモデルを線形単回帰モデルといい、係数 \( \beta_1,\beta_2 \) のことを母回帰係数という。
また、 \( \varepsilon_i \) のことを誤差項という。
回帰係数の区間推定
この線形単回帰モデルを用いて、母回帰係数 \( \beta_1,\beta_2 \) を区間推定してみましょう。
母集団から抽出した標本を \( (X_i,Y_i) \ (i=1,\cdots,n) \) として、この標本が最小二乗法を用いて、ある回帰直線
$$ y=\hat{\beta}_1+\hat{\beta}_2x $$
で近似できたとします。このとき、定理1より、
$$ T_{xy}=\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y}), \quad T_{xx}=\sum_{i=1}^n(X_i-\overline{X})^2 $$
とおくと、
$$ \hat{\beta}_2=r_{xy}\frac{s_y}{s_x}=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sum_{i=1}^n(X_i-\overline{X})^2}=\frac{T_{xy}}{T_{xx}}, \quad \hat{\beta}_1=\overline{Y}-\hat{\beta}_2\overline{X} $$
となります。
$$ \begin{align} T_{xy}=\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})&=\sum_{i=1}^n(X_iY_i-X_i\overline{Y}-\overline{X}Y_i+\overline{X}\overline{Y}) \\ &=\sum_{i=1}^nX_iY_i-\overline{Y}\sum_{i=1}^nX_i-\overline{X}\sum_{i=1}^nY_i+n\overline{X}\overline{Y} \\ &=\sum_{i=1}^nX_iY_i-n\overline{X}\overline{Y}-n\overline{X}\overline{Y}+n\overline{X}\overline{Y} \\ &=\sum_{i=1}^nX_iY_i-n\overline{X}\overline{Y}=\sum_{i=1}^n(X_i-\overline{X})Y_i \end{align} $$
に注意して、 \( T_{xy} \) に
$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$
を代入すると、
$$ \begin{align} T_{xy}&=\sum_{i=1}^n(X_i-\overline{X})Y_i=\sum_{i=1}^n(X_i-\overline{X})(\beta_1+\beta_2X_i+\varepsilon_i) \\ &=\beta_1\sum_{i=1}^n(X_i-\overline{X})+\beta_2\sum_{i=1}^n(X_i-\overline{X})X_i+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \\ &=\beta_2\sum_{i=1}^n(X_i-\overline{X})X_i+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \quad (第1項は0) \\ &=\beta_2\sum_{i=1}^n(X_i-\overline{X})^2+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \quad (上の注意と同様) \end{align} $$
したがって、
$$ \begin{align} \hat{\beta}_2&=\frac{T_{xy}}{T_{xx}}=\frac{1}{T_{xx}}\left(\beta_2\sum_{i=1}^n(X_i-\overline{X})^2+\sum_{i=1}^n(X_i-\overline{X})\varepsilon_i \right) \\ &=\beta_2+\sum_{i=1}^nw_i\varepsilon_i \quad (ここで、w_i=\frac{X_i-\overline{X}}{T_{xx}}) \end{align} $$
となり、 \( \varepsilon_i \) の一次結合となるため、正規分布の再生性より \( \hat{\beta}_2 \) も正規分布に従います。
また、 \( \varepsilon_i \) が互いに独立で正規分布 \( N(0,\sigma^2) \) に従うため、 \( \hat{\beta}_2 \) の期待値と分散を求めると、
$$ E(\hat{\beta}_2)=\beta_2+\sum_{i=1}^nw_iE(\varepsilon_i)=\beta_2 $$
$$ V(\hat{\beta}_2)=\sum_{i=1}^nw_i^2V(\varepsilon_n)=\left(\sum_{i=1}^n w_i^2\right) \sigma^2=\left(\frac{1}{T_{xx}^2}\sum_{i=1}^n (X_i-\overline{X})^2\right) \sigma^2=\frac{\sigma^2}{T_{xx}} $$
したがって、 \( \hat{\beta}_2 \) は正規分布 \( N(\beta_2,\frac{\sigma^2}{T_{xx}}) \) に従うので、その標準化
$$ \frac{\hat{\beta}_2-\beta_2}{\frac{\sigma}{\sqrt{T_{xx}}}} \tag{1} $$
は標準正規分布 \( N(0,1) \) に従います。
しかし、このままでは \( \sigma^2 \) は未知母数であるため、 \( \sigma^2 \) を推定する必要があります。
そのために、実現値 \( (x_i,y_i) \ (i=1,\cdots,n) \) に対して、 \( x_i \) の回帰直線の予測値
$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$
と残差
$$ e_i=y_i-\hat{y}_i $$
を考えると、
$$ \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$
は \( \sigma^2 \) の不偏推定量となることが知られています。(詳細は省略します。)
すると、式(1)の \( \sigma \) を \( \hat{\sigma} \) に置き換えた
$$ \frac{\hat{\beta}_2-\beta_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$
は自由度 \( n-2 \) の \( t \) 分布 \( t(n-2) \) に従うことが知られています。(詳細は省略します。)
このとき、\( t \) 分布表を見ると、
$$ \begin{align} 0.95&=P\left( -t_{0.025}(n-2)≦\frac{\hat{\beta}_2-\beta_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}}≦t_{0.025}(n-2) \right) \\ &=P\left( \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}}≦\beta_2≦\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right) \end{align} $$
したがって、実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) とするときの95%信頼区間は
$$ \left[ \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$
同様に実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) とするときの99%信頼区間は
$$ \left[ \hat{\beta}_2-t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$
まとめると、
母集団が次の線形単回帰モデルに従っているとする。
$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$
また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。
$$ y=\hat{\beta}_1+\hat{\beta}_2x $$
このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$
$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$
$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$
とするとき、母回帰係数 \( \beta_2 \) の信頼区間は次のようになる。
$$ 95%信頼区間 \quad \left[ \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$
$$ 99%信頼区間 \quad \left[ \hat{\beta}_2-t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}},\hat{\beta}_2+t_{0.005}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right] $$
ある製品の主成分の重量 \( x \) (g)と完成品の重量 \( y \) (g)の8個のデータが次で与えられているとする。
$$ (12,22), \ (12,24), \ (11,21), \ (7,19), \ (8,19), \ (9,22), \ (14,24), \ (11,23) $$
このとき、この製品の母回帰係数 \( \beta_2 \) の95%信頼区間を求める。
まず、この標本データから最小二乗法を用いて回帰直線を求めると、
$$ y=14.01+0.737x $$
したがって、
$$ \overline{x}=10.5, \quad T_{xx}=38 $$
$$ \hat{y}_1=22.854, \ \hat{y}_2=22.854, \ \hat{y}_3=22.117, \ \hat{y}_4=19.169, $$
$$ \hat{y}_5=19.906, \ \hat{y}_6=20.643, \ \hat{y}_7=24.328, \ \hat{y}_8=22.117 $$
$$ e_1=-0.854, \ e_2=1.146, \ e_3=-1.117, \ e_4=-0.169, $$
$$ e_5=-0.906, \ e_6=1.357, \ e_7=-0.328, \ e_8=0.883 $$
$$ \hat{\sigma}^2=\frac{1}{6}\sum_{i=1}^8e_i^2=1.14474, \quad \hat{\sigma}=1.069924 $$
より、95%信頼区間は
$$ \left[ 0.737-t_{0.025}(6)\frac{1.069924}{\sqrt{38}},0.737+t_{0.025}(6)\frac{1.069924}{\sqrt{38}} \right]=[0.312,1.162] $$
回帰係数の仮説検定
最後に母回帰係数 \( \beta_1,\beta_2 \) に関する仮説検定について紹介します。
初めに、両側検定
$$ H_0:\beta_2=\beta_0, \quad H_1:\beta_2\not=\beta_0 $$
を考えます。
(これはつまり、説明変数 \( x \) は応答変数 \( y \) の予測に影響を与えないという仮説を立てることになります)
このとき、定理2より、
$$ \begin{align} 0.95&=P\left( \hat{\beta}_2-t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}}≦\beta_0≦\hat{\beta}_2+t_{0.025}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \right) \\ &=P\left( -t_{0.025}(n-2)≦\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}}≦t_{0.025}(n-2) \right) \end{align} $$
となります。したがって、
$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$
とおくと、有意水準 \( 0.05 \) の両側検定の棄却域 \( R \) は
$$ \begin{align} 0.05&=1-0.95=1-P\left( -t_{0.025}(n-2)≦T≦t_{0.025}(n-2) \right) \\ &=P(\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\}) \end{align} $$
より、
$$ R=\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\} $$
となります。同様に有意水準 \( 0.01 \) の両側検定の棄却域 \( R \) は
$$ R=\{ T<-t_{0.005}(n-2)\}\cup\{ T>t_{0.005}(n-2)\} $$
まとめると、
母集団が次の線形単回帰モデルに従っているとする。
$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$
また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。
$$ y=\hat{\beta}_1+\hat{\beta}_2x $$
このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$
$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$
$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$
とおく。
仮説 \( H_0:\beta_2=\beta_0, \quad H_1:\beta_2\not=\beta_0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_2 \) の両側検定の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T<-t_{0.025}(n-2)\}\cup\{ T>t_{0.025}(n-2)\} $$
$$ 有意水準0.01 \quad R=\{ T<-t_{0.005}(n-2)\}\cup\{ T>t_{0.005}(n-2)\} $$
同様に片側検定の場合は次のようになります。
母集団が次の線形単回帰モデルに従っているとする。
$$ Y_i=\beta_1+\beta_2X_i+\varepsilon_i $$
また、母集団から抽出した標本 \( (X_i,Y_i) \ (i=1,\cdots,n) \) が最小二乗法により次の回帰直線で近似されるとする。
$$ y=\hat{\beta}_1+\hat{\beta}_2x $$
このとき、標本の実現値を \( (x_i,y_i) \ (i=1,\cdots,n) \) として、
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^nx_i, \quad T_{xx}=\sum_{i=1}^n(x_i-\overline{x})^2 $$
$$ \hat{y}_i=\hat{\beta}_1+\hat{\beta}_2x_i=\overline{y}+\hat{\beta}_2(x_i-\overline{x}) $$
$$ e_i=y_i-\hat{y}_i, \quad \hat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^ne_i^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y}_i)^2 $$
とおく。
仮説 \( H_0:\beta_2=\beta_0, \quad H_1:\beta_2<(>)\beta_0 \) に対して、有意水準 \( 0.05,0.01 \) の母回帰係数 \( \beta_2 \) の片側検定の棄却域 \( R \) は次のようになる。
検定統計量を
$$ T=\frac{\hat{\beta}_2-\beta_0}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$
とするとき、
$$ 有意水準0.05 \quad R=\{ T<-t_{0.05}(n-2)\} \ (\{T>t_{0.05}(n-2)\}) $$
$$ 有意水準0.01 \quad R=\{ T<-t_{0.01}(n-2) \}\ (\{ T>t_{0.01}(n-2)\}) $$
例1と同じ状況を考える。
ある製品の主成分の重量 \( x \) (g)と完成品の重量 \( y \) (g)の8個のデータが次で与えられているとする。
$$ (12,22), \ (12,24), \ (11,21), \ (7,19), \ (8,19), \ (9,22), \ (14,24), \ (11,23) $$
このとき、母回帰係数が \( \beta_2=0 \) であるかどうかを有意水準 \( 0.05 \) で検定する。
まず、帰無仮説を \( H_0:\beta_2=0 \) とおき、対立仮説を \( H_1:\beta_2\not=0 \) とおく。
また、有意水準は \( 0.05 \) である。
帰無仮説 \( H_0 \) が正しいとすると、検定統計量
$$ T=\frac{\hat{\beta}_2}{\frac{\hat{\sigma}}{\sqrt{T_{xx}}}} $$
は自由度 \( 6 \) の \( t \) 分布 \( t(6) \) に従う。
このとき、定理3より有意水準 \( 0.05 \) の棄却域 \( R \) は
$$ R=\{ T<-t_{0.025}(6)\}\cup\{ T>t_{0.025}(6)\}=\{ T<-2.447\}\cup\{ T>2.447\} $$
となる。したがって、
$$ \hat{\beta}_2=0.737, \quad \overline{x}=10.5, \quad T_{xx}=38 $$
$$ \hat{y}_1=22.854, \ \hat{y}_2=22.854, \ \hat{y}_3=22.117, \ \hat{y}_4=19.169, $$
$$ \hat{y}_5=19.906, \ \hat{y}_6=20.643, \ \hat{y}_7=24.328, \ \hat{y}_8=22.117 $$
$$ e_1=-0.854, \ e_2=1.146, \ e_3=-1.117, \ e_4=-0.169, $$
$$ e_5=-0.906, \ e_6=1.357, \ e_7=-0.328, \ e_8=0.883 $$
$$ \hat{\sigma}^2=\frac{1}{6}\sum_{i=1}^8e_i^2=1.14474, \quad \hat{\sigma}=1.069924 $$
より、検定統計量 \( T \) の実現値 \( T^* \) が
$$ T^*=\frac{0.737}{1.069924}{\sqrt{38}}=4.246\in R $$
となるので、帰無仮説 \( H_0 \) は棄却される。
よって、母回帰係数 \( \beta_2=0 \) ではないといえる。
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。