こんにちは、ひかりです。
今回は確率・統計から点推定(モーメント法と最尤推定法)について解説していきます。
この記事では以下のことを紹介します。
- 母数の推定法について
- モーメント法と最尤推定法について
- 点推定の基準について
母数の推定法
それではいよいよ母集団から抽出した標本を用いて、母平均や母分散などの母数 \( \theta \) を推定することを考えてみましょう。
まず、母数 \( \theta \) を推定するために用いられる標本 \( X_1,\cdots,X_n \) の統計量を標本 \( X_1,\cdots,X_n \) の推定量といい、 \( \hat{\theta}=\hat{\theta}(X_1,\cdots,X_n) \) と表します。
また、標本 \( X_1,\cdots, X_n \) が実際に値 \( x_1,\cdots,x_n \) をとるときの \( \hat{\theta} \) の実際の値 \( \hat{\theta}^*=\hat{\theta}(x_1,\cdots,x_n) \) を実現値 \( x_1,\cdots,x_n \) の推定値といいます。
母集団が正規分布 \( N(\mu,\sigma^2) \) に従うとして、母数 \( (\theta_1,\theta_2)=(\mu,\sigma^2) \) を求めたい。
母集団から抽出した標本を \( X_1,\cdots,X_n \) とする。
このとき、母数 \( \theta_1 \) を推測するためによく用いられる推定量として、
$$ 標本平均 \ \overline{X} \ : \hat{\theta}_1=\frac{1}{n}\sum_{i=1}^nX_i $$
ほかにも、標本を小さい順に並べたものを \( X_{(1)},\cdots,X_{(n)} \) として、
$$ 中央値 \ m \ : \hat{\theta}_1=\begin{cases} X_{(\frac{n+1}{2})} & (nが奇数) \\ \frac{X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}}{2} & (nが偶数) \end{cases} $$
また、 \( X_{(1)},\cdots,X_{(n)} \) の \( [ n\alpha ] \) 個をそれぞれ両側から除いた残りの \( n-2[ n\alpha] \) 個の標本平均を考えることもある。
ここで、 \( [x] \) は \( x \) 以下の最大の整数を表す。
これを刈り込み(切り落とし)比率 \( \alpha \) の刈り込み(切り落とし)平均という。
$$ 刈り込み平均 \ x_{\alpha} \ : \hat{\theta}_1=\frac{1}{n-2[n\alpha]}\sum_{i=[n\alpha]+1}^{n-[n\alpha]}X_{(i)} $$
次に、母数 \( \theta_2 \) を推測するためによく用いられる推定量として、
$$ 標本分散 \ S^2 \ : \hat{\theta}_2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 $$
$$ (不偏でない)標本分散 \ s^2 \ : \hat{\theta}_2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 $$
ここで、標本の実現値として次のようになったとする。
$$ 1, \ 2, \ 2, \ 4, \ 5, \ 8, \ 8, \ 9, \ 12, \ 30 $$
このとき、この実現値の各推定量の推定値は次のようになる。
$$ 標本平均: \hat{\theta}_1^*=8.1 $$
$$ 中央値: \hat{\theta}_1^*=6.5 $$
$$ 刈り込み比率 0.1 の刈り込み平均: \hat{\theta}_1^*=6.25 $$
$$ 標本分散: \hat{\theta}_2^*=71.88 $$
$$ (不偏でない)標本分散: \hat{\theta}_2^*=64.69 $$
母数 \( \theta \) を推定する方法は点推定と区間推定の2種類があります。
この記事では点推定について解説していきます。(区間推定については次回以降に解説します)
点推定とは、母数 \( \theta \) を推定するのに適切な推定量 \( \hat{\theta}(X_1,\cdots,X_n) \) を構成して、その実現値 \( x_1,\cdots,x_n \) の推定値 \( \hat{\theta}^*=\hat{\theta}(x_1,\cdots,x_n) \) により母数 \( \theta \) をただ1点で推定するという方法になります。
(つまり、母数 \( \theta \) をピンポイントに推測するという方法になります)
点推定は区間推定に比べて時間や費用などのコストがかからない方法になりますが、母数を1点で推測しようというものなので基本的に誤差が生じます。
モーメント法と最尤推定法
それでは、点推定の方法としてモーメント法と最尤推定法の2つを紹介していきます。
モーメント法
モーメント法とは、母数 \( \theta_1,\cdots,\theta_k \) を推測するのに、母集団分布に従う確率変数 \( X \) の \( k \) 次モーメント \( E(X^k) \) と標本 \( X_1,\cdots,X_n \) の \( k \) 次標本モーメント \( \displaystyle \frac{1}{n}\sum_{i=1}^nX_i^k \) により \( k \) 個の連立方程式をつくり、母数 \( \theta_1,\cdots,\theta_k \) について解く方法になります。
母数 \( \theta_1,\cdots,\theta_k \) を推測することを考えます。
このとき、母集団分布に従う確率変数 \( X \) の \( k \) 次までのモーメント
$$ E(X)=\mu_1=g_1(\theta_1,\cdots,\theta_k) $$
$$ E(X^2)=\mu_2=g_2(\theta_1,\cdots,\theta_k) $$
$$ \vdots $$
$$ E(X^k)=\mu_k=g_k(\theta_1,\cdots,\theta_k) $$
を求めます。
これは \( \theta_1,\cdots,\theta_k \) の関数となっていることに注意してください。
母集団から抽出した標本 \( X_1,\cdots,X_n \) に対して、 \( k \) 次までの標本モーメント
$$ \frac{1}{n}\sum_{i=1}^nX_i=\hat{\mu}_1, \quad \frac{1}{n}\sum_{i=1}^nX_i^2=\hat{\mu}_2, \quad \cdots, \quad \frac{1}{n}\sum_{i=1}^nX_i^k=\hat{\mu}_k $$
を求めます。
母集団のモーメントと標本モーメントが同じであるとすると、
$$ \frac{1}{n}\sum_{i=1}^nX_i^{\ell}=g_{\ell}(\theta_1,\cdots,\theta_k) \quad (\ell=1,\cdots,k) $$
となります。
これは母数 \( \theta_1,\cdots,\theta_k \) に関する \( k \) 個の連立方程式となっているので、これを母数 \( \theta_1,\cdots,\theta_k \) について解きます。
そして、この方程式の解 \( \hat{\theta}_1,\cdots,\hat{\theta}_k \) を母数 \( \theta_1,\cdots,\theta_k \) の推定量とします。
この推定量のことをモーメント推定量といいます。
(1) \( X_1,\cdots,X_n \) を正規分布 \( N(\mu,\sigma^2) \) から抽出された標本とする。
このとき、母数 \( (\theta_1,\theta_2)=(\mu,\sigma^2) \) のモーメント推定量 \( (\hat{\theta}_1,\hat{\theta}_2)=(\hat{\mu},\hat{\sigma}^2) \) を求める。
母集団分布 \( N(\mu,\sigma^2) \) に従う確率変数 \( X \) をとると、
$$ g_1(\mu,\sigma^2)=E(X)=\mu $$
$$ g_2(\mu,\sigma^2)=E(X^2)=V(X)+\{ E(X)\}^2=\sigma^2+\mu^2 $$
となります。したがって、
$$ \frac{1}{n}\sum_{i=1}^nX_i=g_1(\mu,\sigma^2)=\mu $$
$$ \frac{1}{n}\sum_{i=1}^nX_i^2=g_2(\mu,\sigma^2)=\sigma^2+\mu^2 $$
を \( \mu,\sigma^2 \) について解くと、解 \( \hat{\mu},\hat{\sigma}^2 \) は
$$ \hat{\mu}=\frac{1}{n}\sum_{i=1}^nX_i=\overline{X}, \quad \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2=s^2 $$
となるので、標本平均と(不偏でない)標本分散が母数 \( (\theta_1,\theta_2)=(\mu,\sigma^2) \) のモーメント推定量となる。
(2) \( X_1,\cdots,X_n \) を一様分布 \( U(0,\theta) \) から抽出された標本とする。
このとき、母数 \( \theta \) のモーメント推定量 \( \hat{\theta} \) を求める。
母集団分布 \( U(0,\theta) \) に従う確率変数 \( X \) をとると、
$$ g_1(\theta)=E(X)=\frac{\theta}{2} $$
となります。したがって、
$$ \frac{1}{n}\sum_{i=1}^nX_i=g_1(\theta)=\frac{\theta}{2} $$
を \( \theta \) について解くと、解 \( \hat{\theta} \) は
$$ \hat{\theta}=\frac{2}{n}\sum_{i=1}^nX_i=2\overline{X} $$
となるので、標本平均の2倍が母数 \( \theta \) のモーメント推定量となる。
最尤推定法
最尤(さいゆう)推定法とは、「標本の実現値は出やすい(確率最大の)ところから現れる」という最尤原理のもと、出現する確率が最大になる母数の値 \( \hat{\theta} \) をもともとの母数 \( \theta \) の推定量とするという方法になります。
母集団は母集団分布がわかっているものとして、その確率(密度)関数を \( f(x;\theta) \) とおきます。
このとき、母集団から抽出した標本を \( X_1,\cdots,X_n \) とすると、 \( X_i \) の確率(密度)関数は \( f(x_i;\theta) \) となります。
これをもとに、尤度関数 \( L(\theta) \) を次のように定めます。
$$ L(\theta)=f(x_1;\theta)\times \cdots \times f(x_n;\theta) $$
これはつまり \( X_1,\cdots,X_n \) の同時確率(密度)関数を \( \theta \) の関数としてみたものとなります。
2つの母数 \( \theta_1,\theta_2 \) に対して、 \( L(\theta_1)>L(\theta_2) \) であるとき、母数 \( \theta_1 \) は母数 \( \theta_2 \) よりも標本の実現値が現れやすいということになります。
よって、この場合は最尤原理より \( \theta_1 \) を母数 \( \theta \) の推定量とします。
これを踏まえると、 \( L(\theta) \) を最大にする \( \hat{\theta} \) を求めればよいことになります。
具体的には、
$$ \log L(\theta)=\sum_{i=1}^n \log f(x_i;\theta) $$
を最大にするような \( \hat{\theta} \) を求めます。
そのために、
$$ \frac{d}{d\theta}\log L(\theta)=\sum_{i=1}^n\frac{d}{d\theta}\log f(x_i;\theta)=0 $$
という方程式を考えて、その解のなかから \( L(\theta) \) を最大にするものを探していけばよいです。
複数個の母数 \( \theta_1,\cdots,\theta_k \) に対しても同様に
$$ \frac{\partial}{\partial \theta_i}\log L(\theta_1,\cdots,\theta_k)=0, \quad (i=1,\cdots,k) $$
を解くことで求めることができます。
この最尤推定法で得られた推定量のことを最尤推定量といいます。
(1) \( X_1,\cdots,X_n \) を正規分布 \( N(\mu,\sigma^2) \) から抽出された標本とする。
このとき、母数 \( (\theta_1,\theta_2)=(\mu,\sigma^2) \) の最尤推定量 \( (\hat{\theta}_1,\hat{\theta}_2)=(\hat{\mu},\hat{\sigma}^2) \) を求める。
まず、尤度関数 \( L(\mu,\sigma^2) \) を求めると、
$$ \begin{align} L(\mu,\sigma^2)&=\prod_{i=1}^nf(x_i;\mu,\sigma^2) \\ &=\prod_{i=1}^n\left\{ \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} \right\} \\ &=\left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} \end{align} $$
となるので、対数をとると
$$ \begin{align} \log L(\mu,\sigma^2)&=\log \left\{ \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} \right\} \\ &=\log \left\{ \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \right\}+\log \left\{ e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2} \right\} \\ &=-\frac{n}{2}\log (2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2 \end{align} $$
したがって、方程式
$$ \frac{\partial}{\partial\mu}\log L(\mu,\sigma^2)=\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)=0 $$
$$ \frac{\partial}{\partial\sigma^2}\log L(\mu,\sigma^2)=-\frac{n}{2}\frac{1}{\sigma^2}+\frac{1}{2(\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2=0 $$
を \( \mu,\sigma^2 \) について解くと、解 \( \hat{\mu},\hat{\sigma}^2 \) は
$$ \hat{\mu}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}, \quad \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 $$
となり、これが最尤推定値となる。したがって、最尤推定量は
$$ \hat{\mu}=\frac{1}{n}\sum_{i=1}^nX_i=\overline{X}, \quad \hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2=s^2 $$
となり、標本平均と(不偏でない)標本分散が母数 \( (\theta_1,\theta_2)=(\mu,\sigma^2) \) の最尤推定量となる。
(2) \( X_1,\cdots,X_n \) を一様分布 \( U(0,\theta) \) から抽出された標本とする。
このとき、母数 \( \theta \) の最尤推定量 \( \hat{\theta} \) を求める。
$$ f(x_i;\theta)=\begin{cases} \frac{1}{\theta} & (0≦x≦\theta) \\ 0 & (その他) \end{cases} $$
より、尤度関数 \( L(\theta) \) を求めると、
$$ L(\theta)=\prod_{i=1}^nf(x_i;\theta)=\begin{cases} \frac{1}{\theta^n} & (すべての x_i で0≦x_i≦\theta) \\ 0 & (その他) \end{cases} $$
このとき、尤度関数 \( L(\theta) \) が最大値をとるのは、 \( \theta \) がすべての \( x_i \) で \( 0≦x_i≦\theta \) という状況の中の最小のときになる。
( \( \frac{1}{\theta^n} \) を大きくするには \( \theta \) を小さくすればよいから)
\( L(\theta) \) が正となる \( \theta \) となる範囲はつまり \( \displaystyle \max_ix_i≦\theta \) であるので、尤度関数 \( L(\theta) \) が最大値をとるのは \( \displaystyle \hat{\theta}=\max_ix_i \) となる。
したがって、 \( \displaystyle \hat{\theta}=\max_iX_i \) が母数 \( \theta \) の最尤推定量となる。
点推定の基準
点推定の説明の際、適切な推定量を構成するといいました。
では、どういう推定量が適当な推定量といえるのか、その点推定の基準について考えてみましょう。
点推定の基準についてはたくさんありますが、ここではその中の2つを紹介します。
不偏性
推定量 \( \hat{\theta} \) は平均的には真の母数 \( \theta \) の近くになければなりません。
よって、推定量 \( \hat{\theta} \) が平均的には真の母数 \( \theta \) に完全に一致する、つまり
$$ E(\hat{\theta})=\theta $$
となるような推定量 \( \hat{\theta} \) のことを不偏推定量といい、この条件を不偏性といいます。
標本平均と標本分布は不偏推定量であることを示しましょう。
\( X_1,\cdots,X_n \) を母平均 \( \mu \) 、母分散 \( \sigma^2 \) である母集団から抽出した標本とする。
また、標本平均を \( \displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i \) 、標本分散を \( \displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \) とする。
このとき、 \( \overline{X} \) は \( \mu \) の不偏推定量、 \( S^2 \) は \( \sigma^2 \) の不偏推定量となる。
ただし、(不偏でない)標本分散を \( \displaystyle s^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \) とおくと、 \( s^2 \) は \( \sigma^2 \) の不偏推定量ではない。
定理1の証明(気になる方だけクリックしてください)
$$ E(X_i)=\mu, \quad V(X_i)=\sigma^2 \quad (i=1,2,\cdots,n) $$
であり、 \( X_i \) は互いに独立であるので、確率・統計09の定理2と確率・統計09の定理3より、
$$ E(\overline{X})=E\left( \frac{1}{n}\sum_{i=1}^nX_i \right)=\frac{1}{n}\sum_{i=1}^nE(X_i)=\mu $$
$$ V(\overline{X})=V\left( \frac{1}{n}\sum_{i=1}^nX_i \right)=\frac{1}{n^2}\sum_{i=1}^nV(X_i)=\frac{\sigma^2}{n} $$
$$ \begin{align} E(S^2)&=E\left( \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \right)=\frac{1}{n-1}\sum_{i=1}^nE[(X_i-\overline{X})^2] \\ &=\frac{1}{n-1}\sum_{i=1}^nE[\{(X_i-\mu)-(\overline{X}-\mu)\}^2] \\ &=\frac{1}{n-1}\sum_{i=1}^nE[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nE[(X_i-\mu)^2]-2nE\left[\left(\frac{1}{n}\sum_{i=1}^nX_i-\mu\right)(\overline{X}-\mu)\right]+\sum_{i=1}^nE[(\overline{X}-\mu)^2] \right\} \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nE[(X_i-\mu)^2]-2nE[(\overline{X}-\mu)^2]+nE[(\overline{X}-\mu)^2] \right\} \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nV(X_i)-nV(\overline{X}) \right\} \\ &=\frac{1}{n-1}(n\sigma^2-\sigma^2)=\sigma^2 \end{align} $$
したがって、
$$ E(\overline{X})=\mu, \quad E(S^2)=\sigma^2 $$
より、 \( \overline{X} \) は \( \mu \) の不偏推定量、 \( S^2 \) は \( \sigma^2 \) の不偏推定量となります。
また、
$$ E(s^2)=\frac{n}{n-1}E(S^2)=\frac{n}{n-1}\sigma^2 $$
より、 \( s^2 \) は \( \sigma^2 \) の不偏推定量ではないことがわかります。
一致性
推定量 \( \hat{\theta} \) は標本の数 \( n \) によって変わってきます。
よって、標本の数が \( n \) の推定量を \( \hat{\theta}_n \) とおくと、推定量は標本数が大きくなればなるほど母集団の性質(つまり母数)をより正確に表さなければ適切とは言えません。
したがって、次のような推定量の条件を定義します。
標本数 \( n \) の推定量を \( \hat{\theta}_n \) に対して、次が成り立つとき、 \( \hat{\theta}_n \) は母数 \( \theta \) の一致推定量といい、その条件のことを一致性という。
任意の \( \varepsilon>0 \) に対して、 \( n\to\infty \) のとき
$$ P(|\hat{\theta}_n-\theta|>\varepsilon)\to 0 $$
また、この収束のことを確率収束といい、 \( \hat{\theta}_n \overset{P}{\to} \theta \) と表す。
標本平均と標本分布は一致推定量であることを示しましょう。
\( X_1,\cdots,X_n \) を母平均 \( \mu \) 、母分散 \( \sigma^2 \) である母集団から抽出した標本とする。
また、標本平均を \( \displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i \) 、標本分散を \( \displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \) 、(不偏でない)標本分散を \( \displaystyle s^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \) とする。
このとき、 \( \overline{X} \) は \( \mu \) の一致推定量、 \( S^2,s^2 \) は \( \sigma^2 \) の一致推定量となる。
定理2の証明(気になる方だけクリックしてください)
大数の(弱)法則より、任意の \( \varepsilon>0 \) に対して、
$$ \lim_{n\to \infty}P(|\overline{X}-\mu|≧\varepsilon)=0 $$
となるので、 \( \overline{X} \) は \( \mu \) の一致推定量となります。
次に、(不偏でない)標本分散 \( s^2 \) を考えます。まず、 \( s^2 \) は
$$ \begin{align} s^2&=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2 \\ &=\frac{1}{n}\{(X_i-\mu)-(\overline{X}-\mu)\}^2 \\ &=\frac{1}{n}\sum_{i=1}^n\{ (X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2 \} \\ &=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-\frac{2}{n}(\overline{X}-\mu)\sum_{i=1}^n(X_i-\mu)+(\overline{X}-\mu)^2 \\ &=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)\left(\frac{1}{n}\sum_{i=1}^nX_i-\mu\right)+(\overline{X}-\mu)^2 \\ &=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-2(\overline{X}-\mu)^2+(\overline{X}-\mu)^2 \\ &=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2-(\overline{X}-\mu)^2 \end{align} $$
と変形することができます。
まず、第2項に関しては大数の(弱)法則より \( \overline{X}\overset{P}{\to}\mu \) であるので、
$$ (\overline{X}-\mu)^2\overset{P}{\to}0 $$
となります。
第1項に関しては \( \nu_i=(X_i-\mu)^2 \) とおくと \( X_1,\cdots,X_n \) の独立性から \( \mu_1,\cdots,\nu_n \) も互いに独立となります。
したがって、 \( E(\nu_i)=\sigma^2 \) に注意して、 \( \mu_i \) に対して大数の(弱)法則を用いると、任意の \( \varepsilon>0 \) に対して、
$$ \lim_{n\to \infty}P(|\overline{\nu}-\sigma^2|≧\varepsilon)=0, \quad \overline{\nu}=\frac{1}{n}\sum_{i=1}^n\nu_i=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 $$
となるので、 \( \overline{\nu}\overset{P}{\to} \sigma^2 \)
よって、 \( s^2\overset{P}{\to} \sigma^2 \) となるので、 \( s^2 \) は \( \sigma^2 \) の一致推定量となります。
\( S^2 \) についても同様に示せます。
今回はここまでです。お疲れ様でした。また次回にお会いしましょう。