確率・統計(統計検定2級対応)15：母集団と標本分布

2023年9月12日2024年3月25日

こんにちは、ひかりです。

今回は確率・統計から母集団と標本分布について解説していきます。

この記事では以下のことを紹介します。

母集団と標本について
実験研究・観察研究と抽出方法について
標本分布と標本平均・標本分散について

母集団と標本

統計学において考察の対象となっている集団のことを母集団といいます。

その母集団に対して何かしらの調査を行おうと思ったときに、次の2つの調査が考えられます。

一つ目は、母集団のすべてに対して調査を行いその調査結果から知りたい結果を得る方法です。

これを全数調査といい、例としては日本全体で5年ごとに行われる国勢調査が挙げられます。

ただし、この調査の難点として調査したい母集団の数が多すぎた場合にはコストがかかりすぎてしまうということがあります。

(国勢調査の場合は、日本全体の人口の数を確定させる目的があるため、コストがいくらかかったとしても全数調査をせざるを得ません。)

この難点を回避するために、行われる調査が二つ目の調査である標本調査になります。

これは母集団の一部分だけを取り出して調査をして、その結果から母集団全体を推測するというものです。

このとき、母集団のなかから調査のために取り出させた要素を標本といい、標本を選び出すことを抽出といいます。

パラメトリックとノンパラメトリック

では、調査を統計的にすることにより母集団のどういう情報が得られるのでしょうか。

それは母集団の各要素が従う確率分布になり、これを母集団分布といいます。

母集団から標本 $ X_1,\cdots,X_n $ をランダムに抽出すると、 $ X_1,\cdots,X_n $ は互いに独立でこの母集団分布に従う確率変数であると考えられます。

この標本から母集団分布を推測していくわけですが、事前の仮定によって状況は次の2つに分けられます。

1つめは母集団分布が何かしらの代表的な確率分布に従うということが経験的に分かっている場合です。

例えば、母集団が経験的に正規分布 $ N(\mu,\sigma^2) $ に従うことがわかっていたとします。

すると、推測の目的は、標本 $ X_1,\cdots,X_n $ を互いに独立で正規分布に従う確率変数であるとしたときに、正規分布のパラメーターである $ \mu,\sigma^2 $ をある程度の精度で評価するということになります。

このようにいくつかのパラメーターを知ることができれば母集団分布のすべてを特定することができる状況のことをパラメトリックな場合といいます。

2つめは母集団分布が事前にわからない場合です。

この場合はいくつかのパラメーターにより母集団分布を特定することができない状況であり、これをノンパラメトリックな場合といいます。

このときの推測の目的は、母集団の平均、分散、歪度、尖度などを考えて、確率分布の形をある程度の精度で評価するということになります。

ノンパラメトリックの場合の統計は非常に難しいので、このシリーズではパラメトリックな場合のみを扱います。

実験研究・観察研究と抽出方法

実験研究とフィッシャーの三原則

統計データの収集方法には実験研究と観察研究の2つに分類されます。

データの生成に自らが関与することができるときに行う方法が実験研究となります。

例1

ある病気に対する新薬の死亡リスクの減少効果を研究するときに、患者を2つのグループに分けて実験を行う。

一つは新薬が与えられるグループ(処理群もしくは実験群という)、もう一つは偽薬(プラセボ)が与えられるグループ(対照群という)である。

この場合、患者をどちらのグループに振り分けるかは自らが関与することができる。

このときは患者はランダムに(たとえばコイン投げなどで)振り分けられる。

これをランダム化実験ともいう。

ランダム化実験をする際に、重要となる原理がフィッシャーの三原則となります。

無作為化(ランダム化)
繰り返し
局所管理(ブロック化)

例2

例1の状況を考える。これをフィッシャーの三原則にそってランダム化実験をしてみる。

まず、一概にその病気の患者といえど、病気の進行度によって死亡リスクは変わっていく。

このとき、それを考慮することなくグループ分けをしてしまったら、処理群のほうに進行度の浅い患者、対照群のほうに進行度が深い患者が分けられてしまう可能性を含むことになる。

すると、新薬の効果がないにもかかわらず、死亡リスクが減少したという結果が出てきてしまう。

そのため、まず病気の進行度に応じてブロック分けを行う。(これを局所管理という)

そして、それぞれのブロックごとにランダムにグループ分けをする。(これを無作為化という)

さらに、この一連の研究を一度ではなく何度か繰り返し行うことにより多くのデータを集めることができる。(これを繰り返しという)

観察研究

もう一つの統計データの収集方法として、データの生成に自らが関与することができないときに発生したデータを観察する観察研究があります。

例3

うつ病における睡眠時間への影響を研究するときに、被験者を2つのグループに分けて実験を行う。

一つはうつ病である人のグループ(処理群)、もう一つはうつ病でない人のグループ(対照群)である。

この場合、被験者をどちらのグループに振り分けるかは自らが関与することができない。

(被験者を処理群にグループ分けしたいがために、うつ病になれとはいえないため)

観察研究の場合は、フィッシャーの三原則のうち無作為化が満たされないことになります。

(被験者をグループ分けするのにランダム性はなく、被験者自らで選ばなければならないため)

そのため、観察研究で得られたデータに基づいて因果関係を述べるときには注意を払う必要があります。

例4

日焼け止めの利用とガンについての観測研究を行ったところ、日焼け止めをより利用した人の方がガンになりやすいことがわかった。

では、このとき、日焼け止めを使うとガンになりやすいという因果関係があるといえるかというと、そんなことはない。

これは日焼け止めをよく利用する人の方が太陽の光を浴びる時間が長いことが原因として挙げられる。

さまざまな抽出方法

それでは具体的にどのようにして母集団から標本を抽出したらよいのかについて4つの方法を紹介します。

(1)　単純無作為抽出法

母集団の各要素が等確率で選び出されるようにして、母集団から標本を抽出する一番単純な方法になります。

選び方には、乱数表やコイン投げなどが用いられます。

ただし、母集団が大きすぎて母集団すべてからランダムに標本を抽出することが難しい場合は別の方法がとられます。

(2)　系統抽出法

単純無作為抽出法をもう少し簡単にした方法となります。

具体的には、母集団の各要素に番号を付けて、1つランダムに番号を選んで1つ目の標本を抽出した後は、等間隔の番号(たとえば5つ飛ばしでとるなど)の要素を標本として抽出していきます。

(3)　層化抽出法(層別抽出法)

母集団を性別や職業などの各要素の特性によっていくつかの層(グループ)に分けて、各層から標本を抽出する方法を層化抽出法または層別抽出法といいます。

もし、各層の標本を単純無作為抽出法にて抽出するとき層化無作為抽出法といい、各層の大きさに比例して抽出する標本の大きさを決めるとき比例抽出法といいます。

(4)　多段抽出法とクラスター(集落)抽出法

母集団が大きすぎて母集団すべてからランダムに標本を抽出することが難しいときなどに、いったん母集団をクラスター(集落)とよばれる多くのグループに分けて、母集団からクラスター単位で無作為に抽出を行うことを考えます。

その選ばれたクラスターの中にあるすべての要素を標本とすることをクラスター(集落)抽出法といいます。

この場合は、コストが比較的安く標本を抽出することができるが精度が低下することに注意してください。

一方で、選ばれたクラスターの中でさらに無作為抽出を行う(場合によってはクラスターの中にさらにクラスターを作りクラスター単位で抽出することを繰り返す)ことを多段抽出法といいます。

ただし、抽出する回数(段数という)が多くなるほど精度が悪くなることに注意してください。

その場合、層化抽出法などと組み合わせた層化多段抽出法などを採用して精度をあげることも考える必要があります。

標本分布と標本平均・標本分散

母集団分布を特定するために推測するパラメーター(母数といいます)は、主に母集団の平均(母平均) $ \mu $ と母集団の分散(母分散) $ \sigma^2 $ となります。

なぜなら、母平均と母分散が推測できれば、だいたいの確率分布の形を知ることができるからです。

(正規分布であれば完全に特定できますし、正規分布でなかったとしても母集団の要素数が十分大きければ中心極限定理より正規分布で近似することができます)

そのために母集団から抽出した標本 $ X_1,\cdots,X_n $ (初めの議論より互いに独立で同じ分布に従っていると考えます)に対して、次を定義します。

定義1 (標本平均・標本分散)

互いに独立で同じ分布に従っている標本 $ X_1,\cdots,X_n $ に対して、標本平均 $ \overline{X} $ と標本分散 $ S^2 $ を次で定める。

$$ 標本平均 \ \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i $$

$$ 標本分散 \ S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 $$

標本分散の割る数は $ n $ ではなく $ n-1 $ であることに注意してください。理由としては、標本分散の期待値 $ E(S^2) $ が母分散 $ \sigma^2 $ に一致するためです。(定理1をご覧ください。)

標本平均と標本分散のような標本 $ X_1,\cdots,X_n $ から得られる母集団のさまざまな推測に用いられるものを統計量といい、 $ T(X_1,\cdots,X_n) $ と表します。

$ T(X_1,\cdots,X_n) $ もまた確率変数であり、統計量が従う分布のことを標本分布といいます。

標本平均と標本分散の期待値や分散を求めてみましょう。

定理1 (標本平均と標本分散の期待値・分散)

母平均 $ \mu $ 、母分散 $ \sigma^2 $ をもつ母集団から抽出した互いに独立な標本 $ X_1,\cdots,X_n $ に対して、標本平均を $ \overline{X} $ 、標本分散を $ S^2 $ とおくと、次が成り立つ。

$$ E(\overline{X})=\mu, \quad V(\overline{X})=\frac{\sigma^2}{n}, \quad E(S^2)=\sigma^2 $$

もし標本分散を $ \displaystyle s^2=\frac{1}{n}\sum_{i=1}^nX_i $ で定めた場合は $ E(s^2)=\frac{n-1}{n}\sigma^2 $ となります。この場合、抽出する標本の数 $ n $ が小さいほどこの標本分散は母分散から大きくずれることになります。

定理1の証明(気になる方だけクリックしてください)

$$ E(X_i)=\mu, \quad V(X_i)=\sigma^2 \quad (i=1,2,\cdots,n) $$

であり、 $ X_i $ は互いに独立であるので、確率・統計09の定理2と確率・統計09の定理3より、

$$ E(\overline{X})=E\left( \frac{1}{n}\sum_{i=1}^nX_i \right)=\frac{1}{n}\sum_{i=1}^nE(X_i)=\mu $$

$$ V(\overline{X})=V\left( \frac{1}{n}\sum_{i=1}^nX_i \right)=\frac{1}{n^2}\sum_{i=1}^nV(X_i)=\frac{\sigma^2}{n} $$

$$ \begin{align} E(S^2)&=E\left( \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \right)=\frac{1}{n-1}\sum_{i=1}^nE[(X_i-\overline{X})^2] \\ &=\frac{1}{n-1}\sum_{i=1}^nE[\{(X_i-\mu)-(\overline{X}-\mu)\}^2] \\ &=\frac{1}{n-1}\sum_{i=1}^nE[(X_i-\mu)^2-2(X_i-\mu)(\overline{X}-\mu)+(\overline{X}-\mu)^2] \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nE[(X_i-\mu)^2]-2nE\left[\left(\frac{1}{n}\sum_{i=1}^nX_i-\mu\right)(\overline{X}-\mu)\right]+\sum_{i=1}^nE[(\overline{X}-\mu)^2] \right\} \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nE[(X_i-\mu)^2]-2nE[(\overline{X}-\mu)^2]+nE[(\overline{X}-\mu)^2] \right\} \\ &=\frac{1}{n-1}\left\{ \sum_{i=1}^nV(X_i)-nV(\overline{X}) \right\} \\ &=\frac{1}{n-1}(n\sigma^2-\sigma^2)=\sigma^2 \end{align} $$

例5

正規母集団 $ N(50,20^2) $ から16個の標本 $ X_1,\cdots,X_{16} $ を抽出したとき、標本平均 $ \overline{X} $ の平均と分散を求める。

定理1より、

$$ E(\overline{X})=50, \quad V(\overline{X})=\frac{20^2}{16}=25 $$

今回はここまでです。お疲れ様でした。また次回にお会いしましょう。

確率・統計(統計検定2級対応)16：カイ2乗分布・t分布・F分布