新たなサンプルを抜き取った場合の予測値を求める(t分布)

確率・統計
(問題)
 ある機械で生産された \(5\) 個の製品の重量[\(\mathrm{g}\)]を測定したところ、
$$ 295, 305, 292, 288, 300$$であった。新たなサンプルの製品を1個抜き取ったときに、その製品の重さが \(300±5\) の範囲にある確率はいくらか。

 
 まず、よくある間違いについて。

標本の平均値 \(\overline{ X }\)は、
$$\overline{ X }=\frac{295+305+292+288+300}{5}=296$$ 不偏分散 \(s^{2}\) は、
$$s^{2}=\frac{(295-296)^{2}+\cdots+(300-296)^2}{5-1}=44.5$$ なので、標準偏差は \(s=\sqrt(44.5) \approx 6.67\) となる。よって、正規分布を考えて・・・

 上記が間違っている点は、平均値 \(\overline{ X }\) や不偏分散 \(s^{2}\) は、母平均や母分散そのものではなく、今回偶然得られた 推定値の1つ であるという点です。同様の測定を繰り返し、複数の推定値を得たならば、標本の平均や不偏分散はある分布に従うはずです。どのような分布に従うか確認していきましょう。

考え方

確率変数 \( X \) が正規分布\( N(\mu ,\sigma ^{2}) \) に従うとき、その平均値 \(\overline{ X }\) は、
$$\overline{ X }=\frac{X_{1}+X_{2}+\cdots+X_{n}}{n}$$ であり、\(X_{1} , X_{2} , \cdots , X_{n}\) がそれぞれ独立であることから、

\begin{align*}
E(\overline{ X })&=\frac{E(\overline{ X_{1} })}{n}+\frac{E(\overline{ X_{2} })}{n}+\cdots+\frac{E(\overline{ X_{n} })}{n}=n\cdot \frac{\mu}{n}=\mu\\\\
V(\overline{ X })&=\frac{E(\overline{ X_{1} })}{n^{2}}+\frac{E(\overline{ X_{2} })}{n^{2}}+\cdots+\frac{E(\overline{ X_{n} })}{n^2}=n\cdot \frac{\sigma ^{2}}{n^{2}}=\frac{\sigma^{2}}{n}
\end{align*}

となる。次に、確率変数 \( X-\overline{ X }\) について考えると、 \( X\) と \(\overline{ X }\) は独立なので、その期待値は

\begin{align*}
E(X-\overline{ X })&=E(X)-E(\overline{ X })=\mu-\mu=0
\end{align*}

であり、分散は

\begin{align*}
V(X-\overline{ X })&=V(X)+V(\overline{ X })=\sigma^{2}+\frac{\sigma^{2}}{n}=\left(1+\frac{1}{n}\right)\sigma^{2}
\end{align*}

である。つまり、確率変数

\begin{align*}
Z&=\frac{X-\overline{ X }}{\sqrt{\left( 1+\frac{1}{n}\right)\sigma^{2}}}
\end{align*}

が標準正規分布 \(N(0,12)\) に従う。この \(\sigma^{2}\) の代わりに分布をもった不偏分散 \(s^{2}\) を用いるとき、確率変数

\begin{align*}
t&=\frac{X-\overline{ X }}{\sqrt{\left( 1+\frac{1}{n}\right)s^{2}}}
\end{align*}

は自由度 \(n-1\) の\(t\) 分布に従うことが知られています。

最初の問題を解く

(問題)
 ある機械で生産された \(5\) 個の製品の重量[\(g\)]を測定したところ、$$ 295, 305, 292, 288, 300$$ であった。新たなサンプルの製品を1個抜き取ったときに、その製品の重さが \(300±5\) の範囲にある確率はいくらか。

 標本の平均値 \(\overline{ X }\)は、$$\overline{ X }=\frac{295+305+292+288+300}{5}=296,$$ 不偏分散 \(s^{2}\) は、
$$s^{2}=\frac{(295-296)^{2}+\cdots+(300-296)^2}{5-1}=44.5$$ なので

\begin{align*}
t&=\frac{X-296}{\sqrt{\left( 1+\frac{1}{5}\right)\times44.4}}=\frac{X-296}{\sqrt{\left(\frac{6}{5}\right)\times44.4}}
\end{align*}

であり、\(X=295,305\) に相当する \(t\) は、それぞれ \(t=−0.137,1.23\) であるから、自由度 4 \((=5-1)\) の \(t\) 分布を調べて、

\begin{align*}
P(X<295)&=P(t<−0.137)=0.370\\\\ P(X<305)&=P(t<1.23)=0.168 \end{align*}

なので、

\begin{align*}
P(295\leq X \leq 305)=1-(0.370+0.168)=0.463
\end{align*}

と求まる。よって、新たに抜き取った サンプル \(X\) が \(300±5\) に入る確率は、\(46.3%\) であり、\(53.7%\) は入らないということになる。

コメント

タイトルとURLをコピーしました