Utlede prediksjonsintervall i normalfordeling, ukjent forventning og kjent varians

Eksempel

Vi har formulert en generell regneprosedyre for å finne et prediksjonsintervall i en gitt situasjon. På siden du ser på nå anvendes denne prosedyren for å bestemme et prediksjonsintervall for \(\mu\) i en normalfordeling når variansen \(\sigma^2\) har en kjent verdi. Detaljerte utregninger vises skritt for skritt slik de er beskrevet i den generelle regneprosedyren.

Utlede prediksjonsintervall i normalfordeling, ukjent forventning og kjent varians

Anta at \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra en \(n(x;\mu,\sigma)\)-fordeling der verdien til forventningsverdien \(\mu\) er ukjent, mens verdien til variansen \(\sigma^2\) er kjent. Vi skal utlede en formel for et \(95\%\)-prediksjonsintervall for en ny observasjon \(X^\star\) fra samme fordeling \(n(x^\star;\mu,\sigma)\), der vi antar at \(X^\star\) er uavhengig av \(X_1,X_2,\ldots,X_n\). Detaljerte utregninger vises skritt for skritt slik de er beskrevet i den generelle regneprosedyren.

  1. For å finne en stokastisk variabel \(Z=h(X_1,X_2,\ldots,X_n,X^\star)\) kan vi først merke oss at \(\mbox{E}[X^\star]=\mu\) og at en forventningsrett estimator for \(\mu\) er \(\widehat{\mu}=\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\). Dermed har vi at \(\mbox{E}[X^\star-\bar{X}]=0\). Dessuten er \(X^\star-\bar{X}\) normalfordelt fordi den er en lineær funksjon av de uavhengige og normalfordelte \(X_1,X_2,\ldots,X_n,X^\star\). Vi standardiserer så \(X^\star-\bar{X}\) ved å trekke fra forventningsverdien \(\mbox{E}[X^\star-\bar{X}]=0\) og dele på standardavviket til \(X^\star-\bar{X}\) og får da en standard normalfordelt størrelse. For å gjøre dette må vi først finne uttrykk for variansen til \(X^\star-\bar{X}\), \[\begin{align} \mbox{Var}&[X^\star-\bar{X}] = \mbox{Var}\!\left[ X^\star - \frac{1}{n}\sum_{i=1}^n X_i\right]\\ &= \mbox{Var}[X^\star] + \left(-\frac{1}{n}\right)^2 \mbox{Var}\!\left[\sum_{i=1}^n X_i\right]\\ &= \sigma^2 + \frac{1}{n^2} \sum_{i=1}^n \mbox{Var}[X_i]\\ &= \sigma^2 + \frac{1}{n^2}\sum_{i=1}^n \sigma^2\\ &= \sigma^2 + \frac{1}{n^2}\cdot n\sigma^2\\ &= \sigma^2\cdot \left(1+\frac{1}{n}\right).\end{align}\] Den standardiserte størrelsen blir da \[\begin{align} Z &= \frac{(X^\star-\bar{X}) - \mbox{E}[X^\star-\bar{X}]}{\sqrt{\mbox{Var}[X^\star-\bar{X}]}}\\ &= \frac{(X^\star-\bar{X})-0}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}}\\ &= \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}}.\end{align}\] Vi har dermed at \[ \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}}\sim n(z;0,1).\]
  2. Siden vi skal finne et \(95\%\)-prediksjonsintervall er \(\alpha=0.05\), og siden sannsynlighetstettheten til en standard normalfordeling er symmetrisk om \(z=0\) er \(z_{1-\frac{\alpha}{2}}=-z_{\frac{\alpha}{2}}\), som illustrert i figur 1. Fra en tabell over kvantiler i en standard normalfordeling finner vi at \(z_{\frac{\alpha}{2}}=z_{0.025} = 1.96\), og vi har \[ P\left(-z_{\frac{\alpha}{2}} \leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \leq z_{\frac{\alpha}{2}}\right) = 1-\alpha.\]
  3. Vi må dermed løse ulikehetene \[-z_{\frac{\alpha}{2}} \leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}}\] og \[\frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(X^\star\). Den første ulikheten gir \[\begin{align} -z_{\frac{\alpha}{2}} &\leq \frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}}\\ -z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)} &\leq X^\star - \bar{X}\\ \bar{X}-z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)} &\leq X^\star.\end{align}\] Den andre ulikheten gir tilsvarende \[\begin{align}\frac{X^\star-\bar{X}}{\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}} &\leq z_{\frac{\alpha}{2}}\\ X^\star - \bar{X} &\leq z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(\frac{1}{n}\right)}\\ X^\star &\leq \bar{X} + z_{\frac{\alpha}{2}} \sqrt{\sigma^2\left(1+\frac{1}{n}\right)}.\end{align}\] Setter vi de to ulikhetene sammen igjen med den fremtidige observasjonen \(X^\star\) i midten får vi \[\begin{align} &P\left( \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \leq X^\star\leq \bar{X}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)} \right) = 1-\alpha,\end{align}\] slik at det stokastiske intervallet blir \[\begin{align} &\left[ \bar{X}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)},\bar{X}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}\ \right].\end{align}\]
  4. Vi får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med de observerte verdiene \(x_1,x_2,\ldots,x_n\), dvs vi må erstatte \(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\) med \(\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\) i det stokastiske intervallet. Prediksjonsintervallet blir dermed \[\begin{align} &\left[ \bar{x}-z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}, \bar{x}+z_{\frac{\alpha}{2}}\sqrt{\sigma^2\left(1+\frac{1}{n}\right)}\right],\end{align}\] der vi husker at \(z_{\frac{\alpha}{2}}=z_{0.025}=1.96\) siden vi skal ha et \(95\%\)-prediksjonsintervall.
Figur 1: Illustrasjon av at \(z_{1-\frac{\alpha}{2}} = - z_{\frac{\alpha}{2}}\) i en standard normalfordeling siden fordelingen er symmetrisk om null.