Regneprosedyre: Utlede konfidensintervall

Regneregel

I definisjonen av et konfidensintervall angis det at man må finne to observatorer som skal oppfylle et spesielt sannsynlighetsuttrykk. Definisjonen sier ingenting om hvordan man kan finne observatorer som oppfyller kravet. På temasida du nå ser på nå formulerer vi prosedyren som vanligvis brukes for å regne ut et konfidensintervall, inkludert utledning av formler for de to observatorene.

Situasjon

Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) der sannsynlighetsfordelingen for disse inneholder en parameter \(\theta\), og der verdien til denne parameteren er ukjent. La \(x_1,x_2,\ldots,x_n\) betegne observerte verdier for de stokastiske variablene \(X_1,X_2,\ldots,X_n\). Vi ønsker nå å benytte de observerte verdiene \(x_1,x_2,\ldots,x_n\) til å finne et \((1-\alpha)\cdot 100\%\)-konfidensintervall for \(\theta\).

Beregningsprosedyre

Fremgangsmåten for å finne et konfidensintervall er som følger.

  1. Finn en stokastisk variabel \[ Z = h(X_1,X_2,\ldots,X_n,\theta)\] som kun er en funksjon av \(X_1,X_2,\ldots,X_n\) og den ukjente verdien til \(\theta\), og som har en kjent sannsynlighetsfordeling \(f_Z(z)\) som ikke avhenger av verdien til parameteren \(\theta\) eller andre parametre man ikke kjenner verdien til. Mange tekster kaller \(h(X_1,X_2,\ldots,X_n,\theta)\) for en pivotal. Ofte kan man finne en slik pivotal ved først å finne a) en estimator \(\widehat{\theta}\) for \(\theta\), og så b) standardisere denne slik at dens fordelingen ikke avhenger av verdien til \(\theta\). Hvis \(\widehat{\theta}\) er normalfordelt kan man for eksempel standardisere ved å trekke fra forventningsverdien til \(\widehat{\theta}\) og dele på standardavviket til \(\widehat{\theta}\).
  2. Finn \(\frac{\alpha}{2}\)-kvantilen, \(z_{1-\frac{\alpha}{2}},\) og \((1-\frac{\alpha}{2})\)-kvantilen, \(z_{\frac{\alpha}{2}},\) i fordelinga til \(Z\), som illustrert i figur 1. Dermed har man at \[\begin{align} &P\left( z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,\theta)\leq z_{\frac{\alpha}{2}}\right) = 1 - \alpha.\end{align}\]
  3. Løs de to ulikhetene \[ z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,\theta)\] og \[h(X_1,X_2,\ldots,X_n,\theta) \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(\theta\), og sett så de to ulikhetene sammen igjen slik at du får \(\theta\) alene i midten. Dermed får man et sannsynlighetsuttrykk på formen \[\begin{align} &P\left( \widehat{\theta}_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}) \leq \theta\leq \widehat{\theta}_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right) = 1-\alpha\end{align}\] og intervallestimatoren blir \[\begin{align} &\left[ \widehat{\theta}_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}),\widehat{\theta}_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\end{align}\]
  4. Man får da konfidensintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med tilhørende observerte verdier \(x_1,x_2,\ldots,x_n\) i utrykket for intervallestimatoren, dvs. \((1-\alpha)\cdot 100\%\)-konfidensintervall for \(\theta\) blir \[\begin{align} &\left[ \widehat{\theta}_L(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}),\widehat{\theta}_U(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\end{align}\]
Figur 1: Illustrasjon av kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}\) som brukes i punkt 2 i prosedyren for å bestemme et konfidensintervall.

Kommentarer

For å beregne numeriske verdier for intervallgrensene i konfidensintervallet utledet i beregningsprosedyren gitt over trenger man å bestemme numerisk verdi for kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}.\) For noen sannsynlighetsfordelinger kan disse finnes analytisk, men dersom \(Z\) er for eksempel standard normal-, T- eller kjikvadratfordelt må man enten finne disse verdiene fra en tabell hvor slike verdier er tabulert eller man må bruke et dataprogram hvor utregning av slik kvantiler er implementert.

Dersom fordelingen til \(Z\) er symmetrisk omkring \(z=0\) har man dessuten at \(z_{1-\frac{\alpha}{2}}=-z_{\frac{\alpha}{2}}\). Dette er blant annet tilfelle når \(Z\) er standard normal- eller T-fordelt.

Eksempel

En detaljert utledning av et konfidensintervall, hvor prosedyren spesifisert over er benyttet, finnes på temasiden: