Tolkning av konfidensintervall

Hva er et konfidensintervall? Hvordan skal vi tolke et konfidensintervall? Definisjonen av et konfidensintervall går via et sannsynlighetsuttrykk, mens et konfidensintervall er et numerisk intervall på tallinja. For å gi en fornuftig tolkning av det numeriske konfidensintervallet må vi starte med sannsynlighetsuttrykket og bruke tolkningen vi har av sannsynlighet.

Tolkning av konfidensintervall

For å gi en korrekt tolkning av et konfidensintervall må man ta utgangspunkt i sannsynlighetsuttrykket \[\begin{align} &P\left(\widehat{\theta}_L(X_1,X_2,\ldots,X_n) \leq \theta \leq \widehat{\theta}_U(X_1,X_2,\ldots,X_n)\right) = 1 - \alpha,\end{align}\] og kombinere dette med vår tolkning av sannsynlighet. Vi tolker sannsynlighet for en hendelse \(A\) som den relative hyppigheten av hendelsen \(A\) når vi gjentar det stokastiske forsøket uendelig mange ganger.

Det stokastiske forsøket det er snakk om her er det at vi observerer verdiene \(x_1,x_2,\ldots,x_n\) for de stokastiske variablene \(X_1,X_2,\ldots,X_n\) og hendelsen er at den sanne (ukjente) verdien til \(\theta\) ligger inni konfidensintervallet. For å tolke sannsynlighetsuttrykket over må vi dermed tenke oss at vi gjentar det å observere verdier \(x_1,x_2,\ldots,x_n\) for \(X_1,X_2,\ldots,X_n\) og regner ut tilhørende konfidensintervall uendelig mange ganger. Hver gang observerer vi altså nye verdier \(x_1,x_2,\ldots,x_n\) og får et nytt konfidensintervall, mens verdien til \(\theta\) er et tall og dermed lik for alle forsøkene. Vi får dermed uendelig mange konfidensintervall og sannsynlighetsuttrykket over sier at for en andel \(1-\alpha\) av disse ligger \(\theta\) inne i konfidensintervallet.

I praksis gjør vi selvfølgelig forsøket bare en gang og regner dermed bare ut et konfidensintervall. For dette konfidensintervallet har vi to muligheter, enten ligger \(\theta\) inne i intervallet eller så ligger \(\theta\) utenfor intervallet, og vi vet ikke hvilken av disse som er korrekt. Det finnes ikke noe sannsynlighetsuttrykk som sier noe om det spesielle konfidensintervallet vi observerer. Sannsynligheten \(1-\alpha\) er kun relatert til den prosedyren eller fremgangsmåten vi benytter for å komme frem til konfidensintervallet, ikke til det spesielle konfidensintervallet vi endte opp med.

Simuleringseksempel

En måte for å visualisere tolkningen av konfidensintervall diskutert over, er å benytte et dataprogram til å simulere observerte verdier \(x_1,x_2,\ldots,x_n\) og regne ut tilhørende konfidensintervall. Vi kan da lett gjenta forsøket mange ganger, men selvfølgelig bare et endelig antall ganger. I figur 1 har vi tatt utgangspunkt i at \(X_i\)-ene er normalfordelte med forventningsverdi \(\mu=20\) og varians \(\sigma^2=5^2\). I hvert forsøk genererer vi først \(n=30\) observasjoner fra den spesifiserte normalfordelingen, betrakter så både \(\mu\) og \(\sigma^2\) som ukjente og regner ut et \(95\%\)-konfidensintervall for \(\mu\). Vi gjentar forsøket \(50\) ganger. Figur 1 viser de resulterende konfidensintervallene (i blått), og siden dette er et simuleringsforsøk slik at vi faktisk kjenner den sanne verdien til \(\mu\) er denne markert med en stipla rød linje. Vi ser at \(48\) av de \(n=50\) konfidensintervallene inneholder den sanne verdien \(\mu=20\).

Figur 1: Illustrasjon av tolkningen av et konfidensintervall. Hvert horisontalt blå linjestykke representerer et konfidensintervall for \(\mu\) basert på \(n=30\) observasjoner fra den spesifiserte normalfordelingen. Den vertikale stipla rød linja viser den sanne verdien for \(\mu.\)