Tolkning av prediksjonsintervall

Hva er et prediksjonsintervall? Hvordan skal vi tolke et prediksjonsintervall? Definisjonen av et prediksjonsintervall går via et sannsynlighetsuttrykk, mens et prediksjonsintervall er et numerisk intervall på tallinja. For å gi en fornuftig tolkning av det numeriske prediksjonsintervallet må vi starte med sannsynlighetsuttrykket og bruke tolkningen vi har av sannsynlighet.

Tolkning av prediksjonsintervall

For å gi en korrekt tolkning av et prediksjonsintervall må man ta utgangspunkt i sannsynlighetsuttrykket \[\begin{align}&P\left(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n) \leq X^\star\leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\right) = 1 - \alpha,\end{align}\] og kombinere dette med vår tolkning av sannsynlighet. Vi tolker sannsynlighet for en hendelse \(A\) som den relative hyppigheten av hendelsen \(A\) når vi gjentar det stokastiske forsøket uendelig mange ganger.

Det stokastiske forsøket det er snakk om her er det at vi observerer verdiene \(x_1,x_2,\ldots,x_n\) for de stokastiske variablene \(X_1,X_2,\ldots,X_n\) og at vi observerer en verdi \(x^\star\) for den stokastiske variabelen \(X^\star\). Hendelsen det er snakk om er at den observerte verdien \(x^\star\) ligger inni prediksjonsintervallet. For å tolke prediksjonsintervallet må vi dermed tenke oss at vi gjentar det å observere verdier \(x_1,x_2,\ldots,x_n\) for \(X_1,X_2,\ldots,X_n\) og en verdi \(x^\star\) for \(X^\star\) uendelig mange ganger. Hver gang observerer vi altså nye verdier \(x_1,x_2,\ldots,x_n\) og får dermed et nytt prediksjonsintervall, og observerer en ny verdi \(x^\star\). Sannsynlighetsuttrykket over sier at for en andel \(1-\alpha\) av disse forsøkene vil \(x^\star\) ligge inne i prediksjonsintervallet.

I praksis gjør vi selvfølgelig forsøket bare en gang (og observerer kun verdiene \(x_1,x_2,\ldots,x_n\), men ikke \(x^\star\)!) og regner dermed bare ut et prediksjonsintervall. For dette prediksjonsintervallet har vi to muligheter for en fremtidig observasjon \(x^\star\), enten vil den fremtidige observasjonen \(x^\star\) ligge inne i intervallet eller så vil \(x^\star\) komme utenfor intervallet. Det finnes ikke noe sannsynlighetsuttrykk som sier noe om det spesielle prediksjonsintervallet vi fikk. Sannsynligheten \(1-\alpha\) er altså kun relatert til den prosedyren eller fremgangsmåten vi benytter for å komme frem til prediksjonsintervallet, ikke til det spesielle prediksjonsintervallet vi endte opp med.

Simuleringseksempel

En måte for å visualisere tolkningen av prediksjonsintervall diskutert over, er å benytte et dataprogram til å simulere observerte verdier \(x_1,x_2,\ldots,x_n\), regne ut tilhørende prediksjonsintervall fra disse, og så simulere en verdi \(x^\star\) for den fremtidige observasjonen. Vi kan da lett gjenta forsøket mange ganger, men bare et endelig antall ganger selvfølgelig. I figur 1 har vi tatt utgangspunkt i at \(X_i\)-ene er normalfordelte med forventningsverdi \(\mu=20\) og varians \(\sigma^2=5^2\). I hvert forsøk genererer vi først \(n=30\) observasjoner fra den spesifiserte normalfordelingen, betrakter så både \(\mu\) og \(\sigma^2\) som ukjente og regner ut et \(95\%\)-prediksjonsintervall for en fremtidig observasjon fra den samme normalfordelingen. Vi gjentar forsøket \(50\) ganger. Figur 1 viser de resulterende prediksjonsintervallene tegnet i blått. Den simulerte fremtidige observasjonen \(x^\star\) er vist som et rødt kryss. De samme verdiene \(x_1,x_2,\ldots,x_n\) er også benyttet til å regne ut et \(95\%\)-konfidensintervall for \(\mu\) og dette er tegnet i grønt sammen med tilhørende prediksjonsintervall. Den sanne verdien \(\mu=20\) er markert med en stiplet rød linje. Vi ser at \(47\) av de \(n=50\) prediksjonsintervallene inneholder den simulerte fremtidige obervasjonen \(x^\star\), mens \(48\) av de \(50\) konfidensintervallene inneholder den sanne verdien \(\mu=20\).

Figur 1: Illustrasjon av tolkningen av et prediksjonsintervall. Hvert horisontalt blå linjestykke representerer et prediksjonsintervall basert på \(n = 30\) observasjoner fra den spesifiserte normalfordelingen. Det rød krysset viser den simulerte verdien for en ny observasjon, \(x^\star\). For hvert prediksjonsintervall vises i grønt også et konfidensintervall for \(\mu\) basert på de samme \(n=30\) observasjonene. Den vertikale stipla rød linja viser den sanne verdien for \(\mu.\)