Prediksjonsintervall

På temasiden du ser på nå finner du en definisjon av prediksjonsintervall og en del diskusjon rundt denne definisjonen. På to relaterte temasider diskuteres henholdvis hvordan man kan beregne et prediksjonsintervall og hvilken tolkning et prediksjonsintervall har. Det finnes ulike innganger for å få en god forståelse av begrepet prediksjonsintervall. Man kan starte med å studere definisjonen som gis på temasiden du ser på nå, men mange vil nok oppfatte dette som litt abstrakt og kanskje noe vanskelig. En alternativ inngang til begrepet prediksjonsintervall er å starte med å studere et eksempel på utregning av et prediksjonsintervall. Etter å ha studert dette vil man være bedre rustet til å forstå den formelle definisjonen av prediksjonsintervall som vi diskuterer på temasiden du nå ser på.

Prediksjonsintervall

Vi starter med å gi en definisjon av prediksjonsintervall.

Prediksjonsintervall

Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) der sannsynlighetsfordelingen til disse kan avhenge av en eller flere parametre som vi ikke kjenner verdien til, og la \(x_1,x_2,\ldots,x_n\) betegne observerte verdier for de stokastiske variablene \(X_1,X_2,\ldots,X_n\). Anta videre at vi har en annen stokastisk variabel \(X^\star\) som representerer en fremtidig observasjon og sannsynlighetsfordelingen til denne avhenger av de samme ukjente parametrene. Anta så at vi for to observatorer \(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n)\) og \(\widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\) har at \[\begin{align}&P\left(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n) \leq X^\star \leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\right) = 1 - \alpha,\end{align}\] der \(\alpha \in (0,1)\). Det numeriske intervallet \[\left[\widehat{X}^\star_L(x_1,x_2,\ldots,x_n),\widehat{X}^\star_U(x_1,x_2,\ldots,x_n)\right]\] kalles da et \((1-\alpha)\cdot 100\%\)-prediksjonsintervall for \(X^\star\).

Kommentarer

Typiske verdier for \(\alpha\) er \(0.05\), \(0.10\) og \(0.01\). Hvis \(\alpha=0.05\) sier vi for eksempel at vi har et \(95\%\)-prediksjonsintervall.

I definisjonen over er \(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n)\) og \(\widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\) antatt å være observatorer. Dette innebærer at disse skal være observerbare, slik at når man har observert tallverdier \(x_1,x_2,\ldots,x_n\) for de stokastiske variablene \(X_1,X_2,\ldots,X_n\) skal man være i stand til å regne ut tallverdier for \(\widehat{X}^\star_L(x_1,x_2,\ldots,x_n)\) og \(\widehat{X}^\star_U(x_1,x_2,\ldots,x_n)\). Spesielt kan disse observatorene ikke være funksjoner av parametre som en ikke kjenner verdien til.

\(\widehat{X}^\star_L\) og \(\widehat{X}^\star_U\) er funksjoner av \(n\) variabler og vil typisk være definert ved formler. Hvis vi setter inn de stokastiske variablene \(X_1,X_2,\ldots,X_n\) i disse funksjonene blir resultatet stokastiske variabler, mens vi i stedet setter inn de observerte tallene \(x_1,x_2,\ldots,x_n\) får vi tall som resultat.

Et prediksjonsintervall er altså et numerisk intervall, så grensene i prediskjonsintervallet er tall. Prediksjonsintervallet må ikke forveksles med \[\left[\hat{X}^\star_L(X_1,X_2,\ldots,X_n),\hat{X}^\star_U(X_1,X_2,\ldots,X_n)\right],\] der grensene er observatorer (og dermed stokastiske variabler). Forskjellen mellom et prediksjonsintervall og det stokastiske intervallet er helt tilsvarende som forskjellen mellom et konfidensintervall og en intervallestimator, se derfor diskusjonen om dette under temaet konfidensintervall.

Tolkning av prediksjonsintervall

For å gi en korrekt tolkning av et konfidensintervall må man ta utgangspunkt i sannsynlighetsuttrykket \[\begin{align}&P\left(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n) \leq X^\star\leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\right) = 1 - \alpha,\end{align}\] og kombinere dette med vår tolkning av sannsynlighet. En nærmere diskusjon av dette er gitt på en egen temaside.

Utregning av prediksjonsintervall

For å regne ut et prediksjonsintervall må man først finne formler for observatorer \(\widehat{\theta}^\star_L(X_1,X_2,\ldots,X_n)\) og \(\widehat{\theta}^\star_U(X_1,X_2,\ldots,X_n)\) slik at \[\begin{align}&P\left(\widehat{X}^\star_L(X_1,X_2,\ldots,X_n) \leq X^\star\leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n)\right) = 1 - \alpha.\end{align}\] Deretter finner man prediksjonsintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med de observerte verdiene \(x_1,x_2,\ldots,x_n\) i formlene for disse to observatorene. En trinn-for-trinn beskrivelse av denne regneprosedyren er diskutert på en egen temaside.