Regneprosedyre: Utlede prediksjonsintervall

Regneregel

I definisjonen av et prediksjonsintervall angis det at man må finne to observatorer som skal oppfylle et spesielt sannsynlighetsuttrykk. Definisjonen sier ingenting om hvordan man kan finne observatorer som oppfyller kravet. På temasida du nå ser på formulerer vi prosedyren som vanligvis brukes for å regne ut et prediksjonsintervall, inkludert utledning av formler for de to observatorene.

Situasjon

Anta at vi har stokastiske variabler \(X_1,X_2,\ldots,X_n\) der sannsynlighetsfordelingen for disse kan inneholde en eller flere parametre som vi ikke kjenner verdien til, og la \(x_1,x_2,\ldots,x_n\) betegne observerte verdier for de stokastiske variablene \(X_1,X_2,\ldots,X_n\). Anta videre at vi har en annen stokastisk variabel \(X^\star\) som representerer en fremtidig observasjon og sannsynlighetsfordelingen til denne avhenger også av de samme ukjente parametrene. Vi ønsker nå å benytte de observerte verdiene \(x_1,x_2,\ldots,x_n\) til å finne et \((1-\alpha)\cdot 100\%\)-prediksjonsintervall for den fremtidige observasjonen \(X^\star\).

Beregningsprosedyre

Fremgangsmåten for å finne et slikt prediksjonsintervall er som følger.

Bestem er stokastisk variabel \[ Z = h(X_1,X_2,\ldots,X_n,X^\star)\] som kun er en funksjon av \(X_1,X_2,\ldots,X_n\) og den fremtidige observasjonen \(X^\star\), og som har en kjent sannsynlighetsfordeling \(f_Z(z)\) som ikke avhenger av verdien til de ukjente parametrene.
Finn \(\frac{\alpha}{2}\)-kvantilen \(z_{1-\frac{\alpha}{2}}\) og \((1-\frac{\alpha}{2})\)-kvantilen \(z_{\frac{\alpha}{2}}\) i fordelinga til \(Z\), som illustrert i figur 1. Dermed har man at \[\begin{align} &P\left( z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,X^\star) \leq z_{\frac{\alpha}{2}}\right) = 1 - \alpha.\end{align}\]
Løs de to ulikhetene \[ z_{1-\frac{\alpha}{2}} \leq h(X_1,X_2,\ldots,X_n,X^\star)\] og \[h(X_1,X_2,\ldots,X_n,X^\star) \leq z_{\frac{\alpha}{2}}\] hver for seg med hensyn på \(X^\star\), og sett så de to ulikhetene sammen igjen slik at du får \(X^\star\) alene i midten. Dermed får man et sannsynlighetsuttrykk på formen \[\begin{align}&P\!\left( \widehat{X}^\star_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}) \leq X^\star \leq \widehat{X}^\star_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right) = 1-\alpha\end{align}\] og det stokastiske intervallet blir \[\begin{align} &\left[ \widehat{X}^\star_L(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}),\widehat{X}^\star_U(X_1,X_2,\ldots,X_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\end{align}\]
Man får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(X_1,X_2,\ldots,X_n\) med tilhørende observerte verdier \(x_1,x_2,\ldots,x_n\) i utrykket for det stokastiske intervallet, dvs. \((1-\alpha)\cdot 100\%\)-prediksjonsintervall for \(X^\star\) er \[\begin{align} &\left[ \widehat{X}^\star_L(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}}),\widehat{X}^\star_U(x_1,x_2,\ldots,x_n,z_{\frac{\alpha}{2}},z_{1-\frac{\alpha}{2}})\right].\end{align}\]

Figur 1:Illustrasjon av kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}\) som brukes i punkt 2 i prosedyren for å bestemme et prediksjonsintervall.

Kommentarer

For å beregne numeriske verdier for intervallgrensene i prediksjonsintervallet utledet i beregningsprosedyren gitt over trenger man å bestemme numerisk verdi for kvantilene \(z_{1-\frac{\alpha}{2}}\) og \(z_{\frac{\alpha}{2}}.\) For noen sannsynlighetsfordelinger kan disse finnes analytisk, men dersom \(Z\) er for eksempel standard normal-, T- eller kjikvadratfordelt må man enten finne disse verdiene fra en tabell hvor slike verdier er tabulert eller man må bruke et dataprogram hvor utregning av slik kvantiler er implementert.

Dersom fordelingen til \(Z\) er symmetrisk omkring \(z=0\) har man dessuten at \(z_{1-\frac{\alpha}{2}}=-z_{-\frac{\alpha}{2}}\). Dette er blant annet tilfelle når \(Z\) er standard normal- eller T-fordelt.

Eksempel

En detaljert utledning av et prediksjonsintervall, hvor prosedyren spesifisert over er benyttet, finnes på temasiden:

Utlede prediksjonsintervall i normalfordeling, ukjent forventning og kjent varians