Prediksjon og prediksjonsintervall i enkel lineær regresjon

Prediksjon i en regresjonssituasjon vil si at vi basert på observasjonsparene \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\) ønsker å predikere eller forutsi hvilken verdi \(y_0\) man (en gang i fremtiden) vil observere eller måle dersom vi velger å gjøre en observasjon med \(x=x_0\). Alternativt kan man lage et prediksjonsintervall for den samme størrelsen. På temasiden du ser på nå diskuterer vi hvordan det er naturlig å predikere \(y_0\) og vi benytter regneprosedyre for å utlede prediksjonsintervall til å utlede et prediksjonsintervall for en slik fremtidig observasjon \(y_0\).

Prediksjon i enkel lineær regresjon

Når vi skal predikere en fremtidig observasjon \(y_0\) tar vi utgangspunkt i den estimerte regresjonslinja \(y=\widehat{\beta}_0+\widehat{\beta}_1x\) slik at predikert verdi blir \[\widehat{y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0.\] I figur 1 er dette illustrert for \(x_0=2.4\). De observerte punktene er vist i rødt og estimerte regresjonslinje er vist i blått.

Figur 1: Illustrasjon av prediksjon i enkel lineær regresjonsmodell.

Prediksjonsintervall i enkel lineær regresjon

For å utlede et prediksjonsintervall for en fremtidig observasjon \(y_0\) betrakter vi denne observasjonen som en realisasjon av en tilsvarende stokastisk variabel \(Y_0\). Modellantagelsene gir oss at \(Y_0\) er normalfordelt med forventningsverdi \(\mbox{E}[Y_0] = \beta_0+\beta_1x_0\) og varians \(\mbox{Var}[Y_0]=\sigma^2\). Prediksjonen \(\widehat{y}_0\) er tilsvarende en realisasjon av den stokastiske variabelen \[\widehat{Y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0,\] der \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er våre estimatorer for henholdsvis \(\beta_0\) og \(\beta_1\). Vi tar så utgangspunkt i differansen \[Y_0-\widehat{Y}_0 = Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0.\]

Siden estimatorene \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er lineære funksjoner av \(Y_1,Y_2,\ldots,Y_n\) blir differansen \(Y_0-\widehat{Y}_0\) en lineær funksjon av \(Y_1,Y_2,\ldots,Y_n\) og \(Y_0\). I vår modell har vi antatt at disse \(Y_i\)'ene er uavhengige og normalfordelte og dermed blir også \(Y_0-\widehat{Y}_0\) normalfordelt. Ved å benytte kjente regneregler for forventningsverdi av en lineær funksjon og regneregler for varians til en lineær funksjon kan vi finne \(\mbox{E}\!\left[Y_0-\widehat{Y}_0\right]\) og \(\mbox{Var}\!\left[Y_0-\widehat{Y}_0\right]\). Ved å benytte at \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) er forventningsrette får vi \begin{align}\mbox{E}\!\left[Y_0-\widehat{Y}_0\right] &= \mbox{E}\!\left[Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0\right]\\ &= \mbox{E}[Y_0] - \mbox{E}\!\left[\widehat{\beta}_0\right] - \mbox{E}\!\left[\widehat{\beta}_1\right]x_0\\ &= (\beta_0+\beta_1x_0) - \beta_0 - \beta_1x_0\\ &=0.\end{align} Ved å sette inn at \(\widehat{\beta}_0 = \bar{Y} - \widehat{\beta}_1\bar{x}\) får vi \begin{align} \mbox{Var}\!\left[Y_0-\widehat{Y}_0\right] &= \mbox{Var}\!\left[Y_0 - \widehat{\beta}_0-\widehat{\beta}_1x_0\right]\\&= \mbox{Var}\!\left[ Y_0 - \bar{Y} + \widehat{\beta}_1\bar{x}-\widehat{\beta}_1x_0\right]\\ &= \mbox{Var}\!\left[ Y_0 - \bar{Y} -\widehat{\beta}_1(x_0-\bar{x})\right]\\ &= \mbox{Var}[Y_0] + \mbox{Var}\!\left[\bar{Y}\right]\\ &~~~~~ + (x_0-\bar{x})^2\mbox{Var}\!\left[\widehat{\beta}_1\right],\end{align} der vi i den siste overgangen har benyttet at den fremtidige observasjonen \(Y_0\) er uavhengig av \(\bar{Y}\) og \(\widehat{\beta}_1\) siden disse kun er funksjon av de "gamle" observasjonene \(Y_1,Y_2,\ldots,Y_n\), og at vi i beviset for teoremet om egenskaper til \(\widehat{\beta}_0\) fant at \(\mbox{Cov}\!\left[\bar{Y},\widehat{\beta}_1\right]=0\). Fra modellantagelsene har vi at \(\mbox{Var}[Y_0]=\sigma^2\). I beviset til teoremet om egenskaper til \(\widehat{\beta}_0\) fant vi dessuten at \(\mbox{Var}\!\left[\bar{Y}\right]=\frac{\sigma^2}{n}\) og variansen til \(\widehat{\beta}_1\) har vi også et uttrykk for. Setter vi inn dette får vi \begin{align}&\mbox{Var}\!\left[Y_0-\widehat{Y}_0\right] = \sigma^2 + \frac{\sigma^2}{n}\\ &~~~~~ + (x_0-\bar{x})^2\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ &=\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right).\end{align} Dermed har vi at \[Y_0-\widehat{Y}_0 \sim \mbox{N}\left( 0,\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\right).\] Den tilhørende standardiserte variabelen blir dermed \[Z = \frac{Y_0-\widehat{Y}_0}{\sqrt{\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim N(0,1).\]

Dersom variansen \(\sigma^2\) har en kjent verdi kan vi ta utgangspunkt i denne stokastiske variabelen for å utlede et prediksjonsintervall. Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man erstatte \(\sigma^2\) i uttrykket for \(Z\) med den forventningsrette estimatoren \(S^2\). Man vil dermed ta utgangspunkt i \[T = \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}\] som man kan vise er T-fordelt med \(n-2\) frihetsgrader. For å se at \(T\) er T-fordelt må man observere at denne kan skrives på formen \begin{align}T &= \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}\\ &= \frac{\frac{Y_0-\widehat{Y}_0}{\sqrt{\sigma^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}}{\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}}\\ &= \frac{Z}{\sqrt{\frac{V}{n-2}}}.\end{align} Her er \(Z\) som definert over slik at vi har \(Z\sim\text{N}(0,1),\) mens \[V=\frac{(n-2)S^2}{\sigma^2}.\] Da vi studerte egenskaper til regresjonsparametrene fant vi nesten helt nederst på temasiden at \[\frac{(n-2)S^2}{\sigma^2}\sim\chi^2_{n-2},\] så dermed har vi at \(V\sim\chi^2_{n-2}.\) På temasiden hvor vi diskuterte egenskaper til regresjonsparametrene fant vi også at \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) begge er uavhengige av \(S^2.\) Siden \(Z\) kun er en funksjon av \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\), mens \(V\) kun er en funksjon av \(S^2\) får vi da at \(Z\) og \(V\) også er uavhengige stokastiske variabler. Fra definisjonen av en T-fordeling har vi da at \(T\sim t_{n-2},\) dvs \[\frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \sim t_{n-2}.\] La så \(t_{\frac{\alpha}{2},n-2}\) betegne \((1-\frac{\alpha}{2})\)-kvantilen i en T-fordeling med \(n-2\) frighetsgrader. Siden T-fordelingen er symmetrisk omkring null er \(\frac{\alpha}{2}\)-kvantilen da \(-t_{\frac{\alpha}{2},n-2}\), se illustrasjonen i Figur 2.

Figur 2: Illustrasjon av at \(t_{1-\frac{\alpha}{2},n-2} = -t_{\frac{\alpha}{2},n-2}\) i en standard T-fordeling med \(n-2\) frihetsgrader siden fordelingen er symmetrisk om null.

Da har vi at \[P\left( -t_{\frac{\alpha}{2},n-2} \leq \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \leq t_{\frac{\alpha}{2},n-2}\right) = 1-\alpha.\] Løser så hver av de to ulikhetene i dette uttrykket med hensyn på \(Y_0\), \[-t_{\frac{\alpha}{2},n-2} \leq \frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \hspace{1.0cm}\Leftrightarrow \hspace{1.0cm} \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} \leq Y_0,\] \[\frac{Y_0-\widehat{Y}_0}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}} \leq t_{\frac{\alpha}{2},n-2} \hspace{1.0cm}\Leftrightarrow \hspace{1.0cm} Y_0 \leq \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}.\] Setter vi de to ulikhetene sammen igjen med den fremtidige observasjonen \(Y_0\) i midten får vi \[P\left( \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} \leq Y_0 \leq \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right) = 1-\alpha,\] slik at det stokastiske intervallet blir \[\left[ \widehat{Y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} , \widehat{Y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right].\] Vi får da prediksjonsintervallet ved å erstatte de stokastiske variablene \(Y_1,Y_2,\ldots,Y_n\) med de observerte verdiene \(y_1,y_2,\ldots,y_n\). Her vil det si at \(S^2\) skal erstattes med tilhørende observerte verdi \(s^2\) og \(\widehat{Y}_0\) skal erstattes med den predikerte verdien \(\widehat{y}_0\). Prediksjonsintervallet blir dermed \[\left[ \widehat{y}_0 - t_{\frac{\alpha}{2},n-2} \sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)} , \widehat{y}_0 + t_{\frac{\alpha}{2},n-2} \sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right],\] der \[s^2 = \frac{1}{n-2}\sum_{i=1}^n \left(y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i\right)^2 \hspace{1.0cm}\mbox{og}\hspace{1.0cm} \widehat{y}_0 = \widehat{\beta}_0+\widehat{\beta}_1x_0.\]