Inferens for regresjonsparametrene

Når vi skal utlede et konfidensintervall eller bestemme oss for en testobservator i en hypotesetestsituasjon må vi ta utgangspunkt i en størrelse som kun er en funksjon av de stokastiske variablene og den parameteren man skal lage konfidensintervall for eller gjøre hypotesetest om. I en regresjonsmodell er det mest aktuelt å gjøre inferens (utlede konfidensintervall eller utføre en hypotesetest) om \(\beta_0\) og \(\beta_1\), og vanligvis vil da variansen \(\sigma^2\) også ha en ukjent verdi. Vi vil derfor her kun se på hvilke størrelser man tar utgangspunkt i for å gjøre inferens i en slik situasjon. Vi diskuterer først for \(\beta_1\) og deretter for \(\beta_0.\)

Inferens om \(\beta_1\)

Da vi studerte egenskaper til regresjonsestimatorene fant vi at \[\widehat{\beta}_1 \sim N\left(\beta_1,\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}\right).\] Den tilhørende standardiserte variabelen blir dermed \[Z = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim N(0,1).\] Dersom variansen \(\sigma^2\) har en kjent verdi kan man ta utgangspunkt i \(Z\) for å utlede konfidensintervall eller konstruere en hypotesetest for \(\beta_1\). Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man erstatte \(\sigma^2\) i utrykket for \(Z\) med den tilhørende forventningsrette estimatoren \[S^2 = \frac{1}{n-2}\sum_{i=1}^n (Y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i)^2.\] Man vil dermed ta utgangspunkt i \[T = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}}\] som blir T-fordelt med \(n-2\) frihetsgrader. For å se at \(T\) blir T-fordelt med det spesifiserte antall frihetsgrader må man observere at den kan skrives på formen \[T = \frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} = \frac{\frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}}}{\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}} = \frac{Z}{\sqrt{\frac{V}{n-2}}}.\] Her er \(Z\) som definert over slik at vi har \(Z\sim\text{N}(0,1),\) mens \[V=\frac{(n-2)S^2}{\sigma^2}.\] Da vi studerte egenskaper til regresjonsparametrene fant vi nesten helt nederst på temasiden at \[\frac{(n-2)S^2}{\sigma^2}\sim\chi^2_{n-2},\] så dermed har vi at \(V\sim\chi^2_{n-2}.\) På temasiden hvor vi diskuterte egenskaper til regresjonsparametrene fant vi også at \(\widehat{\beta}_1\) og \(S^2\) var uavhengige stokastiske variabler. Siden \(Z\) kun er en funksjon av \(\widehat{\beta}_1,\) mens \(V\) kun er en funksjon av \(S^2\) får vi da at \(Z\) og \(V\) også er uavhengige stokastiske variabler. Fra definisjonen av en T-fordeling har vi da at \(T\sim t_{n-2},\) dvs \[\frac{\widehat{\beta}_1-\beta_1}{\sqrt{\frac{S^2}{\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim t_{n-2}.\] Ut fra dette kan man utlede konfidensintervall for \(\beta_1\) og konstruere hypotesetester for \(\beta_1\) ved å følge enten regneprosedyre for å utlede konfidensintervall eller regneprosedyre for å utlede hypotesetest (TODO: sette inn link her).

Inferens om \(\beta_0\)

For å etablere hvilken størrelse man bør ta utgangspunkt i for å gjøre inferens om \(\beta_0\) kan vi gå frem helt tilsvarende som forklart for \(\beta_1\) over.

Da vi studerte egenskaper til regresjonsestimatorene fant vi at \[\widehat{\beta}_0 \sim N\left(\beta_0,\frac{\sigma^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}\right).\] Den tilhørende standardiserte variabelen blir dermed \[Z = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{\sigma^2\sum_{i=1}^n x_i^2}{n \sum_{i=1}^n (x_i-\bar{x})^2}}} \sim N(0,1).\] Dersom variansen \(\sigma^2\) har en kjent verdi kan man ta utgangspunkt i \(Z\) for å utlede konfidensintervall eller konstruere en hypotesetest for \(\beta_0\). Mer typisk er det at verdien til \(\sigma^2\) også er ukjent og da vil man erstatte \(\sigma^2\) i utrykket for \(Z\) med den tilhørende forventningsrette estimatoren \[S^2 = \frac{1}{n-2}\sum_{i=1}^n (Y_i - \widehat{\beta}_0-\widehat{\beta}_1x_i)^2.\] Man vil dermed ta utgangspunkt i \[T = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}}\] som blir T-fordelt med \(n-2\) frihetsgrader. For å se at \(T\) blir T-fordelt med det spesifiserte antall frihetsgrader må man observere at den kan skrives på formen \[T = \frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} = \frac{\frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{\sigma^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}}}{\sqrt{\frac{\frac{(n-2)S^2}{\sigma^2}}{n-2}}} = \frac{Z}{\sqrt{\frac{V}{n-2}}}.\] Her er \(Z\) som definert over slik at vi har \(Z\sim\text{N}(0,1),\) mens \[V=\frac{(n-2)S^2}{\sigma^2}.\] Da vi studerte egenskaper til regresjonsparametrene fant vi nesten helt nederst på temasiden at \[\frac{(n-2)S^2}{\sigma^2}\sim\chi^2_{n-2},\] så dermed har vi at \(V\sim\chi^2_{n-2}.\) På temasiden hvor vi diskuterte egenskaper til regresjonsparametrene fant vi også at \(\widehat{\beta}_0\) og \(S^2\) var uavhengige stokastiske variabler. Siden \(Z\) kun er en funksjon av \(\widehat{\beta}_0,\) mens \(V\) kun er en funksjon av \(S^2\) får vi da at \(Z\) og \(V\) også er uavhengige stokastiske variabler. Fra definisjonen av en T-fordeling har vi da at \(T\sim t_{n-2},\) dvs \[\frac{\widehat{\beta}_0-\beta_0}{\sqrt{\frac{S^2\sum_{i=1}^n x_i^2}{n\sum_{i=1}^n (x_i-\bar{x})^2}}} \sim t_{n-2}.\] Ut fra dette kan man utlede konfidensintervall for \(\beta_0\) og konstruere hypotesetester for \(\beta_0\) ved å følge enten regneprosedyre for å utlede konfidensintervall eller regneprosedyre for å utlede hypotesetest (TODO: sette inn link her).