Modellantagelser i enkel lineær regresjon

Utgangspunktet i enkel lineær regresjon er at man har observasjonspar \((x_i,y_i),i=1,2,\ldots,n.\) For å få en oversikt over observasjonene bør man starte med å visualisere dem i et spredningsplott. Dersom punktene i spredningsplottet ser ut til å ligge spredt rundt en rett linje kan det være rimelig å anta en enkel lineær regresjonsmodell. Det er viktig å merke seg at dersom spredningsplottet derimot indikerer en ikke-lineær sammenheng mellom \(x\) og \(y\) bør man ikke benytte en enkel lineær regresjonsmodell. Videre på denne siden forutsetter vi derfor at man har undersøkt dataene ved å lage et spredningsplott og at dette indikerer en lineær sammenheng mellom variablene.

Modellantagelser i enkel lineær regresjon

Utgangspunktet for en enkel lineær regresjonsmodell er at vi har observert par av verdier \((x_i,y_i),i=1,2,\ldots,n.\)

Modell: Enkel lineær regresjon

Anta at hver observert \(y\)-verdi er en realisasjon av en tilhørende stokastiske variabel \(Y\), og at sammenhengen mellom tilhørende \(x\) og \(Y\) er gitt av ligningen \[Y = \beta_0 + \beta_1 x + \varepsilon,\] der \(\beta_0\) og \(\beta_1\) er parametre, mens \(\varepsilon\) er en stokastisk variabel med forventningsverdi \(\mbox{E}[\varepsilon]=0\) og varians \(\mbox{Var}[\varepsilon]=\sigma^2\). Man har dermed en modell med tre parametre, \(\beta_0\), \(\beta_1\) og \(\sigma^2\).

Kommentarer

I modellen velger man altså å betrakte \(y\)'ene som realisasjoner av stokastiske variabler, mens \(x\)'ene velger man å betrakte som konstanter eller tall. Man sier gjerne at \(x\) er en uavhengig variabel og at \(y\) er den avhengige variabelen. Det er også mye vanlig å omtale \(x\) som en forklaringsvariabel, da man tenker at verdien til \(x\) forklarer (et stykke på vei) hvilken verdi \(y\) får.

I en regresjonssituasjon har man to rette linjer. Først har vi den ukjente linja som angir den sanne sammenhengen mellom \(x\) og \(y\), altså \(y=\beta_0+\beta_1 x\). I modellen antar vi at en slik rett linje finnes, men vi vet ikke hvor den er. Når vi ut fra de observerte parene \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n)\) har beregnet estimater \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) for de to paramtrene \(\beta_0\) og \(\beta_1\) får vi den estimerte linja \(y=\widehat{\beta}_0 + \widehat{\beta}_1x\). I figur 1 har vi illustrert situasjonen ved å simulere en del observasjonenpar på datamaskin. Vi har definert den sanne linja som \(y=3.2-x\), dvs vi har valgt \(\beta_0=3.2\) og \(\beta_1=-1.0\). Denne sanne linja er grønn i figuren. Med disse verdiene for \(\beta_0\) og \(\beta_1\) og med \(\sigma = 0.35\) har vi så simulert observasjonsparene som er vist i rødt i figuren. Estimatene for \(\beta_0\) og \(\beta_1\) basert på disse observasjonene blir henholdsvis \(\widehat{\beta}_0=3.100055\) og \(\widehat{\beta}_1=-0.9386351\) og den tilhørende linja \(y=\widehat{\beta}_0 + \widehat{\beta}_1x\) er blå i figuren. Som vi ser er de to linjene ikke like, men de vil selvfølgelig normalt ikke være så veldig ulike.

Figur 1: Illustrasjon av ukjent sann linje og estimert linje i en enkel lineær regresjonsmodell.

Hvorfor kalles det «enkel lineær regresjon»?

Regresjon betyr å estimere en funksjonssammenheng mellom \(x\) og \(y\). Modellen over er en lineær regresjon fordi \(y\) er antatt å være en lineær funksjon av parametrene \(\beta_0\) og \(\beta_1\). Grunnen til at modellen kalles lineær er altså ikke at \(y\) er en lineær funksjon av \(x\), så for eksempel vil modellen \(Y=\beta_0+\beta_1x^2+\varepsilon\) også kalles lineær. Modellen er enkel fordi den kun har en forklaringsvariabel \(x\). En lineær modell med for eksempel to forklaringsvariabler, \(Y=\beta_0+\beta_1x+\beta_2z+\varepsilon\), kalles en multippel lineær regresjonsmodell.