Enkel lineær regresjon

Anta at vi har observert par av verdier \((x_i,y_i),i=1,2,\ldots,n\). Vi ønsker så å benytte disse verdiene til å finne en lineær sammenheng mellom \(x\) og \(y\), dvs. vi ønsker å bestemme hvilken rett linje \(y=\beta_0+\beta_1 x\) som passer best med de observerte parene. Parametrene \(\beta_0\) og \(\beta_1\) representerer altså henholdsvis konstantleddet og stigningstallet for sammenhengen mellom \(x\) og \(y\). En forutsetning for at det skal være fornuftig å estimere en slik lineær sammenheng mellom \(x\) og \(y\) er selvfølgelig at de observerte verdiene \((x_i,y_i),i=1,2,\ldots,n\) faktisk tyder på at det er en lineær sammenheng mellom \(x\) og \(y\), noe man kan sjekke ved å lage et spredningsplott med \(x_i\)'ene langs \(x\)-aksen og \(y_i\)'ene langs \(y\)-aksen. Dersom de observerte punktene ser ut til å ligge spredd rundt en rett linje er det rimelig å tilpasse en rett linje som diskutert her. Hvis punktene derimot ser ut til å ligge spredd rundt for eksempel en andregradskurve er det selvfølgelig ikke naturlig å tilpasse en rett linje.

For å kunne estimere verdier for parametrene \(\beta_0\) og \(\beta_1\) fra de observerte parene \((x_i,y_i),i=1,2,\ldots,n\) antar vi en stokastisk modell der vi tenker oss at \(y_i\)-verdiene er realisasjoner av tilhørende stokastiske variabler \(Y_i\) og at \(Y_i=\beta_0+\beta_1 x_i + \varepsilon_i\). Her blir altså \(\varepsilon_i\) avviket mellom \(Y_i\) og den rette linja \(y=\beta_0+\beta_1 x\). Basert på en slik modell kan vi så lage estimatorer \(\widehat{\beta}_0\) og \(\widehat{\beta}_1\) for parametrene \(\beta_0\) og \(\beta_1\). Videre kan vi konstruere konfidensintervall og hypotesetester for de samme to parametrene, og vi kan benytte modellen til å utlede prediksjonsintervall for en fremtidig verdi \(y_0\) når denne skal gjøres for en verdi \(x=x_0\).