Modellantagelser i enkel lineær regresjon
Utgangspunktet i enkel lineær regresjon er at man har observasjonspar (xi,yi),i=1,2,…,n. For å få en oversikt over observasjonene bør man starte med å visualisere dem i et spredningsplott. Dersom punktene i spredningsplottet ser ut til å ligge spredt rundt en rett linje kan det være rimelig å anta en enkel lineær regresjonsmodell. Det er viktig å merke seg at dersom spredningsplottet derimot indikerer en ikke-lineær sammenheng mellom x og y bør man ikke benytte en enkel lineær regresjonsmodell. Videre på denne siden forutsetter vi derfor at man har undersøkt dataene ved å lage et spredningsplott og at dette indikerer en lineær sammenheng mellom variablene.
Modellantagelser i enkel lineær regresjon
Utgangspunktet for en enkel lineær regresjonsmodell er at vi har observert par av verdier (xi,yi),i=1,2,…,n.
Modell: Enkel lineær regresjon
Anta at hver observert y-verdi er en realisasjon av en tilhørende stokastiske variabel Y, og at sammenhengen mellom tilhørende x og Y er gitt av ligningen Y=β0+β1x+ε, der β0 og β1 er parametre, mens ε er en stokastisk variabel med forventningsverdi E[ε]=0 og varians Var[ε]=σ2. Man har dermed en modell med tre parametre, β0, β1 og σ2.
Kommentarer
I modellen velger man altså å betrakte y'ene som realisasjoner av stokastiske variabler, mens x'ene velger man å betrakte som konstanter eller tall. Man sier gjerne at x er en uavhengig variabel og at y er den avhengige variabelen. Det er også mye vanlig å omtale x som en forklaringsvariabel, da man tenker at verdien til x forklarer (et stykke på vei) hvilken verdi y får.
I en regresjonssituasjon har man to rette linjer. Først har vi den ukjente linja som angir den sanne sammenhengen mellom x og y, altså y=β0+β1x. I modellen antar vi at en slik rett linje finnes, men vi vet ikke hvor den er. Når vi ut fra de observerte parene (x1,y1),(x2,y2),…,(xn,yn) har beregnet estimater ˆβ0 og ˆβ1 for de to paramtrene β0 og β1 får vi den estimerte linja y=ˆβ0+ˆβ1x. I figur 1 har vi illustrert situasjonen ved å simulere en del observasjonenpar på datamaskin. Vi har definert den sanne linja som y=3.2−x, dvs vi har valgt β0=3.2 og β1=−1.0. Denne sanne linja er grønn i figuren. Med disse verdiene for β0 og β1 og med σ=0.35 har vi så simulert observasjonsparene som er vist i rødt i figuren. Estimatene for β0 og β1 basert på disse observasjonene blir henholdsvis ˆβ0=3.100055 og ˆβ1=−0.9386351 og den tilhørende linja y=ˆβ0+ˆβ1x er blå i figuren. Som vi ser er de to linjene ikke like, men de vil selvfølgelig normalt ikke være så veldig ulike.
Hvorfor kalles det «enkel lineær regresjon»?
Regresjon betyr å estimere en funksjonssammenheng mellom x og y. Modellen over er en lineær regresjon fordi y er antatt å være en lineær funksjon av parametrene β0 og β1. Grunnen til at modellen kalles lineær er altså ikke at y er en lineær funksjon av x, så for eksempel vil modellen Y=β0+β1x2+ε også kalles lineær. Modellen er enkel fordi den kun har en forklaringsvariabel x. En lineær modell med for eksempel to forklaringsvariabler, Y=β0+β1x+β2z+ε, kalles en multippel lineær regresjonsmodell.