Korrelasjon

Korrelasjon måler graden av lineær sammenheng mellom to stokastiske variabler når man gjentar det underliggende stokastiske forsøket mange ganger.

Korrelasjon

Vi starter med å definere hva vi skal mene med korrelasjonen mellom to stokastiske variabler \(X\) og \(Y.\)

Notasjon

Det benyttes ulike notasjoner for korrelasjonen mellom to stokastiske variabler. Den mest vanlige er kanskje \(\text{Corr}[X,Y]\) som benyttes i definisjonen over. Den greske bokstaven \(\rho\) er også mye benyttet som et symbol for korrelasjon, eventuelt \(\rho_{XY}\) der indeksene angir hvilke stokastiske variabler \(\rho_{XY}\) er korrelasjonen mellom.

Tolkning av korrelasjon

Korrelasjon måler graden av lineær sammenheng mellom \(X\) og \(Y\). Man kan tolke både fortegnet og tallverdien til korrelasjonen. Fortegnet til \(\text{Corr}[X,Y]\) vil være lik fortegnet til \(\text{Cov}[X,Y]\). Fortegnet til korrelasjonen har dermed samme tolkning som fortegnet til kovariansen, så \(X\) og \(Y\) tenderer til å gå i takt dersom \(\text{Corr}[X,Y]>0\) og de tenderer til å gå i utakt dersom \(\text{Corr}[X,Y]<0\).

Tallverdien til korrelasjonen angir i hvor stor grad \(X\) og \(Y\) går i takt eller utakt. Dersom \(\text{Corr}[X,Y]=0\) er det ingen lineær sammenheng mellom \(X\) og \(Y\), mens dersom \(\text{Corr}[X,Y]\) er lik \(-1\) eller \(+1\) er det en perfekt lineær sammenheng mellom \(X\) og \(Y\) i den forstand at alle par \((x,y)\) generert fra en sannsynlighetsfordeling med en slik korrelasjonen vil ligge på en rett linje \(y=ax+b\). Figur 1 til 6 viser genererte par \((x,y)\) fra simultane sannsynlighetsfordelinger \(f(x,y)\) med korrelasjoner fra \(\text{Corr}[X,Y]=0\) til \(\text{Corr}[X,Y]=1\).

Figur 1: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0.\)
Figur 2: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0.2.\)
Figur 3: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0.4.\)
Figur 4: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0.6.\)
Figur 5: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0.8.\)
Figur 6: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=1.\)

Kommentarer

Korrelasjon er en standardisert versjon av kovarians og man kan vise at \(-1\leq \text{Corr}[X,Y]\leq 1\). Man kan dessuten vise at dersom en simultan sannsynlighetsfordeling har \(\text{Corr}[X,Y]=-1\) så vil alle par \((x,y)\) generert fra denne fordelingen ligge på en rett linje \(y=ax+b\) med \(a<0\). Tilsvarende kan man vise at dersom en simultan sannsylighetsfordeling har \(\text{Corr}[X,Y]=1\) så vil par \((x,y)\) generert fra denne fordelingen også ligge på en rett \(y=ax+b\), men nå vil man ha at \(a>0\).

Man kan vise at dersom \(X\) og \(Y\) er uavhengige stokastiske variabler vil man alltid ha at \(\text{Cov}[X,Y]=0\), og dermed vil også \(\text{Corr}[X,Y]=0\). Dette resultatet er intuitivt rimelig. Hvis det ikke er noen avhengighet mellom \(X\) og \(Y\) kan det heller ikke være noen lineær avhengighet mellom disse variablene. Man skal dog merke seg at man kan ha \(\text{Corr}[X,Y]=0\) selv om \(X\) og \(Y\) er avhengige. Plottet i figur 7 viser genererte par \((x,y)\) fra en simultan sannsynlighetsfordeling \(f(x,y)\) med \(\text{Corr}[X,Y]=0\), men hvor \(X\) og \(Y\) er avhengige. Selv om \(X\) og \(Y\) her ikke er uavhengige er det altså ingen lineær avhengighet mellom \(X\) og \(Y\) og dette er grunnen til at korrelasjonen mellom \(X\) og \(Y\) blir null.

Figur 7: Genererte par \((x,y)\) fra en simultanfordeling \(f(x,y)\) hvor \(\text{Corr}[X,Y]=0\), men hvor \(X\) og \(Y\) er avhengige.

Regneregler for korrelasjon

Det er ikke vanlig å formulere egne regneregler for korrelasjon. Korrelasjon er definert ved hjelp av varians og kovarians, så dersom man har behov for regneregler for korrelasjon er det vanlig først å regne ut tilhørende varianser og kovarians, og deretter bruke hvordan korrelasjon er definert til å regne ut korrelasjonen man er interessert i.