Spredningsplott

Spredningsplott er det vanligste plottet for å visualisere hvordan to variabler i et datasett samvarierer. Mange programvarer har ferdige funksjoner som lager spredningsplott for et gitt datasett.

Spredningsplott

Anta at man har et datasett som består av \(n\) par av observasjoner, som vi betegner som \((x_1,y_1),(x_2,y_2),\ldots,(x_n,y_n).\) I et spredningsplott representeres de observerte \(x_i\)- og \(y_i\)-verdiene langs henholdsvis \(x\)- og \(y\)-aksen. For hver \(i\in\{1,2,\ldots,n\}\) markeres datapunktet \((x_i,y_i)\) med et \(\times\) i posisjon \((x_i,y_i).\) To eksempler på spredningsplott er vist i henholdsvis figur 1 og 2. Fra spredningsplottene kan vi få et inntrykk av sammenhengen mellom de to variablene \(x\) og \(y.\) I spredningsplottet i figur 1 ser vi en klar sammenheng mellom \(x\) og \(y.\) Det er en klar positiv sammenheng mellom de to variablene, som betyr at \(y\) tenderer til å være stor når \(x\) er stor og \(y\) tenderer til å være liten når \(x\) er liten. I spredningsplottet i figur 2 ser vi også en klar sammenheng mellom de to variablene, men i motsetning til i figur 1 ser vi her en ikke-lineær sammenheng.