Mål på variasjon

Et datasett kan bestå av svært mange tall. For å få oversikt over hvor mye dataene varierer regner man gjerne ut et eller flere mål som beskriver spredningn av dataene. De viktigste av disse størrelsene er empirisk varians, empirisk standardavvik og kvartildifferanse.

Empirisk varians og empirisk standardavvik

Vi starter med å definere empirisk varians

Kommenterer

Man bør merke seg at dimensjonen til empirisk varians ikke har samme enhet som til de observerte verdiene. Hvis for eksempel de observerte verdiene er målt i meter (\(m\)) vil empirisk varians bli målt i \(m^2.\)

Empirisk varians er mye brukt for å avgjøre i hvilket av flere datasett variasjonen er størst, men siden enheten til empirisk varians ikke er den samme som enheten til dataene er det ikke naturlig å sammenligne empirisk varians med de observerte verdiene. For å få et mål på variabilitet som man kan sammenligne med de observerte verdiene tar man kvadratroten til empirisk varians og får det man kaller empirisk standardavvik.

Kommentar

Empirisk varians og empirisk standardavvik er sensitive for ekstreme verdier, dvs dersom en eller noen få av de observerte verdiene er veldig mye mindre eller veldig mye større enn de andre verdiene vil denne eller disse ekstreme verdiene kunne påvirke verdien til \(s^2\) og \(s\) mye. Kvartildifferansen, som vi definerer nedenfor blir derimot ikke påvirket av noen få ekstreme verdier.

Kvartildifferanse

Før vi kan definere kvartildifferanse må vi først definere begrepet empirisk kvantil.