Populasjon og utvalg

For å anslå verdien til en parameter \(\theta\) må vi først spesifisere for hvilke individer eller hendelser, eller hvilket område vi vil at verdien \(\theta\) skal beskrive. Disse individene eller hendelsene, eller dette område omtaler vi i statistikk som populasjonen. Dersom vi for eksempel ønsker å vite gjennomsnittshøyden til norske voksne menn vil populasjonen være mengden som består av alle norske voksne menn, og \(\theta\) er gjennomsnittsverdien til høyden på disse. For å anslå verdien til \(\theta\) gjør vi observasjoner på noen av elementene i populasjonen. Disse elementene vi gjør observasjoner på kaller vi vårt utvalg.

Populasjon og utvalg

Vi starter med en presis definisjon av begrepene populasjon og utvalg.

Kommentarer

Dersom observasjonene man kan gjøre definerer stokastiske variabler som har en sannsynlighetsfordeling \(f(x)\) sier man gjerne at man har en \(f(x)\)-populasjon. Dersom observasjonene man kan gjøre for eksempel gir opphav til stokastiske variabler som er normalfordelte sier vi altså at vi har en normalpopulasjon, og dersom de stokastiske variable er poissonfordelte sier vi at vi har en poissonpopulasjon.

Etter at man har gjort observasjoner på et utvalg vil man typisk ønske å benytte disse verdiene til å si noe om hele populasjonen. For at dette skal gi mening er det da essensielt at utvalger er representativt. Det er ulike fremgangsmåter man kan benytte for å skaffe seg et representativt utvalg, men vi skal kun se på en av disse, nemlig at man trekker tilfeldig hvilke observasjoner man gjør. Man sier da at man har et tilfeldig utvalg. En fordel med å benytte en slik strategi for å velge utvalget er at da vil de stokastiske variablene definert av utvalget være uavhengige og ha samme sannsynlighetsfordeling. Det at de stokastiske variablene er uavhengige gjør det matematisk sett enklere å kunne benytte de observerte verdiene til å kunne si noe om hele populasjonen.

Kommentar

Hvis \(X_1,X_2,\ldots,X_n\) er et tilfeldig utvalg fra \(f(x)\)-populasjonen får vi at simultanfordelingen til \(X_1,X_2,\ldots,X_n\) blir \[f(x_1,x_2,\ldots,x_n) = f(x_1)\cdot f(x_2)\cdot\ldots\cdot f(x_n) = \prod_{i=1}^n f(x_i).\]