Hypotese
Det første steget når man skal utføre en hypotesetest er å spesifisere to alternative sannheter, eller hypoteser. Disse to hypotesene betegnes gjerne med \(H_0\) og \(H_1,\) der vi ønsker å benytte observerte data til å avgjøre om det er grunnlag for å påstå at \(H_0\) er feil, og dermed at \(H_1\) er riktig.
Hypotese
Vi definerer først hva vi skal mene med en statistisk hypotese.
Kommentarer
Svært ofte bruker vi bare ordet hypotese når vi egentlig mener statistisk hypotese.
Når vi skal gjøre en hypotesetest starter vi med å formulere to (statistiske) hypoteser, den ene kalles nullhypotesen og den andre kalles den alternative hypotesen.
Kommentarer
Dersom dataene gir grunnlag for det skal vi altså «forkaste \(H_0\)». Når vi sier «forkaste \(H_0\)», mener vi at vi konkluderer med at \(H_0\) er feil og at \(H_1\) er riktig.
I en hypotesetest har vi vi to mulige konklusjoner. Enten forkaster vi \(H_0\) eller så forkaster vi ikke \(H_0.\) Dersom vi forkaster \(H_0\) er konklusjonen at \(H_0\) er feil og \(H_1\) er riktig. Dersom vi ikke forkaster \(H_0\) er konklusjonen bare at dataene ikke gir grunnlag for å påstå at \(H_0\) er feil, uten at man dermed konkluderer med at \(H_0\) er riktig.
Man bør merke seg mangelen på symmetri mellom de to mulige konklusjonene. Dersom man forkaster \(H_0\) er konklusjonen at \(H_1\) er riktig. Dersom man ikke forkaster \(H_0\) konkluderer man ikke med hvilken av de to hypotesene som er riktig, kanskje er \(H_0\) riktig og kanskje er \(H_1\) riktig. Som vi skal diskutere senere vil man riktignok velge å oppføre seg som om \(H_0\) er riktig, men dette er noe man gjør for sikkerhets skyld og ikke fordi man har konkludert med at \(H_0\) nødvendigvis er riktig.
Formulering av \(H_0\) og \(H_1\)
Nullhypotese og alternativ hypotese spesifiseres vanligvis ved å angi hvilken eller hvilke verdier en parameter kan ha. Nullhypotesen \(H_0\) spesifiseres ofte ved å angi en verdi som parameteren skal ha, mens den alternative hypotesen \(H_1\) normalt angis ved å kreve at parameteren enten må være mindre enn verdien som angir nullhypotesen, at verdien må være større enn verdien som angir nullhypotesen, eller at parameteren må være forskjellig fra verdien som angir nullhypotesen. For eksempel, dersom man observerer verdien av stokastiske variabler \(X_1,X_2,\ldots,X_n\) som er et tilfeldig utvalg fra en eksponensialpopulasjon, er det gjerne parameteren \(\lambda\) man bruker til spesifisere \(H_0\) og \(H_1.\) Man kan for eksempel ha at \(H_0\) er at \(\lambda=3,\) mens \(H_1\) kan være at \(\lambda > 3.\) I så fall er det vanlig å skrive at man skal teste \[H_0: \lambda=3~~~\text{mot}~~~H_1: \lambda>3.\] Alternativt kan man ha at \(H_1\) er at \(\lambda < 3,\) slik at man skal teste \[H_0: \lambda=3~~~\text{mot}~~~H_1: \lambda<3.\] Begge testalternative vi har nevnt her nå er det vi kaller ensidige testet. Et tredje alternativ for \(H_1\) er at denne hypotesen spesifiserer at \(\lambda\neq 3,\) slik at vi skal teste \[H_0: \lambda = 3~~~\text{mot}~~~H_1: \lambda\neq 3.\] Når man spesifiserer \(H_1\) ved å bruke «forskjellig fra», slik vi har gjort her, sier man at man har en tosidig test. Dersom man spesifiserer \(H_1\) ved å bruke et ulikhetstegn sier man at man har en ensidig test.
Når vi i en konkret situasjon skal spesifisere \(H_0\) og \(H_1\) er det lettest å starte med å spesifisere \(H_1.\) Som \(H_1\) skal vi velge den antagelsen eller den påstanden vi ønsker å kunne konkludere med at er riktig. Deretter skal man som \(H_0\) velge «det motsatte». Grunnen til at vi her skriver det motsatte i hermetegn er at man normalt velger å spesifisere \(H_0\) ved å bruke likhetstegn, så hvis man har funnet at at man skal ha \(H_1: \lambda>3\) vil man velge \(H_0: \lambda = 3,\) selv om det motsatte av at \(\lambda>3\) selvfølgelig er \(\lambda \leq 3.\)
Notasjon
Når man skal utføre en hypotesetest blir regningen vanligvis mer oversiktlig dersom man introduserer et symbol for den verdien parameteren har når \(H_0\) er riktig. Det mest vanlige er å lage dette symbolet ved å sette på en indeks «0» på symbolet til parameteren. Dersom parameteren man bruker til å formulere \(H_0\) og \(H_1\) er \(\theta\) lar man altså \(\theta_0\) betegne verdien \(\theta\) har når \(H_0\) er riktig. Dermed kan man teste for eksempel \[H_0: \theta=\theta_0~~~\text{mot}~~~H_1:\theta>\theta_0.\] Det er viktig å forstå forskjellen mellom \(\theta\) og \(\theta_0.\) Man har at \(\theta\) er den (ukjente) sanne verdien til parameteren man er interessert i, mens \(\theta_0\) betegner den (kjente) tallverdien som \(\theta\) har dersom \(H_0\) er riktig.