Rimelighetsfunksjonen
Rimelighetsfunksjonen er en sentral størrelse i forbindelse med sannsynlighetsmaksimeringsestimatoren. Rimelighetsfunksjonen uttrykker, som funksjon av verdien til en eller flere paramtre, hvor sannsynlig eller rimelig det er å observere de verdier man faktisk har observert. På temasiden du ser på nå definerer vi rimelighetsfunksjonen og den nært relaterte log-rimelighetsfunksjonen. Disse to funksjonen blir så anvendt på temasiden som definerer og diskuterer sannsynlighetsmaksimeringsestimatoren.
Rimelighetsfunksjonen
Vi starter med å definere det som kalles rimelighetsfunksjonen.
Tolkning
Innsatt observerte verdier \(x_1,x_2,\ldots,x_n\) vil \(f(x_1,x_2,\ldots,x_n;\theta)\) uttrykke hvor sannsynlig det er å observere det man har observert. Siden sannsynlighetsfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) endrer seg når verdien til \(\theta\) endrer seg vil åpenbart sannsynligheten for å observere det man har observert være en funksjon av verdien til \(\theta\). Denne funksjonen kaller vi altså rimelighetsfunksjonen og den uttrykker, som funksjon av \(\theta\), hvor sannsynlig eller rimelig det er å observere det vi har observert.
Notasjon
På engelsk kalles rimelighetsfunksjonen for «likelihood function», og bokstaven L som benyttes som symbol for rimelighetsfunksjonen er forkortelse for «likelihood».
Kommentarer til definisjonen
Man bør merke seg at det er en viktig forskjell mellom simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) og rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) selv om det fra definisjonen over kan se ut som om de er identiske. Hvis man skriver opp formler for henholdsvis simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) og rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) vil disse være identiske slik definisjonen over angir. Forskjellen mellom de to er hvilke variabler de er en funksjon av og hva som er fastholdte parametre eller tall. Simultanfordelingen \(f(x_1,x_2,\ldots,x_n;\theta)\) er en funksjon av \(x_1,x_2,\ldots,x_n\), mens parameteren \(\theta\) tenkes å ha en fastholdt verdi. For rimelighetsfunksjonen er det motsatt, den er en funksjon av parameteren \(\theta\), mens vi tenker på \(x_1,x_2,\ldots,x_n\) som observerte verdier, altså kjente tall.
Når man skal danne en rimelighetsfunksjon vil svært ofte \(X_1,X_2,\ldots,X_n\) være antatt å være et tilfeldig utvalg fra \(f(x;\theta)\)-populasjonen. Dette betyr at \(X_1,X_2,\ldots,X_n\) er uavhengige stokastiske variabler og at \(f(x;\theta)\) er marginalfordelingen for hver av \(X_1,X_2,\ldots,X_n\). Da er simultanfordelingen til \(X_1,X_2,\ldots,X_n\) lik produktet av de \(n\) marginalfordelingene slik at vi får \[L(\theta;x_1,x_2,\ldots,x_n) = \prod_{i=1}^n f(x_i;\theta).\]
Illustrasjon
Anta at vi har \(n\) stokastiske variabler som er et tilfeldig utvalg fra en eksponensialfordeling med parameter \(\lambda\). Rimelighetsfunksjonen blir da
\[ \begin{align} L(\lambda;x_1,x_2,\ldots,x_{n}) &= \prod_{i=1}^{n} \left[\lambda e^{-\lambda x_i}\right]\\ &= \lambda^{n} \exp\left\{-\lambda \left(\sum_{i=1}^{n}x_i\right)\right\} \end{align} \]
for \(\lambda > 0\). Figur 1 viser denne rimelighetsfunksjonen når \(n=10\) og de observerte verdiene er \(x_1=0.181\), \(x_2=0.495\), \(x_3=1.287\), \(x_4=0.058\), \(x_5=0.289\), \(x_6=0.103\), \(x_7=0.049\), \(x_8=0.609\), \(x_9=0.051\) og \(x_{10}=0.141\).
Kommentar
Fra definisjonen ser vi at for hver verdi av parameteren \(\theta\) er rimelighetsfunksjonen \(L(\theta;x_1,x_2,\ldots,x_n)\) en sannsynlighet (hvis \(X_1,X_2,\ldots,X_n\) er diskrete stokastiske variabler) eller en sannsynlighetstetthet (hvis \(X_1,X_2,\ldots,X_n\) er kontinuerlige stokastiske variabler). \(L(\theta;x_1,x_2,\ldots,x_n)\) vil dermed være ikke-negativ for alle verdier av \(\theta\). Men merk at \(L(\theta;x_1,x_2,\ldots,x_n)\) ikke er en sannsynlighetsfordeling. I figur 1 ser vi dette ved at arealet mellom rimelighetsfunksjonen og \(x\)-aksen åpenbart er større enn en.
Log-rimelighetsfunksjonen
Log-rimelighetsfunksjonen er definert som logaritmen til rimelighetsfunksjonen.
Kommentar
Siden \(\ln\) er en strengt voksende funksjon vil \(L(\theta;x_1,x_2,\ldots,x_n)\) og \(l(\theta;x_1,x_2,\ldots,x_n)\) ta sine maksima for samme verdi av \(\theta.\) Det å maksimere \(L(\theta;x_1,x_2,\ldots,x_n)\) med hensyn på \(\theta\) vil dermed gi samme resultat som å maksimere \(l(\theta;x_1,x_2,\ldots,x_n)\) med hensyn på \(\theta,\) noe som blir viktig når man skal finne sannsynlighetsmaksimeringsestimatioren. Det er maksimere log-rimelighetsfunksjonen gir vanligvis enklere regning enn å maksimere rimelighetsfunksjonen. Grunnen til dette er at rimelighetsfunksjonen typisk er gitt som et produkt. Ved å benytte regneregler for \(\ln\) får vi da at log-rimelighetsfunksjonen vil være gitt som en sum. For å maksimere vil man typisk starte med å derivere, og mens det å derivere en sum kan gjøres enkelt ved å derivere hvert ledd for seg må man benytte multiplikasjonsregelen for å derivere et produkt og dette gir vanligvis større og mer kompliserte uttrykk å regne med.
Illustrasjon
Lenger opp på denne temasiden så vi et eksempel på en rimelighetsfunksjon når man observert verdiene til \(n\) stokastiske variabler som er et tilfeldig utvalg fra en eksponensialfordeling med parameter \(\lambda.\) Tilsvarende log-rimelighetsfunksjon blir
\[ \begin{align} l(\lambda;x_1,x_2,\ldots,x_{n}) &= \ln\left[ \prod_{i=1}^{n} \left(\lambda e^{-\lambda x_i}\right) \right]\\ &= \ln\left[ \lambda^n \exp\left( - \lambda \sum_{i=1}^n x_i\right)\right]\\ &= n\ln \lambda - \lambda\sum_{i=1}^n x_i, \end{align} \]
for \(\lambda > 0\). Figur 2 viser denne log-rimelighetsfunksjonen for de samme verdier av \(n\) og \(x_1,x_2,\ldots,x_n\) som er brukt til å lage rimelighetsfunksjonen i figur 1. Man bør spesielt legge merke til at rimelighetsfunksjonen og log-rimelighetsfunksjonen tar sitt maksimum for samme verdi av \(\lambda.\)