Finne den beste av tre estimatorer

Eksempel

Vi har diskutert hvilke egenskaper man ønsker for en god estimator, man ønsker at en estimator er forventningsrett og at den er mest mulig effisient. Basert på dette har vi formulert en regneprosedyre man kan benytte for å avgjøre hvilken av flere estimatorer som er best. På temasida du ser på nå ser vi på et eksempel på bruk av denne regneprosedyren.

Finne den beste av tre estimatorer

Anta at vi har et tilfeldig utvalg \(X_1,X_2,\ldots,X_n\) fra en fordeling hvor \(\text{E}[X_i]=\mu\) og \(\text{Var}[X_i]=\sigma^2\) for \(i=1,2,\ldots,n.\) Anta videre at vi også har et annet tilfeldig utvalg \(Y_1,Y_2,\ldots,Y_m\) fra en fordeling hvor \(\text{E}[Y_j]=\mu\) og \(\text{Var}[Y_j]=4\sigma^2,\) og at \(Y_1,Y_2,\ldots,Y_m\) er uavhengige av \(X_1,X_2,\ldots,X_n.\) For å estimere \(\mu\) basert på \(X_1,X_2,\ldots,X_n,Y_1,Y_2,\ldots,Y_m\) er det foreslått følgende tre estimatorer, \[ \widehat{\mu} = \frac{1}{n+m}\left(\sum_{i=1}^n X_i + \sum_{j=1}^m Y_j\right),\] \[\widetilde{\mu} = \frac{1}{n+\frac{m}{2}}\left(\sum_{i=1}^m X_i + \frac{1}{2}\sum_{i=1}^m Y_j\right)\] og \[\mu^\star = \frac{1}{n+\frac{m}{4}}\left(\sum_{i=1}^nX_i + \frac{1}{4}\sum_{j=1}^m Y_j\right).\] Bestem hvilken av estimatorene \(\widehat{\mu},\) \(\widetilde{\mu}\) og \(\mu^\star\) som er best.

Utregning

For å undersøke hvilke av de tre estimatorene som er forventningsrette, starter vi med å bestemme forventningsverdien til hver av de tre estimatorene. For å gjøre dette bruker vi regneregler for forventningsverdi av lineære funksjoner. Vi regner først ut forventningsverdien til \(\widehat{\mu},\)

\[ \begin{align} \text{E}[\widehat{\mu}] &= \text{E}\!\left[ \frac{1}{n+m}\left(\sum_{i=1}^n X_i + \sum_{j=1}^m Y_j\right) \right]\\ &= \frac{1}{n+m} \text{E}\!\left[\sum_{i=1}^n X_i + \sum_{j=1}^m Y_j\right]\\ &= \frac{1}{n+m}\left( \text{E}\!\left[ \sum_{i=1}^n X_i \right] + \text{E}\!\left[ \sum_{j=1}^m Y_j \right]\right)\\ &= \frac{1}{n+m}\left( \sum_{i=1}^n \text{E}\left[ X_i \right] + \sum_{j=1}^m \text{E}\left[ Y_j \right]\right)\\ &= \frac{1}{n+m}\left( \sum_{i=1}^n \mu + \sum_{j=1}^m \mu\right)\\ &= \frac{1}{n+m}\left( n\mu + m\mu\right)\\ &= \frac{n+m}{n+m} \mu\\ &= \mu, \end{align} \]

der vi i den fjerde siste overgangen brukte informasjonen oppgitt i oppgaveteksten om at \(\text{E}[X_i]=\mu\) og \(\text{E}[Y_j]=\mu.\) Altså er \(\widehat{\mu}\) er forventningsrett estimator.

Tilsvarende regner vi ut forventningsverdien til \(\widetilde{\mu},\)

\[ \begin{align} \text{E}[\widetilde{\mu}] &= \text{E}\!\left[ \frac{1}{n+\frac{m}{2}}\left(\sum_{i=1}^n X_i + \frac{1}{2}\sum_{j=1}^m Y_j\right) \right]\\ &= \frac{1}{n+\frac{m}{2}} \text{E}\!\left[ \sum_{i=1}^n X_i + \frac{1}{2}\sum_{j=1}^m Y_j\right]\\ &= \frac{1}{n+\frac{m}{2}} \left(\text{E}\!\left[\sum_{i=1}^n X_i\right] + \text{E}\!\left[\frac{1}{2}\sum_{j=1}^m Y_j\right]\right)\\ &=\frac{1}{n+\frac{m}{2}} \left(\text{E}\!\left[\sum_{i=1}^n X_i\right] + \frac{1}{2}\text{E}\!\left[\sum_{j=1}^m Y_j\right]\right)\\ &= \frac{1}{n+\frac{m}{2}} \left(\sum_{i=1}^n \text{E}\left[ X_i\right] + \frac{1}{2}\sum_{j=1}^m\text{E}\left[ Y_j\right]\right)\\ &= \frac{1}{n+\frac{m}{2}} \left(\sum_{i=1}^n \mu + \frac{1}{2}\sum_{j=1}^m\mu \right)\\ &= \frac{1}{n+\frac{m}{2}} \left(n \mu + \frac{1}{2} m\mu \right)\\ &= \frac{n+\frac{m}{2}}{n+\frac{m}{2}} \mu \\ &= \mu. \end{align} \]

Vi ser dermed at også \(\widetilde{\mu}\) er forventningsrett. Vi sjekker så tilsvarende om også \(\mu^\star\) er forventningsrett,

\[ \begin{align} \text{E}[\mu^\star] &= \text{E}\!\left[ \frac{1}{n+\frac{m}{4}}\left(\sum_{i=1}^n X_i + \frac{1}{4}\sum_{j=1}^m Y_j\right) \right]\\ &= \frac{1}{n+\frac{m}{4}} \text{E}\!\left[ \sum_{i=1}^n X_i + \frac{1}{4}\sum_{j=1}^m Y_j \right]\\ &= \frac{1}{n+\frac{m}{4}} \left(\text{E}\!\left[\sum_{i=1}^n X_i\right] + \text{E}\!\left[\frac{1}{4}\sum_{j=1}^m Y_j\right]\right)\\ &=\frac{1}{n+\frac{m}{4}} \left(\text{E}\!\left[\sum_{i=1}^n X_i\right] + \frac{1}{4}\text{E}\!\left[\sum_{j=1}^m Y_j\right]\right)\\ &= \frac{1}{n+\frac{m}{4}} \left(\sum_{i=1}^n \text{E}\left[ X_i\right] + \frac{1}{4}\sum_{j=1}^m\text{E}\left[ Y_j\right]\right)\\ &= \frac{1}{n+\frac{m}{4}} \left(\sum_{i=1}^n \mu + \frac{1}{4}\sum_{j=1}^m\mu \right)\\ &= \frac{1}{n+\frac{m}{4}} \left(n \mu + \frac{1}{4} m\mu \right)\\ &= \frac{n+\frac{m}{4}}{n+\frac{m}{4}} \mu \\ &= \mu. \end{align} \]

Dermed ser vi at alle tre estimatorene er forventningsrette. For å avgjøre hvilken av de tre estimatorene som er den beste må vi dermed regne ut variansen til hver av dem. For å regne ut variansene bruker vi regneregler for varians av lineære funksjoner og husker spesielt på at alle \(X_i\)-ene og \(Y_j\)-ene er antatt å være uavhengige av hverandre og at konstanter som settes utenfor \(\text{Var}\) må kvadreres. Igjen starter vi med å se på \(\widehat{\mu},\)

\[ \begin{align} \text{Var}[\widehat{\mu}] &= \text{Var}\!\left[\frac{1}{n+m}\left(\sum_{i=1}^n X_i + \sum_{j=1}^m Y_j\right) \right]\\ &= \left(\frac{1}{n+m}\right)^2 \text{Var}\!\left[\sum_{i=1}^n X_i + \sum_{j=1}^m Y_j \right]\\ &= \left(\frac{1}{n+m}\right)^2 \left(\text{Var}\!\left[\sum_{i=1}^n X_i\right] + \text{Var}\!\left[\sum_{j=1}^m Y_j\right] \right)\\ &=\left(\frac{1}{n+m}\right)^2 \left(\sum_{i=1}^n\text{Var}\left[ X_i\right] + \sum_{j=1}^m\text{Var}\left[ Y_j\right] \right)\\ &=\left(\frac{1}{n+m}\right)^2 \left(\sum_{i=1}^n\sigma^2 + \sum_{j=1}^m 4\sigma^2 \right)\\ &= \left(\frac{1}{n+m}\right)^2 \left(n \sigma^2 + m 4\sigma^2 \right)\\ &= \frac{n+4m}{(n+m)^2} \sigma^2. \end{align} \]

Tilsvarende regning for \(\widetilde{\mu}\) gir,

\[ \begin{align} \text{Var}[\widetilde{\mu}] &= \text{Var}\!\left[ \frac{1}{n+\frac{m}{2}}\left(\sum_{i=1}^n X_i + \frac{1}{2}\sum_{j=1}^m Y_j\right) \right]\\ &=\left(\frac{1}{n+\frac{m}{2}}\right)^2 \text{Var}\!\left[ \sum_{i=1}^n X_i + \frac{1}{2}\sum_{j=1}^m Y_j\right]\\ &=\left(\frac{1}{n+\frac{m}{2}}\right)^2 \left(\text{Var}\!\left[ \sum_{i=1}^n X_i\right] + \text{Var}\!\left[\frac{1}{2}\sum_{j=1}^m Y_j\right]\right)\\ &=\left(\frac{1}{n+\frac{m}{2}}\right)^2 \left(\text{Var}\!\left[ \sum_{i=1}^n X_i\right] + \left(\frac{1}{2}\right)^2\text{Var}\!\left[\sum_{j=1}^m Y_j\right]\right)\\ &=\left(\frac{1}{n+\frac{m}{2}}\right)^2 \left(\sum_{i=1}^n\text{Var}\left[X_i\right] + \frac{1}{4}\sum_{j=1}^m\text{Var}\left[\ Y_j\right]\right)\\ &= \left(\frac{1}{n+\frac{m}{2}}\right)^2 \left(\sum_{i=1}^n\sigma^2 + \frac{1}{4}\sum_{j=1}^m 4\sigma^2\right)\\ &= \left(\frac{1}{n+\frac{m}{2}}\right)^2 \left(n\sigma^2 + \frac{1}{4}m 4\sigma^2\right)\\ &=\frac{n+m}{\left(n+\frac{m}{2}\right)^2} \sigma^2. \end{align} \]

Så finner vi variansen til \(\mu^\star\) helt tilsvarende,

\[ \begin{align} \text{Var}[\mu^\star] &= \text{Var}\!\left[ \frac{1}{n+\frac{m}{4}}\left(\sum_{i=1}^n X_i + \frac{1}{4}\sum_{j=1}^m Y_j\right) \right]\\ &=\left(\frac{1}{n+\frac{m}{4}}\right)^2 \text{Var}\!\left[ \sum_{i=1}^n X_i + \frac{1}{4}\sum_{j=1}^m Y_j\right]\\ &=\left(\frac{1}{n+\frac{m}{4}}\right)^2 \left(\text{Var}\!\left[ \sum_{i=1}^n X_i\right] + \text{Var}\!\left[\frac{1}{4}\sum_{j=1}^m Y_j\right]\right)\\ &=\left(\frac{1}{n+\frac{m}{4}}\right)^2 \left(\text{Var}\!\left[ \sum_{i=1}^n X_i\right] + \left(\frac{1}{4}\right)^2\text{Var}\!\left[\sum_{j=1}^m Y_j\right]\right)\\ &=\left(\frac{1}{n+\frac{m}{4}}\right)^2 \left(\sum_{i=1}^n\text{Var}\left[X_i\right] + \frac{1}{16}\sum_{j=1}^m\text{Var}\left[\ Y_j\right]\right)\\ &= \left(\frac{1}{n+\frac{m}{4}}\right)^2 \left(\sum_{i=1}^n\sigma^2 + \frac{1}{16}\sum_{j=1}^m 4\sigma^2\right)\\ &= \left(\frac{1}{n+\frac{m}{4}}\right)^2 \left(n\sigma^2 + \frac{1}{16}m 4\sigma^2\right)\\ &=\frac{n+\frac{m}{4}}{\left(n+\frac{m}{4}\right)^2} \sigma^2\\ &= \frac{\sigma^2}{n+\frac{m}{4}}. \end{align} \]

For å bestemme hvilken som er minst av \(\text{Var}[\widehat{\mu}],\) \(\text{Var}[\widetilde{\mu}]\) og \(\text{Var}[\mu^\star]\) som er minst blir det enklest regning ved å betrakte forholdene \[\frac{\text{Var}[\widehat{\mu}]}{\text{Var}[\mu^\star]}~~~\text{og}~~~\frac{\text{Var}[\widetilde{\mu}]}{\text{Var}[\mu^\star]}.\] Vi regner først ut den første av disse brøkene,

\[ \begin{align} \frac{\text{Var}[\widehat{\mu}]}{\text{Var}[\mu^\star]} &= \frac{\frac{n+4m}{(n+m)^2} \sigma^2}{\frac{\sigma^2}{n+\frac{m}{4}}}\\ &= \frac{(n+4m)\left(n+\frac{m}{4}\right)}{(n+m)^2}\\ &= \frac{n^2 + \frac{nm}{4} + 4nm + m^2}{n^2+2nm+m^2}\\ &=\frac{n^2+\frac{17}{4}nm + m^2}{n^2+2nm+m^2}\\ &> 1 \end{align} \]

fordi \(\frac{17}{4} > 2.\) Dermed har vi vist at \(\text{Var}[\widehat{\mu}] > \text{Var}[\mu^\star].\) Vi regner så ut den andre brøken diskutert over,

\[ \begin{align} \frac{\text{Var}[\widetilde{\mu}]}{\text{Var}[\mu^\star]} &= \frac{\frac{n+m}{\left(n+\frac{m}{2}\right)^2} \sigma^2}{\frac{\sigma^2}{n+\frac{m}{4}}}\\ &= \frac{(n+m)\left( n+\frac{m}{4}\right)}{\left(n+\frac{m}{2}\right)^2}\\ &=\frac{n^2+\frac{nm}{4}+nm+\frac{m^2}{4}}{n+2n\frac{m}{2}+\left(\frac{m}{2}\right)^2}\\ &=\frac{n^2+\frac{5}{4}nm+\frac{m^2}{4}}{n^2+nm+\frac{m^2}{4}}\\ &> 1 \end{align} \]

fordi \(\frac{5}{4}>1.\) Dermed har vi også at \(\text{Var}[\widetilde{\mu}] < \text{Var}[\mu^\star].\) Vi har dermed vist at variansen til \(\mu^\star\) har indre enn varians enn begge de to andre estimatorene. Dermed har vi vist at \(\mu^\star\) er den beste av de tre oppgitte estimatorene.