Regne ut sannsynligheter i en binomisk fordeling ved hjelp av normaltilnærming

Eksempel

En binomisk fordeling kan tilnærmes med en normalfordeling når antall forsøk \(n\) er tilstrekkelig stor. På temasiden du ser på nå benytter vi dette til å regne ut noen sannsynligheter i en binomisk fordeling. Spesielt diskuterer vi den såkalte kontinuitetskorreksjonen som oftest benyttes i slike situasjoner og som gjør at verdiene man regner ut blir nærmere de eksakte verdiene.

Merk at normaltilnærmingen vi benytter i utregningene på denne siden kun gjelder når \(n\) er tilstrekkelig stor. Dersom \(n\) ikke er stor nok må slike sannsynligheter finnes ved å slå opp i en tabell over binomisk fordeling eller ved å summere punktsannsynligheter, se eventuelt eksempler på hvordan dette gjøres på en egen temaside.

Regne ut sannsynligheter i en binomisk fordeling ved hjelp av normaltilnærming

Anta at \(X\) er binomisk fordelt med \(n=30\) forsøk og sannsynlighet for suksess lik \(p=0.2.\) Finn da sannsynlighetene \[P(X\leq 4),~~~P(X<9)~~~\text{og}~~~P(X\geq 6|X<9).\]

Illustrasjon

Sannsynligheten \(P(X\leq 4)\) er illustrert i figur 1. Her er sannsynlighetsfordelingen til \(X\) tegnet som et sannsynlighetshistogram. Søylene som hører til hendelsen \(X\leq 4\) er fylt med rød farge. Sannsynligheten \(P(X\leq 4)\) er lik arealet av søylene som er farget røde. Den blå kurven er sannsynlighetstettheten til den tilnærmede normalfordelingen med forventningsverdi \(\mu=np=30\cdot 0.2=6\) og varians \(\sigma^2=np(1-p)=30\cdot 0.2\cdot (1-0.2)=4.8.\) Sannsynligheten \(P(X\leq 4)\) er tilnærmet lik arealet under den blå normalfordelingstettheten opp til \(x=4+0.5=4.5.\)

Tilsvarende er sannsynligheten \(P(X<9)\) illustrert i figur 2. Igjen er sannsynlighetsfordelingen til \(X\) tegnet som er sannsynlighetshistogram og søylene som hører til hendelsen \(X<9\) er fylt med rød farge. Igjen er den blå kurven sannsynlighetstettheten til den tilnærmede normalfordelingen og sannsynligheten \(P(X<9)\) er tilnærmet lik arealet under den blå normalfordelingstettheten opp til \(x=9-0.5=8.5.\)

Figur 1: Illustrasjon av hvordan sannsynligheten \(P(X\leq 4)\) kan regnes ut ved normaltilnærming når \(X\) er binomisk fordelt med \(n=30\) forsøk og sannsynlighet \(p=0.2.\) Sannsynligheten \(P(X\leq 4)\) er lik arealet av stolpene som er farget rødt. Normaltilnærmingen er lik arealet av området over \(x\)-aksen avgrenset av normalfordelingskurven vist i blått og linja \(x=4.5.\)
Figur 2: Illustrasjon av hvordan sannsynligheten \(P(X < 9)\) kan regnes ut ved normaltilnærming når \(X\) er binomisk fordelt med \(n=30\) forsøk og sannsynlighet \(p=0.2.\) Sannsynligheten \(P(X < 9)\) er lik arealet av stolpene som er farget rødt. Normaltilnærmingen er lik arealet av området over \(x\)-aksen avgrenset av normalfordelingskurven vist i blått og linja \(x=8.5.\)

Utregning

Før man starter med å regne ut sannsynligheter med hjelp av normaltilnærmingen må man sjekke at \(n\) er stor nok til at dette gir en en god approksimasjon. En tommelfingerregel for sier at normaltilnærmingen er god dersom både \(np\geq 5\) og \(n(1-p)\geq 5.\) Vi har \(n=30\) og \(p=0.2\) som gir \(np=30\cdot 0.2=6 \geq 5\) og \(n(1-p)=30\cdot 0.8=24\geq 5.\) Følgelig kan vi bruke normaltilnærmingen for å regne ut de tre sannsynlighetene.

Vi har dermed at at fordelingen til \(X\sim b(x;n=30,p=0.2)\) er tilnærmet lik en normalfordeling med forventningsverdi \(\mu=np=30\cdot 0.2 = 6\) og varians \(\sigma^2=np(1-p)=30\cdot 0.2\cdot (1-0.2) = 4.8.\) I utregningene under definerer vi derfor en ny stokastisk variabel \(Y\sim N(6,4.8).\)

Utregning av \(P(X\leq 4)\): Fra figur 1 ser vi at \[P(X\leq 4) \approx P(Y\leq 4 + 0.5),\] hvor leddet \(0.5\) på høyresiden av ulikhetstegnet i den siste sannsynligheten kalles en kontinuitetskorreksjon. Her legger man altså til en halv og dette gjør at tilnærmingen blir bedre enn den ville ha vært hvis man ikke hadde lagt til en halv. Hvorfor det er slik kan man intuitivt forstå ved å studere figur 1.

Når man først har kommet til at \(P(X\leq 4)\) er tilnærmet lik \(P(Y\leq 4+0.5)\) regner man ut denne sannsynligheten ved å standardisere og slå opp sannsynligheten i en tabell, slik det er vanlig å regne ut sannsynligheter i en normalfordeling. Ved å definere \[Z=\frac{Y-6}{\sqrt{4.8}}\sim N(0,1),\] får vi dermed \begin{align*}P(X\leq 4) &\approx P(Y\leq 4.5) \\&= P\left(\frac{Y-6}{\sqrt{4.8}}\leq \frac{4.5-6}{\sqrt{4.8}}\right)\\ &= P(Z\leq -0.68)\\ &= \Phi(-0.68) = 0.2483.\end{align*} Vi får altså at \[\underline{\underline{P(X\leq 4) \approx 0.2483}}.\]

Utregning av \(P(X < 9)\): Ved å studere figur 2 ser vi at \[P(X<9)\approx P(Y< 9 - 0.5),\] hvor man bør merke seg at kontinuitetskorreksjonen nå består i å trekke fra \(0.5\) på høyresiden av ulikehetstegnet i den siste sannsynligheten. Kontinuitetskorreksjon vil alltid bestå av at man legger til eller trekker fra en halv, hvilken av disse man skal gjøre for en konkret situasjon ser man lettest ved å skissere opp en figur tilsvarende det som finnes i figur 1 og 2.

Ved å definere \(Z\) som over kan vi så regne ut sannsynligheten \(P(Y\leq 9 - 0.5)\) på vanlig måte ved å standardisere. Dette gir \begin{align*}P(X<9) &\approx P(Y<8.5)\\ &=P(Y\leq 8.5)\\ &= P\left(\frac{Y-6}{\sqrt{4.8}}\leq \frac{8.5-6}{\sqrt{4.8}}\right)\\ &= P(Z\leq 1.14)\\ &\Phi(1.14) = 0.8729.\end{align*} Vi har altså at \[\underline{\underline{P(Y< 9) \approx 0.8729}}.\]

Utregning av \(P(X\geq 6|X < 9)\): Definisjonen av betinget sannsynlighet gir \begin{align*}P(X\geq 6|X<9) &= \frac{P(X\geq 6\cap X<9)}{P(X<9)}\\&=\frac{P(6\leq X<9)}{P(X<9)}.\end{align*} Sannsynligheten i nevneren har vi allerede regnet ut slik at det som gjenstår er å regne ut sannsynligheten i telleren. Sannsynligheten i telleren, \(P(6\leq X < 9)\), er illustrert i figur 3.

Figur 3: Illustrasjon av hvordan sannsynligheten \(P(6\leq X < 9)\) kan regnes ut ved normaltilnærming når \(X\) er binomisk fordelt med \(n=30\) forsøk og sannsynlighet \(p=0.2.\) Sannsynligheten \(P(6\leq X < 9)\) er lik arealet av stolpene som er farget rødt. Normaltilnærmingen er lik arealet av området over \(x\)-aksen avgrenset av normalfordelingskurven vist i blått og linjene \(x=5.5\) og \(x=8.5.\)

Ved å studere figur 3 finner vi hva kontinuitetskorreksjonene skal være, og ved å definere \(Z\) som over får vi \begin{align*}P(6\leq X < 9) &\approx P(6-0.5 \leq Y < 9-0.5)\\ &= P(Y<8.5) - P(Y<5.5)\\ &= P(Y\leq 8.5) - P(Y\leq 5.5)\\ &= P\left(\frac{Y-6}{\sqrt{4.8}}\leq \frac{8.5-6}{\sqrt{4.8}}\right) - P\left(\frac{Y-6}{\sqrt{4.8}}\leq \frac{5.5-6}{\sqrt{4.8}}\right) \\ &= P(Z\leq 1.14) - P(Z\leq -0.23)\\ &= \Phi(1.14) - \Phi(-0.23)\\ &= 0.8729-0.4090 = 0.4639.\end{align*} Dermed får vi \begin{align*}P(X\geq 6|X<9) &= \frac{P(X\geq 6\cap X<9)}{P(X<9)}\\&\approx \frac{0.4639}{0.8729} = 0.5314.\end{align*} Svaret er altså \[\underline{\underline{P(X\geq 6|X<9) \approx 0.5314}}.\]