Finne marginale punktsannsynligheter når simultanfordeling er gitt ved en formel

Eksempel

Anta at vi har to diskrete stokastiske variabler \(X\) og \(Y\) og at deres simultanfordeling er angitt ved en formel for\(f_{X,Y}(x,y)=P(X=x,Y=y)\) for alle mulige verdier av \(x\) og \(y.\) Hvordan kan vi ta regne ut marginalfordelingen for \(X\) og for \(Y?\) På temasiden hvor vi definerer simultanfordeling er også sammenhengen mellom simultanfordelingen og marginalfordelinger diskutert. På temasiden du ser på nå benytter vi denne sammenhengen i et eksempel.

Finne marginale punktsannsynligheter når simultanfordelingen er gitt ved en formel

Anta at \(X\) og \(Y\) er to diskrete stokastiske variabler med en simultan punktsannsynlighet \(f_{X,Y}(x,y)=P(X=x,Y=y).\) Anta videre at for to kjente verdier \(\lambda > 0\) og \(p\in (0,1)\) er \(f_{X,Y}(x,y)\) gitt ved følgende formel, \[ f_{X,Y}(x,y) = \frac{\left(\lambda (1-p)\right)^x}{y! (x-y)!} \left(\frac{p}{1-p}\right)^y e^{-\lambda}\] for \(x=0,1,2,\ldots\) og \(y=0,1,2,\ldots,x.\) Finn da formler for marginalfordelingene \(f_X(x)=P(X=x)\) og \(f_Y(y)=P(Y=y).\)

Illustrasjon

Før man begynner å regne for å finne marginalfordelingene er det her nyttig å få oversikt over de mulige verdiene for \(X\) og \(Y.\) Ut fra spesifikasjonen av simultanfordelingen ser vi at vi for paret \((X,Y)\) må ha at \((X,Y)\in\{(x,y)|x=0,1,2,\ldots, y=0,1,2,\ldots,x\}.\) Paret \((X,Y)\) må altså bestå av to ikke-negative heltall hvor \(Y\leq X.\) Figur 1 viser de mulige parene opp til \(x=7.\)

Figur 1: Oversikt over de mulige verdiene for paret \((X,Y).\) De mulige verdiene for paret er markert med rødt. Diagonalen \(x=y\) er markert med en stiplet blå linje.

Vi ser at de mulige verdiene for \(X\) blir alle ikke-negative heltall, \(X\in\{0,1,2,\ldots\}.\) Dessuten ser vi at de mulige verdiene for \(Y\) også blir alle ikke-negative heltall, \(Y\in\{0,1,2,\ldots\}.\)

Utregning av \(f_X(x)\)

Vi starter med å finne marginalfordelingen for \(X,\) \(f_X(x),x=0,1,2,\ldots.\) Ut fra den generelle sammenhengen mellom simultanfordeling og marginalfordeling for diskrete stokastiske variabler har vi da at marginal punktsannsynlighet for \(X\) er gitt ved \[f_X(x) = \sum_{y} f_{X,Y}(x,y),\] der summen skal være over alle mulige verdier for \(Y\) når \(X=x.\) Både fra spesifikasjonen av \(f_{X,Y}(x,y)\) og fra illustrasjonen over de mulige verdiene for paret \((X,Y)\) i figur 1 ser vi at når \(X=x\) blir de mulige verdiene for \(Y\) lik \(0,1,2,\ldots,x.\) Dermed har vi at \[f_X(x) = \sum_{y=0}^x f_{X,Y}(x,y).\] Ved å sette inn det oppgitte uttrykket for \(f_{X,Y}(x,y)\) og så sette alle faktorer som ikke avhenger av summervariabelen \(y\) utenfor summen får vi \begin{align}f_X(x) &= \sum_{y=0}^x f_{X,Y}(x,y)\\ &= \sum_{y=0}^x \left[ \frac{\left(\lambda (1-p)\right)^x}{y! (x-y)!} \left(\frac{p}{1-p}\right)^y e^{-\lambda}\right] \\ &= \left(\lambda (1-p)\right)^x e^{-\lambda} \sum_{y=0}^n \frac{1}{y! (x-y)!}\left(\frac{p}{1-p}\right)^y.\end{align} Benytter så at \begin{align}\binom{x}{y} &= \frac{x!}{y! (x-y)!}\\ &\Updownarrow\\ \frac{1}{y! (x-y)!} &= \frac{1}{x!}\binom{x}{y}\end{align} og får \begin{align}f_X(x) &= \left(\lambda (1-p)\right)^x e^{-\lambda} \sum_{y=0}^n \frac{1}{x!}\binom{x}{y}\left(\frac{p}{1-p}\right)^y\\ &= \frac{\left(\lambda (1-p)\right)^x e^{-\lambda}}{x!}\sum_{y=0}^x \binom{x}{y} \left(\frac{p}{1-p}\right)^y.\end{align} Summen i dette uttrykket kan vi bestemme ved å benytte binomialteoremet fra matematikk, som sier at for to reelle tall \(a\) og \(b\) og et positivt heltall \(n\) har vi at \[ (a+b)^n = \sum_{k=0}^n \binom{n}{k} a^{n-k} b^k.\] Hvis vi i denne formelen setter \(a=1,\) \(b=\frac{p}{1-p}\) og \(n=x,\) og bytter ut summevariabelen \(k\) med \(y\) får vi at \[\left(1 + \frac{p}{1-p}\right)^x = \sum_{y=0}^x \binom{x}{y} 1^{x-y} \left(\frac{p}{1-p}\right)^y.\] Ved å bytte om venstre og høyre side i dette uttrykket får vi dermed at \begin{align} \sum_{y=0}^x \binom{x}{y}\left(\frac{p}{1-p}\right)^x &= \left(1+\frac{p}{1-p}\right)^x\\ &= \left( \frac{1-p+p}{1-p}\right)^x \\ &= \left(\frac{1}{1-p}\right)^x\\ &= \frac{1}{(1-p)^x}.\end{align} Ved å sette dette inn i uttrykket vi har for \(f_X(x)\) får vi \begin{align}f_X(x) &= \frac{\left(\lambda (1-p)\right)^x e^{-\lambda}}{x!}\sum_{y=0}^x \binom{x}{y} \left(\frac{p}{1-p}\right)^y \\ &= \frac{\left(\lambda (1-p)\right)^x e^{-\lambda}}{x!} \cdot \frac{1}{(1-p)^x} \\ &= \frac{\lambda^x}{x!}e^{-\lambda},\end{align} der vi i den siste overgangen forkortet \((1-p)^x\) i teller mot tilsvarende faktor i nevner. Siden vi allerede har etablert at de mulige verdiene til \(X\) er \(0,1,2,\ldots,\) er marginalfordelingen for \(X\) gitt ved \[ \underline{\underline{f_X(x) = \frac{\lambda^x}{x!}e^{-\lambda},x=0,1,2,\ldots}}.\] Det kan her nevnes at dette kalles for en poissonfordeling med parameter \(\lambda.\)

Utregning av \(f_Y(y)\)

Vi starter så med å regne ut marginalfordelingen til \(Y,\) \(f_Y(y).\) Ut fra den generelle sammenhengen mellom simultanfordeling og marginalfordeling for diskrete stokastiske variabler har vi nå at marginal punktsannsynlighet for \(Y\) er gitt ved \[f_Y(y) = \sum_{x} f_{X,Y}(x,y),\] der summen skal være over alle mulige verdier for \(X\) når \(Y=y.\) Ut fra spesifikasjonen av \(f_{X,Y}(x,y)\) er det ikke enkelt å se hva som er de mulige verdiene for \(X\) når \(Y=y,\) men ut fra illustrasjonen i figur 1 ser vi at når \(Y=y\) er de mulige verdiene for \(X\) lik \(y,y+1,y+2,\ldots.\) Dermed har vi at \[f_Y(y) = \sum_{x=y}^\infty f_{X,Y}(x,y).\] Ved å sette inn det oppgitte uttrykket for \(f_{X,Y}(x,y)\) og så sette alle faktorer som ikke avhenger av summervariabelen \(x\) utenfor summen får vi \begin{align}f_Y(y) &= \sum_{x=y}^\infty f_{X,Y}(x,y)\\ &= \sum_{x=y}^\infty \left[ \frac{\left(\lambda (1-p)\right)^x}{y! (x-y)!} \left(\frac{p}{1-p}\right)^y e^{-\lambda}\right] \\ &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y \sum_{x=y}^\infty \frac{(\lambda(1-p))^x}{(x-y)!}.\end{align} For å få en sum som går fra null definerer vi en ny summervariabel \(u=x-y\Leftrightarrow x=u+y.\) Setter vi inn for summevariabelen \(x\) i uttrykket vi har for \(f_Y(y)\) og setter deretter igjen faktorer som ikke avhenger av summevariabelen utenfor summen får vi \begin{align}f_Y(y) &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y \sum_{x=y}^\infty \frac{(\lambda(1-p))^x}{(x-y)!}\\ &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y \sum_{u=0}^\infty \frac{(\lambda (1-p))^{u+y}}{((u+y)-y)!}\\ &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y (\lambda(1-p))^y \sum_{u=0}^\infty \frac{(\lambda(1-p))^u}{u!}.\end{align} Summen i dette uttrykket kan vi bestemme ved å ta utgangspunkt i taylorrekkeutviklingen av exponensialfunksjonen. Denne kjenner vi fra matematikk, og den sier at for ethvert reelt tall \(v\) har vi at \[e^v = \sum_{n=0}^\infty \frac{v^n}{n!}.\] Hvis vi i dette uttrykket setter \(v=\lambda(1-p)\) og bruker \(u\) som summevariabel i stedet for \(n\) får vi at \[e^{\lambda (1-p)} = \sum_{u=0}^\infty \frac{(\lambda(1-p))^u}{u!}.\] Ved å sette dette inn i uttrykket vi har for \(f_Y(y)\) får vi da \begin{align}f_Y(y) &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y (\lambda(1-p))^y \sum_{u=0}^\infty \frac{(\lambda(1-p))^u}{u!}\\ &= \frac{e^{-\lambda}}{y!}\left(\frac{p}{1-p}\right)^y (\lambda(1-p))^y e^{\lambda (1-p)}\\ &= \frac{e^{-\lambda +\lambda (1-p)} }{y!} p^y \lambda^y\\ &= \frac{(\lambda p)^y}{y!} e^{-\lambda p}.\end{align} Siden vi allerede har etablert at de mulige verdiene til \(Y\) er \(0,1,2,\ldots,\) er marginalfordelingen for \(Y\) gitt ved \[ \underline{\underline{f_Y(y) = \frac{(\lambda p)^y}{y!} e^{-\lambda p}, y=0,1,2,\ldots}}.\] Man kan gjerne legge merke til at denne punktsannsynligheten er på samme matematiske form som \(f_X(x),\) forskjellen er bare at \(\lambda\) i formelen for \(f_X(x)\) er byttet ut med \(\lambda p\) i formelen for \(f_Y(y).\) Dette betyr at også \(f_Y(y)\) er en poissonfordeling, men denne har parameter \(\lambda p.\)