Normalfordeling

Normalfordelingen står i en særstilling blant sannsynlighetsfordelingene. Grunnen er at sannsynlighetsfordelingen til summer og gjennomsnitt av uavhengige stokastiske variabler, som alle har samme fordeling, nærmer seg en normalfordeling. Tilnærmingen blir bedre jo flere variabler vi summerer eller tar gjennomsnittet av. Dette resultatet kalles sentralgrenseteoremet. Det er verdt å merke seg at det ikke er viktig hvilken fordeling de enkelte variablene har, summen eller gjennomsnittet vil uansett nærme seg normalfordelingen.

Normalfordeling

Vi starter med å definere normalfordelingen ved å angi hvilken parametriske form sannsynlighetstettheten skal ha.

Kommentar

Man kan merke seg at det implisitt i definisjonen ligger en påstand om hva forventningsverdien og variansen er i en normalfordeling er. At denne påstanden er korrekt blir etablert i teoremet om forventningsverdi og varians lenger nede på denne siden.

Notasjon

Det benyttes ulike notasjoner for å spesifisere at en stokastisk variabel \(X\) er normalfordelt med forventningsverdi \(\mu\) og varians \(\sigma^2.\) Det mest vanlige er å skrive \(X\sim \text{N}(\mu,\sigma^2).\) En annen variant er å skrive \(X\sim n(x;\mu,\sigma,)\) der \(n(x;\mu,\sigma)\) betegner sannsynlighetstettheten til den angjeldende normalfordeling.

Sannsynlighetstettheten \(f(x)\) i en standard normalfordeling betegnes alternativt ofte med \(\varphi(x),\) dvs

\[ \varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}, \]

og for den tilhørende kumulative fordelingsfunksjonen \(F(x)\) brukes tilsvarende ofte \(\Phi(x).\) En stokastisk variabel som er standard normalfordelt betegnes gjerne med bokstaven \(Z.\) Dersom det er flere stokastiske variabler som er uavhengige og standard normalfordelte betegnes de gjerne med \(Z_1,Z_2,Z_3\) og så videre.

Eksempler på sannsynlighetstetthet

Figur 1 viser sannsynlighetstettheten for fire normalfordelinger. Standard normalfordelingen, \(\text{N}(0,1),\) er vist i rødt, \(\text{N}(0,2)\)-fordelingen i blått, \(\text{N}(2,1)\)-fordelingen i grønt og \(\text{N}(2,0.5)\)-fordelingen i brunt.

Figur 1: Sannsynlighetstettheter \(f(x)\) for normalfordelinger med \(\mu=0,\sigma=1\) i rødt, \(\mu=0,\sigma=2\) i blått, \(\mu=2,\sigma=1\) i grønt, og \(\mu=2,\sigma=0.5\) i brunt.

Kumulativ fordelingsfunksjon

Kumulativ fordelingsfunksjon kan finnes ved å benytte generell sammenheng mellom \(f(x)\) og \(F(x).\) Her får vi

\[ F(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}}\frac{1}{\sigma}e^{-\frac{1}{2}\frac{(t-\mu)^2}{\sigma^2}} \text{d}t. \]

Generelt kan dette integralet dog ikke skrives på noen enkel analytisk form. Når man har behov for å evaluere kumulativ fordelingsfunksjon i en normalfordeling har man to muligheter.

  • Man kan benytte et dataprogram der evaluering av \(F(x)\) er implementert.
  • Man kan først bruke at man kan standardisere en normalfordelt variabel til en standard normalfordelt variabel, og deretter benytte en statistisk tabell hvor \(F(x)\) for en standard normalfordeling er tabulert.

Kvantil

\((1-\alpha)\)-kvantilen \(x_\alpha\) til en normalfordeling med forventningsverdi \(\mu\) og varians \(\sigma^2\) kan man i prinsippet finne ved å løse ligningen \(F(x_\alpha)=1-\alpha\) med hensyn på \(x_\alpha.\) Denne ligningen har dog ingen enkel analytisk form, så for å finne en verdi for \(x_\alpha\) har man to muligheter.

  • Man kan benytte et dataprogram der utregning av kvantiler er implementert.
  • Man kan først bruke at man kan standardisere en normalfordelt variabel til en standard normalfordelt variabel, og deretter benytte en statistisk tabell hvor kvantiler i en standard normalfordeling er tabulert.

Man bør merke seg at i en standard normalfordeling er det vanlig å betegne \((1-\alpha)\)-kvantilen med \(z_\alpha.\) Siden sannsynlighetstettheten i en standard normalfordeling er symmetrisk omkring \(0\) får man at \[z_{1-\alpha}=-z_\alpha.\]

Sammenheng med andre fordelinger

Det finnes sammenhenger mellom normalfordeling og en del andre fordelinger. Disse sammenhengene diskuteres på følgende temasider: