Direkt zum Inhalt

Wikipedia Version

Dieser Text basiert auf dem Artikel Chi-Quadrat-Verteilung aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported (Kurzfassung (de)). In der Wikipedia ist eine Liste der Autoren verfügbar.
Wikipedia-Version zuletzt aktualisiert am 16.07.19.

Chi-Quadrat-Verteilung

Die Chi-Quadrat-Verteilung (χ2{\displaystyle \chi ^{2}}-Verteilung) ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen. Üblicherweise ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Die Chi-Quadrat-Verteilung hat einen einzigen Parameter, nämlich die Anzahl der Freiheitsgrade n{\displaystyle n}.

Dichten der Chi-Quadrat-Verteilung mit unterschiedlicher Anzahl an Freiheitsgraden k

Sie ist eine der Verteilungen, die aus der Normalverteilung N(μ,σ2){\displaystyle {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)} abgeleitet werden kann: Hat man n{\displaystyle n} Zufallsvariablen Zi{\displaystyle Z_{i}}, die unabhängig und standardnormalverteilt sind, so ist die Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden definiert als die Verteilung der Summe der quadrierten Zufallsvariablen Z12+⋯+Zn2{\displaystyle Z_{1}^{2}+\dotsb +Z_{n}^{2}}. Solche Summen quadrierter Zufallsvariablen treten bei Schätzfunktionen wie der Stichprobenvarianz zur Schätzung der empirischen Varianz auf. Die Chi-Quadrat-Verteilung ermöglicht damit unter anderem ein Urteil über die Kompatibilität eines vermuteten funktionalen Zusammenhangs (Abhängigkeit von der Zeit, Temperatur, Druck etc.) mit empirisch ermittelten Messpunkten. Kann z. B. eine Gerade die Daten erklären, oder braucht man doch eine Parabel oder vielleicht einen Logarithmus? Man wählt verschiedene Modelle aus, und dasjenige mit der besten Anpassungsgüte, dem kleinsten χ2{\displaystyle \chi ^{2}}, bietet die beste Erklärung der Daten.[1][2] So stellt die χ2{\displaystyle \chi ^{2}}-Verteilung durch die Quantifizierung der zufälligen Schwankungen die Auswahl verschiedener Erklärungsmodelle auf eine numerische Basis. Außerdem erlaubt sie, wenn man die empirische Varianz bestimmt hat, die Schätzung des Vertrauensintervalls, das den (unbekannten) Wert der Varianz der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit einschließt. Diese und weitere Anwendungen sind weiter unten und im Artikel Chi-Quadrat-Test beschrieben.

Die Chi-Quadrat-Verteilung wurde 1876 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[3]

Definition

Dichte und Verteilung von mehreren Chi-Quadrat-verteilten Zufallsgrößen

Das Quadrat einer standardnormalverteilten Zufallsvariable Z∼N(0,1){\displaystyle Z\sim {\mathcal {N}}(0,1)} folgt einer Chi-Quadrat-Verteilung mit einem Freiheitsgrad:

Z2∼χ2(1){\displaystyle Z^{2}\sim \chi ^{2}(1)}.

Weiterhin gilt, wenn Xr1,…,Xrn{\displaystyle X_{r_{1}},\dotsc ,X_{r_{n}}} gemeinsam stochastisch unabhängige Chi-Quadrat-verteilte Zufallsvariablen sind, dann ist deren Summe Chi-Quadrat-verteilt mit der Summe der jeweiligen Freiheitsgrade[4]

Y=Xr1+⋯+Xrn∼χ2(r1+⋯+rn){\displaystyle Y=X_{r_{1}}+\dotsb +X_{r_{n}}\sim \chi ^{2}(r_{1}+\dotsb +r_{n})}.

Die Chi-Quadrat-Verteilung ist also reproduktiv. Seien Z1,…,Zn{\displaystyle Z_{1},\dotsc ,Z_{n}} stochastisch unabhängige und standardnormalverteilte Zufallsvariablen, dann gilt für deren Quadratsumme Q{\displaystyle Q}, dass sie Chi-Quadrat-verteilt mit der Anzahl der Freiheitsgrade n{\displaystyle n} ist:

Q=Z12+⋯+Zn2∼χ2(n){\displaystyle Q=Z_{1}^{2}+\dotsb +Z_{n}^{2}\;\sim \;\chi ^{2}(n)}.

Das Zeichen ∼{\displaystyle \,\sim } ist eine Kurzschreibweise für „folgt der Verteilung“. Bspw. bedeutet Q∼χ2(n){\displaystyle Q\;\sim \;\chi ^{2}(n)}; auch oft als Q∼χn2{\displaystyle Q\;\sim \;\chi _{n}^{2}} geschrieben: Die Zufallsvariable Q{\displaystyle Q} folgt einer Chi-Quadrat-Verteilung mit der Anzahl der Freiheitsgrade n{\displaystyle n}. Die Summe quadrierter Größen kann keine negativen Werte annehmen.

Im Unterschied dazu gilt für die einfache Summe Z1+⋯+Zn∼N(0,n){\displaystyle Z_{1}+\dotsb +Z_{n}\sim {\mathcal {N}}(0,n)} mit um den Nullpunkt symmetrischer Verteilung.

Dichte

Die Dichte fn{\displaystyle f_{n}} der χn2{\displaystyle \chi _{n}^{2}}-Verteilung mit n{\displaystyle n} Freiheitsgraden hat die Form:

fn(x)=12n2Γ(n2)xn2−1exp⁡{−x2},x>0{\displaystyle f_{n}(x)={\frac {1}{2^{\frac {n}{2}}\Gamma ({\tfrac {n}{2}})}}x^{{\frac {n}{2}}-1}\operatorname {exp} \left\{-{\frac {x}{2}}\right\}\quad ,x>0}

Dabei steht Γ(r){\displaystyle \Gamma (r)} für die Gammafunktion. Die Werte von Γ(n2){\displaystyle \Gamma ({\tfrac {n}{2}})} kann man mit

Γ(12)=π,Γ(1)=1,{\displaystyle \Gamma ({\tfrac {1}{2}})={\sqrt {\pi }}\;,\quad \Gamma (1)=1\;,}
Γ(r+1)=r⋅Γ(r)mitr∈R+{\displaystyle \Gamma (r+1)=r\cdot \Gamma (r)\quad {\text{mit}}\quad r\in \mathbb {R} ^{+}}.

berechnen.

Verteilungsfunktion

Die Verteilungsfunktion kann man mit Hilfe der regularisierten unvollständigen Gammafunktion schreiben:

Fn(x)=P(n2,x2).{\displaystyle F_{n}(x)=P({\tfrac {n}{2}},{\tfrac {x}{2}}).}

Wenn n{\displaystyle n} eine natürliche Zahl ist, dann kann die Verteilungsfunktion (mehr oder weniger) elementar dargestellt werden:

P(n2,x2)=1−e−x2∑k=0n/2−11Γ(k+1)(x2)k(n=2,4,…),{\displaystyle P\left({\tfrac {n}{2}},{\tfrac {x}{2}}\right)=1-e^{-{\frac {x}{2}}}\sum \limits _{k=0}^{n/2-1}{\frac {1}{\Gamma (k+1)}}({\tfrac {x}{2}})^{k}\quad (n=2,4,\dotsc ),}
P(n2,x2)=Erf⁡(x2)−e−x2∑k=0⌊n/2⌋−11Γ(k+32)(x2)k+12(n=1,3,…),{\displaystyle P({\tfrac {n}{2}},{\tfrac {x}{2}})=\operatorname {Erf} \left({\sqrt {\tfrac {x}{2}}}\right)-e^{-{\frac {x}{2}}}\sum \limits _{k=0}^{\lfloor n/2\rfloor -1}{\frac {1}{\Gamma (k+{\tfrac {3}{2}})}}({\tfrac {x}{2}})^{k+{\tfrac {1}{2}}}\quad (n=1,3,\dotsc ),}

wobei Erf{\displaystyle \operatorname {Erf} } die Fehlerfunktion bezeichnet. Die Verteilungsfunktion beschreibt die Wahrscheinlichkeit, dass χn2{\displaystyle \chi _{n}^{2}} im Intervall [0,x]{\displaystyle [0,x]} liegt.

Eigenschaften

Erwartungswert

Der Erwartungswert der Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden ist gleich der Anzahl der Freiheitsgrade

E⁡(χn2)=n{\displaystyle \operatorname {E} \left(\chi _{n}^{2}\right)=n}.

Unter der Voraussetzung einer standardnormalverteilten Grundgesamtheit sollte also bei richtiger Abschätzung der Varianz der Grundgesamtheit der Wert χn2/n{\displaystyle \chi _{n}^{2}/n} in der Nähe von 1 liegen.

Varianz

Die Varianz der Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden ist gleich 2 mal die Anzahl der Freiheitsgrade

Var⁡(χn2)=2n{\displaystyle \operatorname {Var} (\chi _{n}^{2})=2n}.

Modus

Der Modus der Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden ist n−2{\displaystyle n-2} für n≥2{\displaystyle n\geq 2}.

Schiefe

Die Schiefe γm{\displaystyle \gamma _{m}} der Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden ist

γm(χn2)=22n{\displaystyle \gamma _{m}(\chi _{n}^{2})={\frac {2{\sqrt {2}}}{\sqrt {n}}}}.

Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d. h., sie ist linkssteil- bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade n{\displaystyle n}, desto weniger schief ist die Verteilung.

Kurtosis

Die Kurtosis (Wölbung) β2{\displaystyle \beta _{2}} der Chi-Quadrat-Verteilung mit n{\displaystyle n} Freiheitsgraden ist gegeben durch

β2=3+12n{\displaystyle \beta _{2}=3+{\frac {12}{n}}}.

Der Exzess γ2{\displaystyle \gamma _{2}} gegenüber der Normalverteilung ergibt sich damit zu  γ2=12n{\displaystyle \gamma _{2}={\tfrac {12}{n}}}.[5] Daher gilt: Je höher die Anzahl der Freiheitsgrade n{\displaystyle n}, desto geringer der Exzess.

Momenterzeugende Funktion

Die momenterzeugende Funktion für X∼χn2{\displaystyle X\sim \chi _{n}^{2}} hat die Form[6]

MX(t)=1(1−2t)n/2{\displaystyle M_{X}(t)={\frac {1}{(1-2t)^{n/2}}}}.

Charakteristische Funktion

Die charakteristische Funktion für X∼χn2{\displaystyle X\sim \chi _{n}^{2}} ergibt sich aus der momenterzeugenden Funktion als:

φX(s)=1(1−2is)n/2{\displaystyle \varphi _{X}(s)={\frac {1}{(1-2is)^{n/2}}}}.

Entropie

Die Entropie der Chi-Quadrat-Verteilung (ausgedrückt in nats) beträgt

H(X)=ln⁡(2Γ(n2))+(1−n2)ψ(n2)+n2,{\displaystyle H(X)=\ln \left(2\Gamma \left({\frac {n}{2}}\right)\right)+\left(1-{\frac {n}{2}}\right)\psi \left({\frac {n}{2}}\right)+{\frac {n}{2}},}

wobei ψ(p) die Digamma-Funktion bezeichnet.

Nichtzentrale Chi-Quadrat-Verteilung

Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes μi(i=1,…,n){\displaystyle \mu _{i}(i=1,\ldots ,n)} zentriert sind (d. h., wenn nicht alle μi=0{\displaystyle \mu _{i}=0} sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben n{\displaystyle n} den Nichtzentralitätsparameter λ>0{\displaystyle \lambda >0}.

Seien Zi∼N(μi,1),i=1,2,…,n{\displaystyle Z_{i}\sim {\mathcal {N}}(\mu _{i},1),\,i=1,2,\ldots ,n}, so ist

∑i=1nZi2∼χ2(n,λ){\displaystyle \sum _{i=1}^{n}{Z_{i}}^{2}\sim \chi ^{2}(n,\lambda )} mit λ=∑i=1nμi2{\displaystyle \lambda =\sum _{i=1}^{n}{\mu _{i}}^{2}}.

Insbesondere folgt aus X∼χ2(n−1){\displaystyle \,X\sim \chi ^{2}(n-1)} und Z∼N(λ,1){\displaystyle Z\sim {\mathcal {N}}({\sqrt {\lambda }},1)}, dass X+Z2∼χ2(n,λ){\displaystyle \,X+Z^{2}\sim \chi ^{2}(n,\lambda )} ist.

Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist

χ2(n+2j)=χ2(n,λ){\displaystyle \chi ^{2}(n+2\,j)=\chi ^{2}(n,\lambda )},

wenn j∼P(λ2){\displaystyle j\sim {\mathcal {P}}\left({\tfrac {\lambda }{2}}\right)} aus einer Poisson-Verteilung gezogen wird.

Dichtefunktion

Die Dichtefunktion der nichtzentralen Chi-Quadrat-Verteilung ist

f(x)=exp⁡{−12(x+λ)}2n2∑j=0∞xn2+j−1λj22jΓ(n2+j)j!{\displaystyle f(x)={\frac {\operatorname {exp} \left\{-{\frac {1}{2}}(x+\lambda )\right\}}{2^{\frac {n}{2}}}}\,\sum _{j=0}^{\infty }{\frac {x^{{\frac {n}{2}}+j-1}\lambda ^{j}}{2^{2j}\,\Gamma \left({\frac {n}{2}}+j\right)\,j!}}} für x≥0{\displaystyle x\geq 0} , f(x)=0{\displaystyle \,f(x)=0} für x<0{\displaystyle \,x<0} .

Die Summe über j führt auf eine modifizierte Bessel-Funktion erster Gattung Iq(x){\displaystyle I_{q}(x)} . Damit erhält die Dichtefunktion folgende Form:

f(x)=exp⁡{−12(x+λ)}x12(n−1)λ2(λx)n4In2−1(λx){\displaystyle f(x)={\frac {\operatorname {exp} \left\{-{\frac {1}{2}}(x+\lambda )\right\}x^{{\frac {1}{2}}(n-1)}{\sqrt {\lambda }}}{2(\lambda x)^{\frac {n}{4}}}}\,I_{{\frac {n}{2}}-1}\left({\sqrt {\lambda x}}\right)} für x≥0{\displaystyle x\geq 0}.

Erwartungswert und Varianz der nichtzentralen Chi-Quadrat-Verteilung n+λ{\displaystyle n+\lambda } und 2n+4λ{\displaystyle 2n+4\lambda } gehen ebenso wie die Dichte selbst bei λ→0{\displaystyle \lambda \to 0} in die entsprechenden Ausdrücke der zentralen Chi-Quadrat-Verteilung über.

Verteilungsfunktion

Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion QM(a,b){\displaystyle Q_{M}(a,b)} ausgedrückt werden.[7]

F(x)=1−Qn2(λ,x){\displaystyle F(x)=1-Q_{\frac {n}{2}}\left({\sqrt {\lambda }},{\sqrt {x}}\right)}

Beispiel

Man macht n{\displaystyle n} Messungen einer Größe x{\displaystyle x}, die aus einer normalverteilten Grundgesamtheit stammen. Sei x¯{\displaystyle {\overline {x}}} der empirische Mittelwert der n{\displaystyle n} gemessenen Werte und

s2=1n−1∑k=1n(xk−x¯)2{\displaystyle s^{2}={\frac {1}{n-1}}\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}}

die korrigierte Stichprobenvarianz. Dann lässt sich z. B. das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit σ2{\displaystyle \sigma ^{2}} angeben:

n−1χb2s2≤σ2≤n−1χa2s2,{\displaystyle {\tfrac {n-1}{\chi _{b}^{2}}}\,s^{2}\leq \sigma ^{2}\leq {\tfrac {n-1}{\chi _{a}^{2}}}\,s^{2},}

wobei χb2{\displaystyle \chi _{b}^{2}} durch Fn−1(χb2)=0,975{\displaystyle F_{n-1}(\chi _{b}^{2})=0{,}975} und χa2{\displaystyle \chi _{a}^{2}} durch Fn−1(χa2)=0,025{\displaystyle F_{n-1}(\chi _{a}^{2})=0{,}025} bestimmt wird, und deshalb auch χa2≤n−1≤χb2{\displaystyle \chi _{a}^{2}\leq n-1\leq \chi _{b}^{2}}. Die Grenzen ergeben sich daraus, dass (n−1)s2σ2{\displaystyle {\tfrac {(n-1)s^{2}}{\sigma ^{2}}}} wie χn−12{\displaystyle \chi _{n-1}^{2}} verteilt ist.

Herleitung der Verteilung der Stichprobenvarianz

Sei x1,…,xn{\displaystyle x_{1},\dots ,x_{n}} eine Stichprobe von n{\displaystyle n} Messwerten, gezogen aus einer normalverteilten Zufallsvariablen X{\displaystyle X} mit empirischen Mittelwert x¯=1n∑i=1nxi{\displaystyle {\overline {x}}={\tfrac {1}{n}}\sum _{i=1}^{n}x_{i}} und Stichprobenvarianz s2=1n−1∑i=1n(xi−x¯)2{\displaystyle s^{2}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} als Schätzfunktionen für Erwartungswert μ{\displaystyle \mu } und Varianz σ2{\displaystyle \sigma ^{2}} der Grundgesamtheit.

Dann lässt sich zeigen, dass (n−1)s2σ2=∑i=1n(xi−x¯)2σ2{\displaystyle {\tfrac {(n-1)s^{2}}{\sigma ^{2}}}=\sum _{i=1}^{n}{\tfrac {(x_{i}-{\overline {x}})^{2}}{\sigma ^{2}}}} verteilt ist wie χn−12{\displaystyle \chi _{n-1}^{2}}.

Dazu werden nach Helmert[8] die (xi){\displaystyle (x_{i})} mittels einer orthonormalen Linearkombination in neue Variablen (yj){\displaystyle (y_{j})} transformiert. Die Transformation lautet:

y1=12x1−12x2{\displaystyle y_{1}={\tfrac {1}{\sqrt {2}}}x_{1}-{\tfrac {1}{\sqrt {2}}}x_{2}}
y2=16x1+16x2−26x3{\displaystyle y_{2}={\tfrac {1}{\sqrt {6}}}x_{1}+{\tfrac {1}{\sqrt {6}}}x_{2}-{\tfrac {2}{\sqrt {6}}}x_{3}}
   ⋮{\displaystyle \vdots }
yn−1=1n(n−1)x1+1n(n−1)x2+⋯+1n(n−1)xn−1−n−1n(n−1)xn{\displaystyle y_{n-1}={\tfrac {1}{\sqrt {n(n-1)}}}x_{1}+{\tfrac {1}{\sqrt {n(n-1)}}}x_{2}+\dotsb +{\tfrac {1}{\sqrt {n(n-1)}}}x_{n-1}-{\tfrac {n-1}{\sqrt {n(n-1)}}}x_{n}}
yn=1nx1+1nx2+⋯+1nxn−1+1nxn=nx¯.{\displaystyle y_{n}={\tfrac {1}{\sqrt {n}}}x_{1}+{\tfrac {1}{\sqrt {n}}}x_{2}+\dotsb +{\tfrac {1}{\sqrt {n}}}x_{n-1}+{\tfrac {1}{\sqrt {n}}}x_{n}={\sqrt {n}}\,{\overline {x}}.}

Die neuen unabhängigen Variablen yi{\displaystyle y_{i}} sind wie X{\displaystyle X} normalverteilt mit gleicher Varianz σyi2=σxi2=σ2,(i=1,…,n){\displaystyle \sigma _{y_{i}}^{2}=\sigma _{x_{i}}^{2}=\sigma ^{2},(i=1,\dots ,n)}, aber mit Erwartungswert E(yi)=0,(i=1,…,n−1),{\displaystyle \mathrm {E} (y_{i})=0,(i=1,\dots ,n-1),} beides aufgrund der Faltungsinvarianz der Normalverteilung.

Außerdem gilt für die Koeffizienten aij{\displaystyle a_{ij}} in yi=∑j=1naijxj{\displaystyle y_{i}=\sum _{j=1}^{n}a_{ij}x_{j}} (falls j>i+1{\displaystyle j>i+1} , ist aij=0{\displaystyle a_{ij}=0}) wegen der Orthonormalität ∑i=1naijaik=δjk{\displaystyle \sum _{i=1}^{n}a_{ij}a_{ik}=\delta _{jk}} (Kronecker-Delta) und damit

∑i=1nyi2=∑i=1n∑j=1naijxj∑k=1naikxk=∑j=1n∑k=1nδjkxjxk=∑j=1nxj2.{\displaystyle \sum _{i=1}^{n}y_{i}^{2}=\sum _{i=1}^{n}\sum _{j=1}^{n}a_{ij}x_{j}\sum _{k=1}^{n}a_{ik}x_{k}=\sum _{j=1}^{n}\sum _{k=1}^{n}\delta _{jk}x_{j}x_{k}=\sum _{j=1}^{n}x_{j}^{2}.}

Deshalb ergibt sich nun für die Summe der Abweichungsquadrate

(n−1)s2=∑i=1n(xi−x¯)2=∑i=1nxi2−nx¯2=∑i=1nyi2−yn2=∑i=1n−1yi2{\displaystyle (n-1)s^{2}=\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}=\sum _{i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}=\sum _{i=1}^{n}y_{i}^{2}-y_{n}^{2}=\sum _{i=1}^{n-1}y_{i}^{2}}

und schlussendlich nach Division durch σ2{\displaystyle \sigma ^{2}}

(n−1)s2σ2=∑i=1n−1yi2σ2.{\displaystyle (n-1){\frac {s^{2}}{\sigma ^{2}}}=\sum _{i=1}^{n-1}{\frac {y_{i}^{2}}{\sigma ^{2}}}.}

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit n−1{\displaystyle n-1} Summanden, wie für χn−12{\displaystyle \chi _{n-1}^{2}} gefordert.

Demnach ist also die Summe Chi-Quadrat-verteilt mit n−1{\displaystyle n-1} Freiheitsgraden ∑i=1n(xi−x¯σ)2∼χn−12{\displaystyle \sum _{i=1}^{n}\left({\tfrac {x_{i}-{\overline {x}}}{\sigma }}\right)^{2}\sim \chi _{n-1}^{2}}, während laut Definition der Chi-Quadrat-Summe ∑i=1n(xi−μσ)2∼χn2{\displaystyle \sum _{i=1}^{n}\left({\tfrac {x_{i}-\mu }{\sigma }}\right)^{2}\sim \chi _{n}^{2}}. Ein Freiheitsgrad wird hier „verbraucht“, denn aufgrund der Schwerpunkteigenschaft des empirischen Mittels ∑i=1n(xi−x¯)=0{\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)=0} ist die letzte Abweichung (xn−x¯){\displaystyle \left(x_{n}-{\overline {x}}\right)} bereits durch die ersten (n−1){\displaystyle (n-1)} bestimmt. Folglich variieren nur (n−1){\displaystyle (n-1)} Abweichungen frei und man mittelt die empirische Varianz deshalb, indem man durch die Anzahl der Freiheitsgrade (n−1){\displaystyle (n-1)} dividiert.

Beziehung zu anderen Verteilungen

Beziehung zur Gammaverteilung

Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist X∼χn2{\displaystyle X\sim \chi _{n}^{2}}, so gilt

X∼γ(n2,12).{\displaystyle X\sim \gamma ({\tfrac {n}{2}},{\tfrac {1}{2}}).}

Beziehung zur Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Q=Z12+⋯+Zn2∼χ2(n){\displaystyle Q=Z_{1}^{2}+\dotsb +Z_{n}^{2}\;\sim \;\chi ^{2}(n)}.
  • Für n≥30{\displaystyle n\geq 30} ist Y=2X−2n−1{\displaystyle Y={\sqrt {2X}}-{\sqrt {2n-1}}} näherungsweise standardnormalverteilt.
  • Für n>100{\displaystyle n>100} ist die Zufallsvariable Xn{\displaystyle X_{n}} näherungsweise normalverteilt, mit Erwartungswert n{\displaystyle n} und Standardabweichung 2n{\displaystyle {\sqrt {2n}}} bzw. bei einer nichtzentralen Chi-Quadrat-Verteilung mit Erwartungswert n+λ{\displaystyle n+\lambda } und Standardabweichung 2n+4λ{\displaystyle {\sqrt {2n+4\lambda }}}.

Beziehung zur Exponentialverteilung

Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung Exp⁡(λ){\displaystyle \operatorname {Exp} (\lambda )} mit dem Parameter λ=1/2{\displaystyle \,\lambda =1/2}.

Beziehung zur Erlang-Verteilung

Eine Chi-Quadrat-Verteilung mit 2n{\displaystyle 2n} Freiheitsgraden ist identisch mit einer Erlang-Verteilung Erl⁡(λ,n){\displaystyle \operatorname {Erl} (\lambda ,n)} mit n{\displaystyle n} Freiheitsgraden und λ=1/2{\displaystyle \,\lambda =1/2}.

Beziehung zur F-Verteilung

Seien χ2(r1){\displaystyle \chi ^{2}(r_{1})} und χ2(r2){\displaystyle \chi ^{2}(r_{2})} unabhängige Chi-Quadrat-verteilte Zufallsvariablen mit r1{\displaystyle r_{1}} und r2{\displaystyle r_{2}} Freiheitsgraden, dann ist der Quotient

F=χ2(r1)/r1χ2(r2)/r2{\displaystyle F={\frac {\chi ^{2}(r_{1})/r_{1}}{\chi ^{2}(r_{2})/r_{2}}}}

F-verteilt mit r1{\displaystyle r_{1}} Zählerfreiheitsgraden und r2{\displaystyle r_{2}} Nennerfreiheitsgraden.[9]

Beziehung zur Poisson-Verteilung

Die Verteilungsfunktionen der Poisson-Verteilung und der Chi-Quadrat-Verteilung hängen auf folgende Weise zusammen:

Die Wahrscheinlichkeit, n{\displaystyle n} oder mehr Ereignisse in einem Intervall zu finden, innerhalb dessen man im Mittel λ{\displaystyle \lambda } Ereignisse erwartet, gleicht der Wahrscheinlichkeit, dass der Wert von χ2n2≤2λ{\displaystyle \chi _{2n}^{2}\leq 2\lambda } ist. Es gilt nämlich

1−Q(n,λ)=P(n,λ){\displaystyle 1-Q(n,\lambda )=P(n,\lambda )},

mit P{\displaystyle P} und Q{\displaystyle Q} als regularisierte Gammafunktionen.

Beziehung zur stetigen Gleichverteilung

Für gerade n=2m{\displaystyle n=2m} kann man die χn2{\displaystyle \chi _{n}^{2}}-Verteilung als m{\displaystyle m}-fache Faltung bilden mit Hilfe der gleichmäßig stetigen Dichte U(0,1){\displaystyle U(0,1)}:

χn2=−2ln⁡(∏i=1mui)=−2∑i=1mln⁡(ui){\displaystyle \chi _{n}^{2}=-2\ln {\left(\prod _{i=1}^{m}u_{i}\right)}=-2\sum _{i=1}^{m}\ln(u_{i})},

worin die ui{\displaystyle u_{i}} m{\displaystyle m} unabhängige gleichmäßig stetig verteilte Zufallsvariablen sind.

Für ungerade n{\displaystyle n} gilt dagegen

χn2=χn−12+[N(0,1)]2.{\displaystyle \chi _{n}^{2}=\chi _{n-1}^{2}+\left[{\mathcal {N}}(0,1)\right]^{2}.}

Herleitung der Dichtefunktion

Die Dichte der Zufallsvariable χn2=X12+⋯+Xn2{\displaystyle \chi _{n}^{2}=X_{1}^{2}+\dotsb +X_{n}^{2}}, mit X1,…,Xn{\displaystyle X_{1},\dots ,X_{n}} unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen X1,…,Xn{\displaystyle X_{1},\dots ,X_{n}}. Diese gemeinsame Dichte ist das n{\displaystyle n}-fache Produkt der Standardnormalverteilungsdichte:

fX1,…,Xn(x1,…,xn)=∏i=1ne−12xi22π=(2π)−n2e−12(x12+⋯+xn2).{\displaystyle f_{X_{1},\dots ,X_{n}}(x_{1},\dots ,x_{n})=\prod _{i=1}^{n}{\frac {e^{-{\frac {1}{2}}x_{i}^{2}}}{\sqrt {2\pi }}}=(2\pi )^{-{\frac {n}{2}}}e^{-{\frac {1}{2}}(x_{1}^{2}+\dotsb +x_{n}^{2})}.}

Für die gesuchte Dichte gilt:

fχn2(z)=limh→01hP(z<χn2≤z+h)=limh→01h∫K(2π)−n2e−12(x12+⋯+xn2)dx1…dxn=(2π)−n2e−z2limh→01h∫Kdx1…dxn{\displaystyle {\begin{aligned}f_{\chi _{n}^{2}}(z)&=\lim _{h\to 0}{\frac {1}{h}}P(z<\chi _{n}^{2}\leq z+h)\\&=\lim _{h\to 0}{\frac {1}{h}}\int \limits _{K}(2\pi )^{-{\frac {n}{2}}}e^{-{\frac {1}{2}}(x_{1}^{2}+\dotsb +x_{n}^{2})}\,dx_{1}\ldots dx_{n}\\&=(2\pi )^{-{\tfrac {n}{2}}}e^{-{\frac {z}{2}}}\lim _{h\to 0}{\frac {1}{h}}\int \limits _{K}dx_{1}\ldots dx_{n}\\\end{aligned}}}

mit K={z≤x12+⋯+xn2≤z+h}.{\displaystyle K=\{z\leq x_{1}^{2}+\dotsb +x_{n}^{2}\leq z+h\}.}

Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich z, sie darf deshalb vor das Integral und den Limes gezogen werden.

Das verbleibende Integral

∫Kdx1…dxn=Vn(z+h)−Vn(z){\displaystyle \int \limits _{K}dx_{1}\ldots dx_{n}=V_{n}({\sqrt {z+h}})-V_{n}({\sqrt {z}})}

entspricht dem Volumen der Schale zwischen der Kugel mit Radius z+h{\displaystyle {\sqrt {z+h}}} und der Kugel mit Radius z{\displaystyle {\sqrt {z}}} ,

wobei Vn(R)=πn2RnΓ(n2+1){\displaystyle V_{n}(R)={\frac {\pi ^{\frac {n}{2}}R^{n}}{\Gamma ({\frac {n}{2}}+1)}}} das Volumen der n-dimensionalen Kugel mit Radius R angibt.

Es folgt: limh→01h∫Kdx1…dxn=dVn(z)dz=πn2zn2−1Γ(n2){\displaystyle \lim _{h\to 0}{\frac {1}{h}}\int \limits _{K}dx_{1}\ldots dx_{n}={\frac {\mathrm {d} \,V_{n}({\sqrt {z}})}{\mathrm {d} \,z}}={\frac {\pi ^{\tfrac {n}{2}}z^{{\tfrac {n}{2}}-1}}{\Gamma ({\tfrac {n}{2}})}}}

und nach Einsetzen in den Ausdruck für die gesuchte Dichte: fn(z)=12n2Γ(n2)zn2−1exp⁡{−z2},z>0{\displaystyle f_{n}(z)={\frac {1}{2^{\frac {n}{2}}\Gamma ({\tfrac {n}{2}})}}z^{{\frac {n}{2}}-1}\operatorname {exp} \left\{-{\frac {z}{2}}\right\}\quad ,z>0}.

Quantilfunktion

Die Quantilfunktion xp{\displaystyle x_{p}} der Chi-Quadrat-Verteilung ist die Lösung der Gleichung p=P(n2,xp2){\displaystyle p=P({\tfrac {n}{2}},{\tfrac {x_{p}}{2}})} und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

xp=2P−1(n2,p),{\displaystyle x_{p}=2P^{-1}\left({\tfrac {n}{2}},p\right),}

mit P−1{\displaystyle P^{-1}} als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert xp{\displaystyle x_{p}} ist in der Quantiltabelle unter den Koordinaten p{\displaystyle p} und n{\displaystyle n} eingetragen.

Quantilfunktion für kleinen Stichprobenumfang

Für wenige Werte n{\displaystyle n} (1, 2, 4) kann man die Quantilfunktion auch alternativ angeben:

n=1:xp=2(Erf−1⁡(p))2,{\displaystyle n=1:x_{p}=2(\operatorname {Erf} ^{-1}(p))^{2},}
n=2:xp=−2ln⁡(1−p),{\displaystyle n=2:x_{p}=-2\,\ln(1-p),}
n=4:xp=−2(1+W−1(−(1−p)/e)),{\displaystyle n=4:x_{p}=-2\,(1+W_{-1}(-(1-p)/e)),}

wobei Erf{\displaystyle \operatorname {Erf} } die Fehlerfunktion, W−1(x){\displaystyle W_{-1}(x)\,} den unteren Zweig der Lambertschen W-Funktion bezeichnet und e{\displaystyle e} die Eulersche Zahl.

Näherung der Quantilfunktion für feste Wahrscheinlichkeiten

Für bestimmte feste Wahrscheinlichkeiten p{\displaystyle p} lassen sich die zugehörigen Quantile xp{\displaystyle x_{p}} durch die einfache Funktion des Stichprobenumfangs n{\displaystyle n}

xp≈n+an+sgn⁡(a)n+b+c/n{\displaystyle x_{p}\approx n+a{\sqrt {n+\operatorname {sgn} (a){\sqrt {n}}}}+b+c/n}

mit den Parametern a,b,c{\displaystyle a,b,c} aus der Tabelle annähern, wobei sgn⁡(a){\displaystyle \operatorname {sgn} (a)} die Signum-Funktion bezeichnet, die einfach das Vorzeichen ihres Arguments darstellt:

p{\displaystyle p} 0,005 0,01 0,025 0,05 0,1 0,5 0,9 0,95 0,975 0,99 0,995
a{\displaystyle a} −3,643 −3,298 −2,787 −2,34 −1,83 0 1,82 2,34 2,78 3,29 3,63
b{\displaystyle b} 1,8947 1,327 0,6 0,082 −0,348 −0,67 −0,58 −0,15 0,43 1,3 2
c{\displaystyle c} −2,14 −1,46 −0,69 −0,24 0 0,104 −0,34 −0,4 −0,4 −0,3 0

Der Vergleich mit einer χ2{\displaystyle \chi ^{2}}-Tabelle zeigt ab n>3{\displaystyle n>3} einen relativen Fehler unter 0,4 %, ab n>10{\displaystyle n>10} unter 0,1 %. Da die χ2{\displaystyle \chi ^{2}}-Verteilung für große n{\displaystyle n} in eine Normalverteilung mit Standardabweichung 2n{\displaystyle {\sqrt {2n}}} übergeht, besitzt der Parameter a{\displaystyle a} aus der Tabelle, der hier frei angepasst wurde, bei der entsprechenden Wahrscheinlichkeit p{\displaystyle p} etwa die Größe des 2{\displaystyle {\sqrt {2}}}-fachen des Quantils der Normalverteilung (2Erf−1⁡(2p−1){\displaystyle {\sqrt {2}}\,\operatorname {Erf} ^{-1}(2p-1)}), wobei Erf−1{\displaystyle \operatorname {Erf} ^{-1}} die Umkehrfunktion der Fehlerfunktion bedeutet.

Das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit aus dem Abschnitt Beispiel kann z. B. mit den beiden Funktionen xp{\displaystyle x_{p}} aus den Zeilen mit p=0,025→χa2{\displaystyle p=0{,}025\to \chi _{a}^{2}} und p=0,975→χb2{\displaystyle p=0{,}975\to \chi _{b}^{2}} auf einfache Weise als Funktion von n{\displaystyle n} grafisch dargestellt werden.

Der Median befindet sich in der Spalte der Tabelle mit p=0,5{\displaystyle p=0{,}5}.

Literatur

  • Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage. Oldenbourg, 1999, ISBN 3-486-24984-3, S. 152 ff. 

Weblinks

Einzelnachweise

  1. R. Barlow: Statistics Wiley, 1989, S. 152 (Goodness of Fit).
  2. Kendall, Stuart: The Advanced Theory Of Statistics Vol. 2 Third Edition, London, 1973, S. 436 (Goodness of Fit).
  3. F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1876, S. 102–219. Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157–175. Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
  4. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 51.
  5. Wolfram Mathworld
  6. A. C. Davison: Statistical Models, Cambridge University Press 2008, ISBN 1-4672-0331-9, Kapitel 3.2
  7. Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, S. 95–96, doi:10.1109/TIT.1975.1055327.
  8. Helmert. In: Astronomische Nachrichten, 88, 1876, S. 113–132
  9. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 51.
*/
*/

zuletzt besuchte Definitionen...

    GEPRÜFTES WISSEN
    Über 200 Experten aus Wissenschaft und Praxis.
    Mehr als 25.000 Stichwörter kostenlos Online.
    Das Original: Gabler Wirtschaftslexikon

    zuletzt besuchte Definitionen...

      Literaturhinweise SpringerProfessional.de

      Bücher auf springer.com