Direkt zum Inhalt

Wikipedia Version

Dieser Text basiert auf dem Artikel Multikollinearität aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported (Kurzfassung (de)). In der Wikipedia ist eine Liste der Autoren verfügbar.
Wikipedia-Version zuletzt aktualisiert am 25.04.19.

Multikollinearität

Multikollinearität ist ein Problem der Regressionsanalyse und liegt vor, wenn zwei oder mehr erklärende Variablen eine sehr starke Korrelation miteinander haben. Zum einen wird mit zunehmender Multikollinearität das Verfahren zur Schätzung der Regressionskoeffizienten instabil und Aussagen zur Schätzung der Regressionskoeffizienten zunehmend ungenau. Zum anderen ist die Modellinterpretation nicht mehr eindeutig. Das klassische Symptom von starker Multikollinearität ist ein hohes Bestimmtheitsmaß einhergehend mit niedrigen t-Werten für die einzelnen Regressionsparameter.

Probleme der Multikollinearität

Perfekte Kollinearität macht die rechnerische Durchführung der linearen Regressionsanalyse unmöglich und tritt meist als Folge der Fehlspezifikation des zu Grunde liegenden Modells auf.

Numerische Instabilität

Mathematisch lässt sich die Lösung des linearen Regressionsproblems yi=b0+b1xi,1+…+bpxi,p{\displaystyle y_{i}=b_{0}+b_{1}x_{i,1}+\ldots +b_{p}x_{i,p}} für die Regressionskoeffizienten der mit der Kleinste-Quadrate-Methode darstellen als

b=(X⊤X)−1X⊤y{\displaystyle \mathbf {b} =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} }.

Der Vektor b=(b0,…,bp)⊤{\displaystyle \mathbf {b} =(b_{0},\dots ,b_{p})^{\top }} enthält die geschätzten Regressionskoeffizienten, der Vektor y=(y1,…,yn)⊤{\displaystyle y=(y_{1},\dots ,y_{n})^{\top }} und die Designmatrix

X=(1x1,1⋯x1,p⋮⋮⋮1xn,1⋯xn,p){\displaystyle X={\begin{pmatrix}1&x_{1,1}&\cdots &x_{1,p}\\\vdots &\vdots &&\vdots \\1&x_{n,1}&\cdots &x_{n,p}\end{pmatrix}}}

die n{\displaystyle n} p{\displaystyle p}-dimensionalen Beobachtungswerte. Das Problem liegt in der Berechnung der Inversen von der Produktsummenmatrix X′X{\displaystyle X^{\prime }X}; je stärker die Multikollinearität ist, desto mehr nähert sich X⊤X{\displaystyle \mathbf {X} ^{\top }\mathbf {X} } einer singulären Matrix an, d. h. es existiert keine Inverse.

Modellinterpretation

Wenn das Regressionsmodell y=b0+b1x1+b2x2{\displaystyle y=b_{0}+b_{1}x_{1}+b_{2}x_{2}} ist und perfekte Multikollinearität vorliegt, d. h.

x2=c0+c1x1{\displaystyle x_{2}=c_{0}+c_{1}x_{1}\,} oder umgestellt
x1=1c1x2−c0c1{\displaystyle x_{1}={\frac {1}{c_{1}}}x_{2}-{\frac {c_{0}}{c_{1}}}}

und setzt beide Gleichungen jeweils in das Regressionsmodell ein, so erhält man

(1) y=b0+b1x1+b2(c0+c1x1)=(b0+b2c0)+(b1+b2c1)x1{\displaystyle y=b_{0}+b_{1}x_{1}+b_{2}(c_{0}+c_{1}x_{1})=(b_{0}+b_{2}c_{0})+(b_{1}+b_{2}c_{1})x_{1}\,}
(2) y=b0+b1(1c1x2−c0c1)+b2x2=(b0+b1c0c1)+(b1c1+b2)x2{\displaystyle y=b_{0}+b_{1}\left({\frac {1}{c_{1}}}x_{2}-{\frac {c_{0}}{c_{1}}}\right)+b_{2}x_{2}=\left(b_{0}+{\frac {b_{1}c_{0}}{c_{1}}}\right)+\left({\frac {b_{1}}{c_{1}}}+b_{2}\right)x_{2}}

Im Modell (1) hängt y{\displaystyle y} nur noch von x1{\displaystyle x_{1}} ab und im Modell (2) hängt y{\displaystyle y} nur noch von x2{\displaystyle x_{2}} ab. Es stellt sich nun die Frage, welches Modell ist das „Richtige“? In der Ökonomie spricht man von nicht identifizierbaren Modellen.

Identifikation von Multikollinearität

Weil empirische Daten immer einen gewissen Grad an Multikollinearität aufweisen, wurden Kennzahlen entwickelt, die Hinweise auf Multikollinearität liefern. Einen eindeutigen Richtwert gibt es jedoch nicht.

Korrelation

Zur Aufdeckung von Multikollinearität dient z. B. die Analyse der Korrelationskoeffizienten der Regressoren. Sehr hohe positive oder negative Korrelationskoeffizienten zeigen einen starken Zusammenhang zwischen den Regressoren und damit Multikollinearität an. Eine niedrige Korrelation zwischen den Regressoren bedeutet jedoch nicht automatisch die Abwesenheit von Multikollinearität (Beispiel [1]); auch lineare Kombinationen von Regressoren, die eine hohe positive oder negative Korrelation aufweisen, z. B. zwischen d1x1+d2x2{\displaystyle d_{1}x_{1}+d_{2}x_{2}} und d3x3+d4x4{\displaystyle d_{3}x_{3}+d_{4}x_{4}}, führen zu den oben genannten Problemen. Eine hohe Korrelation zwischen den Regressoren kann durch die Korrelationsmatrix identifiziert werden.

Bestimmtheitsmaß

Ein hohes Bestimmtheitsmaß Ri2{\displaystyle R_{i}^{2}} der linearen Regressionen

xi=di0+∑j=1j≠ipdjixj{\displaystyle x_{i}=d_{i0}+\sum _{j=1 \atop j\neq i}^{p}d_{ji}x_{j}},

d. h. der i{\displaystyle i}-te Regressor wird durch alle anderen Regressoren gut vorhergesagt, zeigt Multikollinearität an.

Toleranz

Die Toleranz Tolj=1−Rj2{\displaystyle {\text{Tol}}_{j}=1-R_{j}^{2}} wird zur Einschätzung der Multikollinearität benutzt. Ein Wert von Tolj<0,2{\displaystyle {\text{Tol}}_{j}<0{,}2} deutet auf eine starke Multikollinearität hin.

Varianzinflationsfaktor (VIF)

Je größer der Varianzinflationsfaktor

VIFj=11−Rj2=1Tolj∈[1;∞){\displaystyle \operatorname {VIF} _{j}={\frac {1}{1-R_{j}^{2}}}={\frac {1}{{\text{Tol}}_{j}}}\in [1;\infty )}, (mit Rj{\displaystyle R_{j}} als Bestimmtheitsmaß der Regression von xj{\displaystyle x_{j}} auf alle übrigen Einflussgrößen),

desto stärker sind die Hinweise auf Multikollinearitäten. Einen definitiven Wert, ab wann der VIF eine (zu) hohe Multikollinearität anzeigt, gibt es nicht. Als Daumenregel werden häufig VIF-Werte von über 10 als „zu hoch“ eingestuft.[2]

Konditionsindex

Die Produktsummenmatrix X⊤X{\displaystyle \mathbf {X} ^{\top }\mathbf {X} } ist positiv semidefinit, d. h. alle Eigenwerte λi{\displaystyle \lambda _{i}} der Matrix sind positiv oder Null. Wird die Matrix singulär, dann ist mindestens ein Eigenwert gleich Null. Ist der Konditionsindex

KIj=λjminiλi{\displaystyle {\text{KI}}_{j}={\sqrt {\frac {\lambda _{j}}{\min _{i}\lambda _{i}}}}}

für ein KIj{\displaystyle {\text{KI}}_{j}} größer als 30 spricht man ebenfalls von starker Multikollinearität.

Literatur

  • L. von Auer: Ökonometrie – Eine Einführung. 7. Auflage. Springer, Berlin 2016, ISBN 978-3-662-47868-4, S. 561–588.

Einzelnachweise

  1. http://www.sgipt.org/wisms/EWA/EWA0.htm#Unauffaellige%20Korrelationsmatrix
  2. Siehe für die Daumenregel und eine Diskussion dazu: Wooldridge, Introductory Econometrics:A Modern Approach, 2013, S. 98.

Siehe auch

zuletzt besuchte Definitionen...

    GEPRÜFTES WISSEN
    Über 200 Experten aus Wissenschaft und Praxis.
    Mehr als 25.000 Stichwörter kostenlos Online.
    Das Original: Gabler Wirtschaftslexikon

    zuletzt besuchte Definitionen...

      Literaturhinweise SpringerProfessional.de

      Bücher auf springer.com