Das Q-Q-Diagramm (bzw. Q-Q-Plot) ist eine Graphik, mir der eine Variable auf das Vorliegen einer Normalverteilung überprüft werden kann.
Wir demonstrieren Ihnen die Erstellung eines Q-Q-Plots anhand eines Beispiels. Öffnen Sie hierzu die R-Konsole und geben Sie den den folgenden Befehl ein:
x <- rnorm(100,2,5)
Mit diesem Befehl erzeugen wir 100 Zahlen aus einer Normalverteilung mit Mittelwert 2 und Standardabweichung 5. Erstellen Sie nun einen Q-Q-Plot für diese Daten. Geben Sie hierzu die folgenden 2 Befehle nacheinander in die R-Konsole ein:
qqnorm(x)
qqline(x)
Sie erhalten dadurch die folgende Graphik:
Zur Interpretation des Q-Q-Plots müssen Sie darauf achten, wie gut die Punkte mit der Geraden übereinstimmen. Je näher die Punkte an der Gerade liegen, desto mehr spricht die Graphik für eine Normalverteilung.
Man erkennt in diesem Beispiel eine gute Übereinstimmung der Punkte mit der Geraden, da die Punkte entweder auf der Geraden oder sehr nah an der Geraden liegen. Somit deutet das Schaubild auf eine Normalverteilung hin.
Betrachten wir nun als Gegenbeispiel die Exponentialverteilung. Hierzu generieren wir 100 exponentialverteilte Zufallszahlen, wobei der Exponential-Parameter zu 7 gewählt wird. Wenn Sie die Exponentialverteilung nicht kennen, macht das nichts. Es geht in diesem Beispiel nur darum, Daten aus irgendeiner Verteilung zu erhalten, die keine Normalverteilung ist. Wir verwenden den folgenden Code, um 100 Zufällige Zahlen mit Exponentialverteilung zu erhalten:
y <- rexp(100,7)
Wir erstellen für diese Zahlen wieder einen Q-Q-Plot, mit folgenden befehlen:
qqnorm(y)
qqline(y)
Das resultierende Schaubild sieht folgendermaßen aus:
Man erkennt unschwer, dass die Übereinstimmung der Punkte mit der Geraden in diesem Schaubild nur schlecht ausfällt. Somit deutet diese Graphik darauf hin, dass hier keine Normalverteilung vorliegt.
Dies ist für uns nicht überraschend: Da wir die Daten selbst generiert haben, wissen wir dass die Daten aus einer Exponentialverteilung und nicht aus einer Normalverteilung stammen.
Beachten Sie die folgenden Anmerkungen und Tipps im Zusammenhang zur Erstellung von QQ-Diagrammen in R:
Seien Sie bei der Beurteilung der Normalverteilung nicht zu streng. Es ist ausreichend, wenn Sie mittels des QQ-Plots eine ungefähre Normalverteilung nachweisen können.
Der QQ-Plot ist nur eine von mehreren Methoden, um in R eine Normalverteilung nachzuprüfen. Anstatt des QQ-Plots können Sie die Normalverteilung auch mit einem Histogramm, mit dem Shapiro-Wilk-Test oder dem Kolmogorov-Smirnov-Test prüfen.
Abhängig vom statistischen Verfahren dass Sie anwenden möchten, müssen Sie unterschiedlich bei der Prüfung der Normalverteilung vorgehen!
So müssen z.B. bei einer linearen Regression die Residuen normalverteilt sein. Wenn Sie also eine lineare Regression berechnen möchten, testen Sie nicht die abhängige Variable auf Normalverteilung. Lassen Sie sich stattdessen die Residuen der Regression ausgeben, und testen diese auf Normalverteilung.
Uhlchen (Freitag, 12 November 2021 16:26)
Danke, wunderbar klar geworden!
Nini (Mittwoch, 07 August 2019 23:32)
Was bedeutet denn jetzt genau "normalverteilt"? Kann ich nicht einfach die Wahl der Partei mit Alter, Geschlecht und Bildungsniveau in der Regressionsanalyse testen?
Lg.