Das Streudiagramm ist eine Standard-Graphik der statistischen Beratung und dient zur Visualisierung des Zusammenhanges zwischen zwei metrischen Variablen. Lassen Sie uns zunächst künstlich zwei Variablen X und Y erzeugen, und dann den Zusammenhang zwischen X und Y in einem Streudiagramm darstellen.
Geben Sie die folgenden zwei Zeilen Code in die R-Console ein, um die Variablen X und Y zu erzeugen:
X <- runif(100,0,20)
Y <- 5 + 0.4*X + rnorm(100,0,1)
Mit diesem Code legen wir X als einen Datensatz von 100 zufälligen Zahlen zwischen 0 und 20 fest. Die Variable Y berechnen wir derart, dass zwischen X und Y absichtlich ein linearer Zusammenhang entsteht.
Nun erzeugen wir zunächst ein einfaches Streudiagramm von X und Y, wozu wir die R-Funktion plot() verwenden. Geben Sie den folgenden Code in R ein:
plot(X,Y)
Hierdurch erhalten Sie im R-Graphik-Fenster das folgende Schaubild:
Es handelt sich um ein einfaches Streudiagramm. Sie erkennen, dass ein positiver Zusammenhang zwischen X und Y vorliegt, d.h. je höher X ist, desto höher ist auch Y.
Wir möchten nun zunächst die Achsenbeschriftungen ändern und darüberhinaus die Punkte in roter Farbe darstellen. Hierzu verwenden Sie den folgenden R-Code:
plot(X,Y,xlab="Unabhängige Variable",ylab="Abhängige Variable",col="red")
Die Achsenbeschriftungen wurden gemäß der üblichen Konvention gewählt, nach der auf der X-Achse stets die unabhängige und auf der y-Achse die abhängige Variable dargestellt wird. Wir erhalten durch diese Eingabe das folgende Schaubild:
Anstatt der roten Farbe sind in R auch zahlreiche weitere Farben verfügbar. Probieren Sie den eben eingegebenen Befehl z.B. mit "green" oder "blue" anstatt von "red". Eine vollständige Übersicht über die in R verfügbaren Farben finden Sie übrigens in der folgenden Übersicht der Columbia University: Übersicht Farben in R.
Als nächstes möchten wir eine Trendlinie in das Schaubild hinzufügen. Anhand der Trendlinie kann man oftmals besser einschätzen, was für ein Zusammenhang zwischen X und Y besteht als es nur mit dem Streudiagramm möglich ist. Die Trendlinie wird mittels einer linearen Regression mit R berechnet, wobei die Variable Y als abhängige Variable und X als unabhängige Variable der Regression verwendet wird.
Um die Regression zu berechnen und um die berechnete Trendgerade in unser bisheriges Schaubild hinzuzufügen, verwenden Sie den folgenden Befehl:
abline(lm(Y~X)$coef)
Wir erhalten dadurch in R das folgende Streudiagramm mit eingezeichneter Regressionsgerade:
Man erkennt unschwer, dass die Regressionsgerade den Verlauf der Daten sehr gut wiedergibt.
Wenn Sie die Regressions-Gleichung der Gerade sehen möchten, dann benutzen Sie den summary-Befehl, um sich die Ergebnisse der Regression anzusehen. Verwenden Sie hierzu den folgenden Code:
summary(lm(Y~X))
Sie erhalten hierdurch den Output der linearen Regression mit abhängiger Variable Y und unabhängiger Variable X, der folgendermaßen aussieht:
Man erkennt Folgendes: Der Achsenabschnitt (Intercept) beträgt 4.7626. Dies ist die Höhe, auf der die Regressionsgerade die y-Achse schneidet. Der Regressionskoeffizient der unabhängigen Variable X beträgt 0.4094. Die Regressionsgleichung lautet also Y = 0.4094*X + 4.7626. Diese Zahlen sollten Ihnen bekannt vorkommen. Bei der Erzeugung der Daten haben wir die Regressionsgleichung Y = 0.4*X + 5 verwendet.
Weiterhin erkennen Sie im Output der R-Konsole, dass X in dieser Regression einen signifikanten Effekt hat, da in der Zeile die zu X gehört ganz rechts drei Sternchen abgebildet sind. Drei Sterne kennzeichnen hierbei, dass der p-Wert kleiner ist als 0.001, somit hat X einen hochsignifikanten Einfluss auf Y.
Benötigen Sie einen persönlichen Termin zum Thema Statistik? Nehmen Sie Kontakt zu uns auf und lassen sie sich statistisch beraten.