Statistik-Beratung: Streudiagramm mit R

Das Streudiagramm ist eine Standard-Graphik der statistischen Beratung und dient zur Visualisierung des Zusammenhanges zwischen zwei metrischen Variablen. Lassen Sie uns zunächst künstlich zwei Variablen X und Y erzeugen, und dann den Zusammenhang zwischen X und Y in einem Streudiagramm darstellen.

 

Einfache Streudiagramme mit R erstellen

Geben Sie die folgenden zwei Zeilen Code in die R-Console ein, um die Variablen X und Y zu erzeugen:

 

X <- runif(100,0,20)

Y <- 5 + 0.4*X + rnorm(100,0,1)

 

Mit diesem Code legen wir X als einen Datensatz von 100 zufälligen Zahlen zwischen 0 und 20 fest. Die Variable Y berechnen wir derart, dass zwischen X und Y absichtlich ein linearer Zusammenhang entsteht.

Nun erzeugen wir zunächst ein einfaches Streudiagramm von X und Y, wozu wir die R-Funktion plot() verwenden. Geben Sie den folgenden Code in R ein:

 

plot(X,Y)

 

Hierdurch erhalten Sie im R-Graphik-Fenster das folgende Schaubild:

Es handelt sich um ein einfaches Streudiagramm. Sie erkennen, dass ein positiver Zusammenhang zwischen X und Y vorliegt, d.h. je höher X ist, desto höher ist auch Y. 

Wir möchten nun zunächst die Achsenbeschriftungen ändern und darüberhinaus die Punkte in roter Farbe darstellen. Hierzu verwenden Sie den folgenden R-Code:

 

plot(X,Y,xlab="Unabhängige Variable",ylab="Abhängige Variable",col="red")

 

Die Achsenbeschriftungen wurden gemäß der üblichen Konvention gewählt, nach der auf der X-Achse stets die unabhängige und auf der y-Achse die abhängige Variable dargestellt wird. Wir erhalten durch diese Eingabe das folgende Schaubild:

 

 

 

 

Anstatt der roten Farbe sind in R auch zahlreiche weitere Farben verfügbar. Probieren Sie den eben eingegebenen Befehl z.B. mit "green" oder "blue" anstatt von "red". Eine vollständige Übersicht über die in R verfügbaren Farben finden Sie übrigens in der folgenden Übersicht der Columbia University: Übersicht Farben in R

 

Als nächstes möchten wir eine Trendlinie in das Schaubild hinzufügen. Anhand der Trendlinie kann man oftmals besser einschätzen, was für ein Zusammenhang zwischen X und Y besteht als es nur mit dem Streudiagramm möglich ist. Die Trendlinie wird mittels einer linearen Regression mit R berechnet, wobei die Variable Y als abhängige Variable und X als unabhängige Variable der Regression verwendet wird.

 

Um die Regression zu berechnen und um die berechnete Trendgerade in unser bisheriges Schaubild hinzuzufügen, verwenden Sie den folgenden Befehl:

 

abline(lm(Y~X)$coef) 

 

Wir erhalten dadurch in R das folgende Streudiagramm mit eingezeichneter Regressionsgerade:

 

 

Man erkennt unschwer, dass die Regressionsgerade den Verlauf der Daten sehr gut wiedergibt. 

 

Wenn Sie die Regressions-Gleichung der Gerade sehen möchten, dann benutzen Sie den summary-Befehl, um sich die Ergebnisse der Regression anzusehen. Verwenden Sie hierzu den folgenden Code:

 

summary(lm(Y~X))

 

Sie erhalten hierdurch den Output der linearen Regression mit abhängiger Variable Y und unabhängiger Variable X, der folgendermaßen aussieht: 

 

 

Man erkennt Folgendes: Der Achsenabschnitt (Intercept) beträgt 4.7626. Dies ist die Höhe, auf der die Regressionsgerade die y-Achse schneidet. Der Regressionskoeffizient der unabhängigen Variable X beträgt 0.4094. Die Regressionsgleichung lautet also Y =  0.4094*X + 4.7626. Diese Zahlen sollten Ihnen bekannt vorkommen. Bei der Erzeugung der Daten haben wir die Regressionsgleichung Y = 0.4*X + 5 verwendet. 

 

Weiterhin erkennen Sie im Output der R-Konsole, dass X in dieser Regression einen signifikanten Effekt hat, da in der Zeile die zu X gehört ganz rechts drei Sternchen abgebildet sind. Drei Sterne kennzeichnen hierbei, dass der p-Wert kleiner ist als 0.001, somit hat X einen hochsignifikanten Einfluss auf Y. 

 

Benötigen Sie einen persönlichen Termin zum Thema Statistik? Nehmen Sie Kontakt zu uns auf und lassen sie sich statistisch beraten.