Korrelation in Stata berechnen (Pearson's r und Spearman's rho)

In diesem Artikel lernen Sie, wie man mit Stata Korrelationen bzw. Korrelationskoeffizienten berechnet. Eine Korrelation bezeichnet einen Zusammenhang zwischen zwei Variablen, wie z.B. dass Personen mit höherer Bildung tendenziell auch ein höheres Einkommen haben und umgekehrt. Ein Korrelationskoeffizient ist eine Maßzahl zur Quantifizierung eines solchen Zusammenhanges.

 

Wir führen die Berechnung anhand eines Beispieldatensatzes durch und verwenden hierzu den Auto-Datensatz. Dies ist ein sehr bekannter Beispiel-Datensatz, der häufig in Stata-Kursen verwendet wird. Um den Datensatz zu laden, geben Sie in die Stata-Kommandozeile den folgenden Befehl ein:

 

sysuse auto, clear

 

Wir möchten uns den Datensatz nun ansehen. Hierzu öffnen wir die Daten-Ansicht, indem wir folgenden befehl eingeben:

 

edit

 

Es öffnet sich nun der Dateneditor, und wir sehen dass der Datensatz folgendermaßen aussieht:

 

 

Jede Zeile bezeichnet ein PKW-Modell. Die Variable make enthält die Bezeichnung des Modells und die Variable price den Preis in $. Die restlichen Variablen enthalten verschiedene technische Kennzahlen wie mpg (miles per gallon) oder headroom (Hubraum).

 

Wir interessieren uns nun, ob es Zusammenhänge zwischen dem Preis und der Variable mpg gibt und berechnen hierzu mit Stata den Pearson-Korrelationskoeffizienten. Dieser wird mit folgendem Stata-Befehl berechnet:

 

pwcorr price mpg, sig

 

Wir erhalten sodann den folgenden Output:

Man erkennt, dass zwischen price und mpg eine Korrelation von -0.4686 besteht. Die Korrelation ist negativ, was bedeutet das PKWs mit hohem Preis tendenziell ein niedriges mpg, d.h. eine schlechte Kraftstoffeffizienz aufweisen. Der p-Wert der Korrelation wird als p=0.00 ausgegeben. Da der p-Wert kleiner als 0.05 ist, liegt eine statistisch signifikante Korrelation vor.

 

Man beachte jedoch folgendes: Der Korrelationskoeffizient nach Pearson setzt voraus dass beide Variablen normalverteilt sind. Um zu überprüfen, ob diese Voraussetzung für die eben untersuchten Variablen gegeben ist, prüfen wir die Normalverteilung mit einem Shapiro-Wilk-Test, und zwar mit folgendem Stata-Befehl:

 

swilk price mpg

 

Wir erhalten dadurch den folgenden Output:

 

 

Es wird deutlich, dass der Test für beide untersuchten Variablen in der Spalte ganz rechts einen p-Wert kleiner als 0.05 ausgibt. Das bedeutet, bei beiden Variablen liegt keine Normalverteilung vor. Die Voraussetzung für den Korrelations-Test nach Pearson sind also nicht gegeben.

 

Man sollte hier also anstatt des Korrelationstests nach Pearson lieber den Korrelationstest nach Spearman durchführen, denn dieser setzt keine Normalverteilung voraus.

 

Wir berechnen den Spearman-Korrelationstest mit folgendem Stata-Befehl:

 

spearman price mpg

 

Man erhält dadurch folgenden Output:

 

 

In diesem Output sehen wir, dass die Korrelation der beiden Variablen -0.5419 beträgt. Da die Korrelation nur Werte zwischen -1 und 1 annehmen kann, ist -0.54 ein Wert, der für eine starke negative Korrelation spricht. 

Darüber hinaus ist im Output der p-Wert des Test enthalten (Ganz unten). Der p-Wert beträgt p=0.00, somit liegt also eine statistisch hochsignifikante negative Korrelation vor.

 

Sie möchten weitere Artikel zum Thema Stata oder Statistik lesen? Hier geht es zurück zur Artikel-Übersicht.

Falls Sie sich für eine Statistik-Beratung zum Thema Stata interessieren, nehmen Sie Kontakt uns auf und vereinbaren einen persönlichen Termin.