Einführung in die quantitativen Forschungsmethoden
“Bei der Bundestagswahl konnten Sie ja zwei Stimmen vergeben. Die Erststimme für einen Kandidaten aus Ihrem Wahlkreis, die Zweitstimme für eine Partei. Welchem Kandidaten haben Sie Ihre Erststimme gegeben?”
“Bei der Bundestagswahl konnten Sie ja zwei Stimmen vergeben. Die Erststimme für einen Kandidaten aus Ihrem Wahlkreis, die Zweitstimme für eine Partei. Welchem Kandidaten haben Sie Ihre Erststimme gegeben?”
In der Politik spricht man manchmal von ‘links’ und ‘rechts’. Wo auf dieser Skala würden Sie sich selbst einstufen, wenn 0 für links steht und 10 für rechts?
→ Wir sprechen am Ende des Semesters noch einmal über Vor- und Nachteile
→ auch in R können wir die Variable as.numeric()
oder haven::as_factor()
behandeln
Welches Geschlecht haben Sie?
Alter, kalkuliert aus Geburtsjahr
Ich arbeite auf den Folien - um das ganze übersichtlicher zu gestalten - mit den Ergebnissen unserer Umfrage aus der ersten Sitzung.
→ Wie können wir einen charakteristischen Wert für eine Verteilung angeben?
z.B. für Wahlpräferenz, Geschlecht & links-rechts-Einordnung?
→ Und was ist eigentlich ein Mittelwert?
Was ist der häufigste Wert?
[1] NA "SPD" "Die Linke"
[4] "Bündnis 90/Die Grünen" "Bündnis 90/Die Grünen" "Die Linke"
[7] "Bündnis 90/Die Grünen" "Bündnis 90/Die Grünen" "Die Linke"
[10] "CDU/CSU" "Bündnis 90/Die Grünen" "Die Linke"
[13] "SPD" "FDP" "Die Linke"
[16] "Bündnis 90/Die Grünen" "Die Linke" "SPD"
[19] "SPD" "Andere Partei" "SPD"
Was ist der häufigste Wert?
→ Dieser sog. Modus lässt sich unabhängig vom Skalenniveau berechnen und ist auch aus Häufigkeitstabellen ablesbar
Was ist der durchschnittliche Wert?
Häufig interessiert uns aber der Durchschnitt - z.B. bei Bewertungen
→ das funktioniert aber nur bei metrischen Skalen!
Idee: Kombination von Summe & Zahl der Observationen
aufgepasst: mögliche fehlende Beobachtungen!
→ mean()
ist die sicherere Option!
Welcher Wert liegt ‘in der Mitte’?
→ Der Median teilt die Werte der Variablen in zwei gleiche Teile
Im Gegensatz zum Mittelwert ist der Median weniger anfällig für extreme Observationen
z.B. Studi A verdient 400€ als stud. Hilfskraft, Studi B 500€ als Barkeeper, Studi C 3.000€ mit Mieteinnahmen
Beispiel: Links-rechts Einordnung im Kurs
[1] 0 0 1 1 1 2 2 2 2 2 2 3 3 4 5 5 5 5 5 6 8
Beispiel: Einkommen aus dem sozio-ökonomischen Panel (Umfrage)
Vergleiche zwischen diskreten Gruppen können wir anstellen, indem wir deren Mittelwerte vergleichen
z.B. Sind Frauen oder Männer linker?
Alternative Berechnung (siehe Llaudet & Imai)
Der Informationswert von Mittelwerten ist begrenzt
Detaillierter sind Quartile, die den Datensatz in vier gleich umfangreiche Teile teilen
0% 25% 50% 75% 100%
0 2 2 5 8
→ der Abstand zwischen den Quantilen gibt einen Überblick über die Verteilung (‘Quartilsabstand’)
\(sd(X)=\sqrt{\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n}}\)
→ Die Standardabweichung zeigt wie breit die Variable um den Mittelwert gestreut ist; bei einer kleineren Standardabweichung sind die Werte näher am Mittelwert
Blau: Durchschnitt 1500.3 & Standardabweichung 49.4
Rot: Durchschnitt 1498.1 & Standardabweichung 251.5
→ Zusammenhänge oft interessanter als der Mittelwert oder die Verteilung einer Variablen
→ Ziel: Vorhersage und Erklärung
Beispiel aus der ESS: lrscale nach prtvede1 Kategorien
Häufig wollen wir den Zusammenhang in Zahlen darstellen
→ Korrelation
Korrelationen (nach Pearson’s Korrelationskoeffizient) berechnen sich aus der Kovarianz (einem Zusammenhangsmaß), geteilt durch das Produkt der Standardabweichungen
\(r= \frac{\operatorname{cov}(X,Y)}{sd(x)sd(y)}\)
In R: cor()
z.B.: Zusammenhang zwischen Alter und links-rechts Orientierung
use="complete.obs"
schließt fehlende Werte aus (ähnlich wie na.rm=T
)
Aber: Correlation does not imply causation
→ Wir werden später im Kurs diskutieren, wie und ob wir Kausalität in Zusammenhängen zeigen können. Dabei lernen wir auch komplexere Analysemethoden kennen. (Beispiele)
Die ESS Variablen sind (wegen des Datensatz-Formats) als Variablen des Typs haven_labelled
gespeichert
→ wir können sie als numerische oder ordinale Variablen behandeln
Lösen Sie die Übungsaufgaben im .r-Skript zur heutigen Stunde
Erinnern Sie sich an die Fragen aus der ESS, die Sie in der vorletzten Stunde herausgesucht haben. Welche Maße können Sie zur Zusammenfassung verwenden?
Erstellen Sie eine kurze Übersicht und wenden Sie die Maße an.
Laden Sie ein Dokument mit der Übersicht und einem aussagekräftigen Wert für jede Variable (z.B. Mittelwert oder Verteilung) und ein paar Gedanken zur Interpretation auf Moodle hoch.
ca. 1 Seite, Abgabe 31.05.
Bringen Sie eine Datenvisualisierung mit (z.B. aus der Zeitung, einem Kurs, …) - überlegen Sie sich, was Sie an dieser Darstellung gut oder schlecht finden.
T. Gessler | Einführung quantitative Forschungsmethoden | 5 Daten zusammenfassen