Einführung in die quantitativen Forschungsmethoden
statistische Messwerte - wie der Mittelwert - helfen, Daten zu verstehen
statistische Signifikanz: Ist ein Phänomen - z.B. unser Messwert - ein Zufallsprodukt oder ein realer Effekt?
statistische Tests helfen uns mit Prüfgrößen zu testen, ob ein Resultat auf einem festgelegten Niveau signifikant ist
. . .
Was würden Sie erwarten? Welche Augensumme sollten wir typischerweise mit 6 Würfen erreichen?
Je Wurf: 1/6 x 1 + 1/6 x 2 + 1/6 x 3 + 1/6 x 4 + 1/6 x 5 + 1/6 x 6 = 3.5
Summe: 6 x 3.5 = 21
→ Der Erwartungswert über viele Versuche hinweg ist 21
→ Wie bestimmen wir die Wahrscheinlichkeit, dass die Würfel gezinkt sind?
→ Frage: Stammen die Würfe (nicht) aus einer Population mit Mittelwert 21?
. . .
. . .
. . .
→ Würfeln: Ziehen einer Stichprobe aus der Population möglicher Summen
→ Teststatistiken können helfen zu schätzen ob Abweichung zufällig ist
→ Mit welcher Wahrscheinlichkeit stammt die Würfelsumme aus einer Grundgesamtheit mit der angenommenen Verteilung?
→ Würfeln als Ziehen von Stichproben
→ Wie übertragen wir das auf Umfragen?
Stichprobenvariabilität: Beim Ziehen mehrerer Stichproben hat jede Stichprobe leicht andere Beobachtungen und damit andere statistische Messwerte
Bei kleineren Stichproben unterscheiden sich die Messwerte stärker, bei großen weniger stark
→ statistische Kennwerte sind ebenfalls verteilt und wir können über unsere Werte als Teil dieser Verteilung nachdenken
Zwei statistische Gesetze:
Gesetz der großen Zahlen: Die relative Häufigkeit eines Wertes näher sich der theoretischen Verteilung, wenn man viele Stichproben zieht
Zentraler Grenzwertsatz: Annäherung der Verteilung der Stichproben-Mittelwerte an Normalverteilung
→ Aus diesen Gesetzen können wir mithilfe von Statistik sogenannte Konfidenzintervalle (confidence intervals) berechnen, in denen sich ein Parameter wahrscheinlich (z.B. mit 95% Wahrscheinlichkeit) befindet
Call:
lm(formula = ccrdprs ~ agea, data = ess8)
Residuals:
Min 1Q Median 3Q Max
-5.9155 -1.6290 0.3512 2.1635 4.8947
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.0637563 0.0376406 161.10 <2e-16 ***
agea -0.0098809 0.0007187 -13.75 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.719 on 41794 degrees of freedom
(2591 Beobachtungen als fehlend gelöscht)
Multiple R-squared: 0.004502, Adjusted R-squared: 0.004478
F-statistic: 189 on 1 and 41794 DF, p-value: < 2.2e-16
→ neben der Schätzung des Koeffizienten erhalten wir auch Standardfehler (hier: Std. Error) und statistische Signifikanz (anhand der t-Verteilung, hier aus PR(>|t|))
Längere Erklärung: Llaudet & Imai Kapitel zu Wahrscheinlichkeit & Signifikanz
Call:
lm(formula = ccrdprs ~ agea, data = ess8)
Residuals:
Min 1Q Median 3Q Max
-5.9155 -1.6290 0.3512 2.1635 4.8947
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.0637563 0.0376406 161.10 <2e-16 ***
agea -0.0098809 0.0007187 -13.75 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.719 on 41794 degrees of freedom
(2591 Beobachtungen als fehlend gelöscht)
Multiple R-squared: 0.004502, Adjusted R-squared: 0.004478
F-statistic: 189 on 1 and 41794 DF, p-value: < 2.2e-16
Ablesen von Signifikanz auf vorher bestimmtem Signifikanzniveau
→ hier: statistisch signifikanter Effekt von Alter
↔︎ Gegenstück: nur manche Länder sind signifikant verschieden von Österreich (=Basis)
Call:
lm(formula = ccrdprs ~ cntry, data = ess8)
Residuals:
Min 1Q Median 3Q Max
-6.9167 -1.5457 0.3607 1.7393 6.6552
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.91850 0.05842 101.305 < 2e-16 ***
cntryBE 0.07006 0.08457 0.828 0.407476
cntryCH 0.94288 0.08837 10.670 < 2e-16 ***
cntryCZ -2.57373 0.08051 -31.968 < 2e-16 ***
cntryDE 0.66932 0.07586 8.823 < 2e-16 ***
cntryEE -1.66438 0.08230 -20.223 < 2e-16 ***
cntryES 0.01734 0.08346 0.208 0.835420
cntryFI 0.62725 0.08287 7.569 3.84e-14 ***
cntryFR 0.99817 0.08145 12.255 < 2e-16 ***
cntryGB -0.03923 0.08272 -0.474 0.635320
cntryHU -1.59293 0.08742 -18.222 < 2e-16 ***
cntryIE -0.27916 0.07640 -3.654 0.000259 ***
cntryIL -0.68542 0.08014 -8.553 < 2e-16 ***
cntryIS 0.34217 0.10463 3.270 0.001076 **
cntryIT -0.60625 0.07775 -7.797 6.47e-15 ***
cntryLT -1.01371 0.08397 -12.073 < 2e-16 ***
cntryNL -0.09767 0.08584 -1.138 0.255168
cntryNO 0.32855 0.08778 3.743 0.000182 ***
cntryPL -0.39317 0.08749 -4.494 7.02e-06 ***
cntryPT -0.22078 0.09354 -2.360 0.018269 *
cntryRU -2.04496 0.08213 -24.900 < 2e-16 ***
cntrySE 0.58052 0.08780 6.612 3.84e-11 ***
cntrySI -0.55621 0.09233 -6.024 1.71e-09 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.556 on 41904 degrees of freedom
(2460 Beobachtungen als fehlend gelöscht)
Multiple R-squared: 0.1207, Adjusted R-squared: 0.1202
F-statistic: 261.5 on 22 and 41904 DF, p-value: < 2.2e-16
…und die Würfel waren natürlich gezinkt!
…für ein spannendes Semester mit viel Beteiligung!
T. Gessler | Einführung quantitative Forschungsmethoden | 13 Umfragen und Wahrscheinlichkeit