Einführung in die quantitativen Forschungsmethoden
Zwei Nutzen von Regressionen:
Zwei Schritte: Schätzung eines Modells & Vorhersage
Macht Geld glücklich? (Und wieviel Geld braucht man um ‘extremely happy’ zu sein?)
Alles in allem betrachtet, was würden Sie sagen, wie glücklich sind Sie? (äußerst unglücklich … äußerst glücklich)
Wenn Sie die Einkommen aus allen Quellen zusammenzählen: Welcher Buchstabe auf Liste 58 trifft für das gesamte Nettoeinkommen Ihres Haushalts zu? (Zehn Bereiche)
Scatterplot (zur Ermittlung der Beziehung)
→ Welche (Regressions-)Gerade verknüpft X- und Y-Werte?
→ Wieviel Geld sagt ein bestimmtes Maß an Glück voraus?
\(\hat{\beta}=\frac{rise}{run}=\frac{\Delta\hat{Y}}{\Delta X}\)
\(Y_i = \alpha + \beta X_i + \epsilon_i\)
\(\operatorname{happy_i} = \alpha + \beta(\operatorname{hinctnta_i}) + \epsilon\)
Wir suchen die Linie, die die Relation von X & Y zusammenfasst (‘Modell schätzen’)
\(\hat{Y_i} = \hat{\alpha} + \hat{\beta} X_i\)
In R können wir Regressionen mit lm()
berechnen:
Call:
lm(formula = happy ~ hinctnta, data = ess_sample)
Coefficients:
(Intercept) hinctnta
6.5290 0.1806
→ Aber was steht hinter diesen Werten?
Es gibt verschiedene Methoden, die beste Linie zu schätzen
Idee: Minimierung der Abweichung der Vorhersagen von den vorliegenden Beobachtungen
→ …Aber was heißt schon minimieren?
Residuen: Abweichungen der realen Werte von den vorhergesagten Werten (‘geschätzter Fehler’)
→ Differenz zwischen geschätztem & beobachtetem \(Y\) für Observation i:
\(\hat{\epsilon_i}=Y_i - \hat{Y_i}\)
→ die geschätzten Werte liegen auf der Regressionsgeraden
Ordinary Least Squares (OLS) / Kleinste-Quadrate-Methode: Gleichung, die die Summe der quadrierten Residuale minimiert (ausführliches Berechnungsvideo)
→ Mathematische Berechnung der Steigung und der Konstante der Regressionsgeraden
. . .
→ häufigste Definition von Minimierung der Abstände
Auch zur Güte einer Regression gibt es ein standardisiertes Maß: Den Determinationskoeffizienten \(R^2\)
\(R^2=\frac{erklärte \ Variation}{gesamte \ Variation}=1-\frac{unerklärte \ Variation}{gesamte \ Variation}\)
→ Berechnungen über Summe der quadrierten Residuen . . .
\(R^2=1-\frac{\sum{i}{}(Y_i - \hat{Y_i})^2}{\sum{i}{}(Y_i - \bar{Y_i})^2}\)
Unerklärte Variation: Abweichungen von der Regressionsgeraden
Mittelwert-Gerade
Abweichungen vom Mittelwert (‘gesamte Variation’)
Wir interpretieren \(R^2\) als den Anteil der Variation, die durch unsere Regression erklärt wird
Call:
lm(formula = happy ~ hinctnta, data = ess_sample)
Coefficients:
(Intercept) hinctnta
6.5290 0.1806
Call:
lm(formula = happy ~ hinctnta, data = ess_sample)
Residuals:
Min 1Q Median 3Q Max
-7.7931 -0.7931 0.2069 1.0263 3.2904
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.52900 0.07467 87.44 <2e-16 ***
hinctnta 0.18058 0.01144 15.78 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.677 on 2700 degrees of freedom
(343 Beobachtungen als fehlend gelöscht)
Multiple R-squared: 0.08446, Adjusted R-squared: 0.08412
F-statistic: 249.1 on 1 and 2700 DF, p-value: < 2.2e-16
→ ‘R-squared’
Aus der summary()
Funktion können wir noch weitere Informationen entnehmen - wir werden uns damit in den nächsten Wochen noch weiter beschäftigen!
Bearbeiten Sie den ersten (und zweiten?) Teil des Übungsskripts.
Thema: Wie können wir Zusammenhänge zwischen Variablen beschreiben, wenn es mehrere Einflussfaktoren gibt?
T. Gessler | Einführung quantitative Forschungsmethoden | 07 Regressionen