Diese Musterlösung wurde erstellt von Peter Hähner (Ruhr-Universität Bochum).
(c) Luhmann: R für Einsteiger, 5. Aufl., Beltz, 2020
Setzen Sie ein Arbeitsverzeichnis oder legen Sie ein entsprechendes R-Projekt an (Kap. 23).
Laden Sie dann die Datei erstis.RData.
load("erstis.RData")
Laden Sie die benötigten Pakete (ggf. müssen Sie diese vorab noch installieren).
library(psych)
library(car)
library(tidyverse)
Berechnen Sie eine lineare Regression mit guter vs. schlechter Stimmung (gs.1) als abhängige Variable und ruhiger vs. unruhiger Stimmung (ru.1) als Prädiktor. Bestimmen Sie den vorhergesagten gs.1-Stimmungswert für eine Person mit einem ru.1-Stimmungswert von 4.
# Modell schätzen
modell.1 <- lm(gs.1 ~ ru.1, data = erstis)
# Vorhergesagten Wert bestimmen
predict(modell.1, list(ru.1 = 4))
## 1
## 4.181892
Nehmen Sie zusätzlich den Prädiktor wm.1 (wache vs. müde Stimmung) auf. Überprüfen Sie die Modellannahmen.
# Modell schätzen
modell.2 <- lm(gs.1 ~ ru.1 + wm.1, data = erstis)
# Residuenplots anfordern
par(mfrow = c(2, 2))
plot(modell.2)
Die Residuenplots sprechen nicht für eine Verletzung der Normalverteilungs- oder Homoskedastizitätsannahme. Auch Extremwerte werden nicht erkennbar.
vif(modell.2)
## ru.1 wm.1
## 1.150534 1.150534
Es liegt keine problematische Multikollinearität vor.
Nehmen Sie zusätzlich die Variable neuro als Prädiktor auf. Prüfen Sie, ob der Zuwachs des Determinationskoeffizienten R2 signifikant ist, indem Sie einen F-Test durchführen. Tipp: Damit eine solche hierarchische Regressionsanalyse funktioniert, dürfen keine Personen mit fehlenden Werte auf den analysierten variablen im Data Frame enthalten sein.
# Data Frame ohne fehlende Werte erstellen
auswahl <- na.omit(select(erstis, gs.1, ru.1, wm.1, neuro))
# Modelle anlegen
modell.2 <- lm(gs.1 ~ ru.1 + wm.1, data = auswahl)
modell.3 <- lm(gs.1 ~ ru.1 + wm.1 + neuro, data = auswahl)
# Zuwachs des Determinationskoeffizienten
summary(modell.3)$r.squared - summary(modell.2)$r.squared
## [1] 0.010616
# Modellvergleich
anova(modell.2, modell.3)
## Analysis of Variance Table
##
## Model 1: gs.1 ~ ru.1 + wm.1
## Model 2: gs.1 ~ ru.1 + wm.1 + neuro
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 185 45.792
## 2 184 45.042 1 0.74918 3.0604 0.08189 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Der Modellvergleich wird nicht signifikant (F(1, 184) = 3.06, p = .082), d. h. das Modell mit mehr Prädiktoren kann nicht signifikant mehr Varianz der abhängigen Variablen erklären.