Diese Musterlösung wurde erstellt von Peter Hähner (Ruhr-Universität Bochum).

(c) Luhmann: R für Einsteiger, 5. Aufl., Beltz, 2020

Vorbereitungen

Setzen Sie ein Arbeitsverzeichnis oder legen Sie ein entsprechendes R-Projekt an (Kap. 23).

Laden Sie dann die Datei erstis.RData.

load("erstis.RData")

Laden Sie die benötigten Pakete (ggf. müssen Sie diese vorab noch installieren).

library(psych)
library(car)
library(tidyverse)

Aufgabe 1: Modell 1

Berechnen Sie eine lineare Regression mit guter vs. schlechter Stimmung (gs.1) als abhängige Variable und ruhiger vs. unruhiger Stimmung (ru.1) als Prädiktor. Bestimmen Sie den vorhergesagten gs.1-Stimmungswert für eine Person mit einem ru.1-Stimmungswert von 4.

# Modell schätzen
modell.1 <- lm(gs.1 ~ ru.1, data = erstis)

# Vorhergesagten Wert bestimmen
predict(modell.1, list(ru.1 = 4))
##        1 
## 4.181892

Aufgabe 2: Modell 2

Nehmen Sie zusätzlich den Prädiktor wm.1 (wache vs. müde Stimmung) auf. Überprüfen Sie die Modellannahmen.

# Modell schätzen
modell.2 <- lm(gs.1 ~ ru.1 + wm.1, data = erstis)

# Residuenplots anfordern
par(mfrow = c(2, 2))
plot(modell.2)

Die Residuenplots sprechen nicht für eine Verletzung der Normalverteilungs- oder Homoskedastizitätsannahme. Auch Extremwerte werden nicht erkennbar.

vif(modell.2)
##     ru.1     wm.1 
## 1.150534 1.150534

Es liegt keine problematische Multikollinearität vor.

Aufgabe 3: Modell 3

Nehmen Sie zusätzlich die Variable neuro als Prädiktor auf. Prüfen Sie, ob der Zuwachs des Determinationskoeffizienten R2 signifikant ist, indem Sie einen F-Test durchführen. Tipp: Damit eine solche hierarchische Regressionsanalyse funktioniert, dürfen keine Personen mit fehlenden Werte auf den analysierten variablen im Data Frame enthalten sein.

# Data Frame ohne fehlende Werte erstellen 
auswahl <- na.omit(select(erstis, gs.1, ru.1, wm.1, neuro))

# Modelle anlegen
modell.2 <- lm(gs.1 ~ ru.1 + wm.1, data = auswahl)
modell.3 <- lm(gs.1 ~ ru.1 + wm.1 + neuro, data = auswahl)

# Zuwachs des Determinationskoeffizienten
summary(modell.3)$r.squared - summary(modell.2)$r.squared
## [1] 0.010616
# Modellvergleich
anova(modell.2, modell.3)
## Analysis of Variance Table
## 
## Model 1: gs.1 ~ ru.1 + wm.1
## Model 2: gs.1 ~ ru.1 + wm.1 + neuro
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
## 1    185 45.792                              
## 2    184 45.042  1   0.74918 3.0604 0.08189 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Der Modellvergleich wird nicht signifikant (F(1, 184) = 3.06, p = .082), d. h. das Modell mit mehr Prädiktoren kann nicht signifikant mehr Varianz der abhängigen Variablen erklären.