Hypothesentest in der Statistik erklärt

Hypothesentest – die wichtigsten Verfahren im Überblick

Lesezeit ca. 6 Min. · zuletzt aktualisiert: 26. April 2026 · alle Methoden

Wenn du Hypothesen aufgestellt hast, brauchst du Tests, um sie zu prüfen. Welcher Test passt, hängt von Variablentyp, Stichprobengröße und Verteilung ab. Wir zeigen dir die fünf häufigsten Tests in Bachelor- und Masterarbeiten – t-Test, Chi-Quadrat, ANOVA, Korrelation, Regression – mit Anwendungsfällen und Berichtsformat.

Logik des Hypothesentests

Du formulierst eine Nullhypothese (H0: kein Unterschied/Zusammenhang) und eine Alternativhypothese (H1: Unterschied/Zusammenhang). Der Test berechnet einen p-Wert: die Wahrscheinlichkeit, dass deine Daten auch entstehen würden, wenn H0 stimmt. Liegt der p-Wert unter einer festgelegten Schwelle (meist 0,05), verwirfst du H0 und nimmst H1 als gestützt.

t-Test – Mittelwertvergleich zweier Gruppen

Verwendung: Du willst prüfen, ob zwei Gruppen sich in einem Mittelwert unterscheiden. Beispiel: Schätzen Frauen ihren Lernerfolg anders ein als Männer? Voraussetzung: Intervallskalierte abhängige Variable, näherungsweise Normalverteilung, etwa gleiche Varianzen.

Bericht: „Es zeigte sich kein signifikanter Geschlechtsunterschied in der Selbsteinschätzung des Lernerfolgs (M_Frauen = 4.21, SD = 0.78; M_Männer = 4.18, SD = 0.81; t(238) = 0.32, p = 0.75, d = 0.04)."

Chi-Quadrat-Test – Zusammenhang kategorialer Variablen

Verwendung: Du willst prüfen, ob zwei kategoriale Variablen zusammenhängen. Beispiel: Hängt das Geschlecht mit der Wahl des Studiengangs zusammen?

Bericht: „Geschlecht und Studiengangwahl hängen signifikant zusammen, χ²(3) = 12.45, p = 0.006, Cramér's V = 0.18."

ANOVA – Mittelwertvergleich mehrerer Gruppen

Verwendung: Du willst Mittelwerte von drei oder mehr Gruppen vergleichen. Beispiel: Unterscheidet sich die Selbsteinschätzung des Lernerfolgs zwischen drei Studiengängen?

Bericht: „Es zeigte sich ein signifikanter Studiengang-Effekt auf die Selbsteinschätzung des Lernerfolgs, F(2, 237) = 4.82, p = 0.009, η² = 0.04. Post-hoc-Tests (Bonferroni) zeigten signifikante Unterschiede zwischen Studiengang A und Studiengang C."

Korrelation – Zusammenhang zweier intervallskalierter Variablen

Verwendung: Du willst prüfen, wie stark zwei Variablen zusammenhängen. Pearson für intervallskalierte Daten, Spearman für ordinalskalierte oder nicht-normalverteilte Daten.

Bericht: „Plattform-Nutzung und Selbsteinschätzung des Lernerfolgs korrelierten signifikant positiv, r(238) = 0.34, p < 0.001."

Lineare Regression – Einfluss mehrerer Variablen

Verwendung: Du willst prüfen, welchen Einfluss eine oder mehrere unabhängige Variablen auf eine abhängige Variable haben.

Bericht: „Plattform-Nutzung und Lerngruppen-Häufigkeit erklärten zusammen 18 % der Varianz in der Selbsteinschätzung des Lernerfolgs, R² = 0.18, F(2, 237) = 26.3, p < 0.001. Plattform-Nutzung war ein signifikanter Prädiktor (β = 0.34, p < 0.001), Lerngruppen-Häufigkeit ebenfalls (β = 0.21, p = 0.002)."

Effektstärke – warum sie wichtig ist

Ein signifikanter p-Wert sagt nur, dass ein Effekt existiert – nicht wie groß er ist. Bei großen Stichproben werden auch winzige Effekte signifikant. Die Effektstärke (Cohen's d, η², r) sagt, ob der Effekt praktisch bedeutsam ist. Faustregeln: d = 0.2 (klein), 0.5 (mittel), 0.8 (groß); r = 0.1, 0.3, 0.5.

Häufige Fehler

p-Wert ohne Effektstärke berichtet.
Falscher Test gewählt (z. B. t-Test bei drei Gruppen statt ANOVA).
Voraussetzungen nicht geprüft (z. B. Normalverteilung).
p-Wert > 0.05 als „kein Effekt" interpretiert – richtig wäre „kein signifikanter Effekt nachweisbar".

Mehr typische Stolperfallen findest du in unserem Beitrag zu häufigen Fehlern in Bachelorarbeit und Masterarbeit. Die korrekte Berichtsweise statistischer Tests prüfen wir im professionellen Lektorat.