Hypothesentest in der Statistik erklärt

Hypothesentest – die wichtigsten Verfahren im Überblick

Lesezeit ca. 6 Min. · zuletzt aktualisiert: 26. April 2026 · alle Methoden

Wenn du Hypothesen aufgestellt hast, brauchst du Tests, um sie zu prüfen. Welcher Test passt, hängt von Variablentyp, Stichprobengröße und Verteilung ab. Wir zeigen dir die fünf häufigsten Tests in Bachelor- und Masterarbeiten – t-Test, Chi-Quadrat, ANOVA, Korrelation, Regression – mit Anwendungsfällen und Berichtsformat.

Logik des Hypothesentests

Du formulierst eine Nullhypothese (H0: kein Unterschied/Zusammenhang) und eine Alternativhypothese (H1: Unterschied/Zusammenhang). Der Test berechnet einen p-Wert: die Wahrscheinlichkeit, dass deine Daten auch entstehen würden, wenn H0 stimmt. Liegt der p-Wert unter einer festgelegten Schwelle (meist 0,05), verwirfst du H0 und nimmst H1 als gestützt.

t-Test – Mittelwertvergleich zweier Gruppen

Verwendung: Du willst prüfen, ob zwei Gruppen sich in einem Mittelwert unterscheiden. Beispiel: Schätzen Frauen ihren Lernerfolg anders ein als Männer? Voraussetzung: Intervallskalierte abhängige Variable, näherungsweise Normalverteilung, etwa gleiche Varianzen.

Bericht: „Es zeigte sich kein signifikanter Geschlechtsunterschied in der Selbsteinschätzung des Lernerfolgs (M_Frauen = 4.21, SD = 0.78; M_Männer = 4.18, SD = 0.81; t(238) = 0.32, p = 0.75, d = 0.04)."

Chi-Quadrat-Test – Zusammenhang kategorialer Variablen

Verwendung: Du willst prüfen, ob zwei kategoriale Variablen zusammenhängen. Beispiel: Hängt das Geschlecht mit der Wahl des Studiengangs zusammen?

Bericht: „Geschlecht und Studiengangwahl hängen signifikant zusammen, χ²(3) = 12.45, p = 0.006, Cramér's V = 0.18."

ANOVA – Mittelwertvergleich mehrerer Gruppen

Verwendung: Du willst Mittelwerte von drei oder mehr Gruppen vergleichen. Beispiel: Unterscheidet sich die Selbsteinschätzung des Lernerfolgs zwischen drei Studiengängen?

Bericht: „Es zeigte sich ein signifikanter Studiengang-Effekt auf die Selbsteinschätzung des Lernerfolgs, F(2, 237) = 4.82, p = 0.009, η² = 0.04. Post-hoc-Tests (Bonferroni) zeigten signifikante Unterschiede zwischen Studiengang A und Studiengang C."

Korrelation – Zusammenhang zweier intervallskalierter Variablen

Verwendung: Du willst prüfen, wie stark zwei Variablen zusammenhängen. Pearson für intervallskalierte Daten, Spearman für ordinalskalierte oder nicht-normalverteilte Daten.

Bericht: „Plattform-Nutzung und Selbsteinschätzung des Lernerfolgs korrelierten signifikant positiv, r(238) = 0.34, p < 0.001."

Lineare Regression – Einfluss mehrerer Variablen

Verwendung: Du willst prüfen, welchen Einfluss eine oder mehrere unabhängige Variablen auf eine abhängige Variable haben.

Bericht: „Plattform-Nutzung und Lerngruppen-Häufigkeit erklärten zusammen 18 % der Varianz in der Selbsteinschätzung des Lernerfolgs, R² = 0.18, F(2, 237) = 26.3, p < 0.001. Plattform-Nutzung war ein signifikanter Prädiktor (β = 0.34, p < 0.001), Lerngruppen-Häufigkeit ebenfalls (β = 0.21, p = 0.002)."

Effektstärke – warum sie wichtig ist

Ein signifikanter p-Wert sagt nur, dass ein Effekt existiert – nicht wie groß er ist. Bei großen Stichproben werden auch winzige Effekte signifikant. Die Effektstärke (Cohen's d, η², r) sagt, ob der Effekt praktisch bedeutsam ist. Faustregeln: d = 0.2 (klein), 0.5 (mittel), 0.8 (groß); r = 0.1, 0.3, 0.5.

Häufige Fehler

Mehr typische Stolperfallen findest du in unserem Beitrag zu häufigen Fehlern in Bachelorarbeit und Masterarbeit. Die korrekte Berichtsweise statistischer Tests prüfen wir im professionellen Lektorat.

Du hast statistische Tests gerechnet und willst die Berichtsweise prüfen lassen? Lektorat mit fachlicher Prüfung ab 0,29 € pro Normseite.

Datei hochladen

Häufige Fragen zum Hypothesentest

Welcher Test bei kleinen Stichproben?

Bei n < 30 nicht-parametrische Tests (Mann-Whitney-U statt t-Test, Wilcoxon statt gepaartem t-Test, Kruskal-Wallis statt ANOVA). Diese setzen keine Normalverteilung voraus, sind aber etwas weniger sensitiv.

Was bedeutet p < 0.05 genau?

Die Wahrscheinlichkeit, dass deine Daten unter Annahme der Nullhypothese entstehen, beträgt weniger als 5 %. Das ist die Konvention für „signifikant". Strenger sind p < 0.01 oder 0.001. Wichtig: Signifikanz sagt nichts über Größe oder Bedeutsamkeit des Effekts.

Brauche ich Bonferroni-Korrektur?

Bei multiplen Vergleichen ja – wer 20 Tests rechnet, findet rein zufällig einen signifikanten. Bonferroni teilt das α-Niveau durch die Anzahl der Tests. Bei wenigen geplanten Vergleichen ist die Korrektur weniger wichtig.

Wie berichte ich nicht-signifikante Ergebnisse?

Genauso wie signifikante – mit p-Wert, Effektstärke, Konfidenzintervall. Nicht-signifikante Befunde sind wissenschaftlich legitime Ergebnisse. Schreib nicht „kein Effekt" sondern „kein signifikanter Effekt nachweisbar".

SPSS, R oder JASP – was nehmen?

SPSS für Standard-Tests an deutschen Unis verbreitet, JASP einsteigerfreundlich und kostenlos, R am mächtigsten aber mit Einarbeitungszeit. Für die Bachelorarbeit reichen alle drei. Wichtig: konsistent einen Workflow – nicht zwischen Tools wechseln.