KI-Texte erkennen Merkmale Checkliste
KI-Texte erkennen: die wichtigsten sprachlichen und inhaltlichen Merkmale
Wer heute eine Hausarbeit liest, fragt sich oft binnen Sekunden: Hat das ein Mensch geschrieben oder eine Maschine? Eine aktuelle ZEIT-Aktion, bei der Lesende prüfen sollen, ob sie so gut Deutsch können wie ein Achtklässler, zeigt nebenbei, wie sensibel unser Sprachgefühl reagiert. Genau dieses Gefühl brauchst du, wenn du KI-Texte erkennen willst. Die folgende Merkmale-Checkliste fasst zusammen, woran du generierte Passagen typischerweise erkennst: vom glatten Vokabular über die immer gleichen Satzlängen bis zu erfundenen Quellen. Du bekommst konkrete Beispiele, Vergleichszahlen und am Ende eine Schritt-für-Schritt-Anleitung, mit der du fremde oder eigene Entwürfe systematisch prüfen kannst.
Warum KI-Texte überhaupt auffallen
Große Sprachmodelle wie GPT-4o, Claude oder Gemini werden auf Milliarden Sätzen trainiert und liefern darum einen stilistischen Mittelwert: grammatikalisch sauber, lexikalisch breit, inhaltlich anschlussfähig. Genau diese Mittelmäßigkeit ist das erste Warnsignal. Menschliche Texte, besonders unter Zeitdruck verfasste Hausarbeiten, schwanken stärker. Mal sitzt ein Komma falsch, mal taucht ein regionales Wort auf, mal bleibt ein Argument unausgesprochen, weil die Autorin es für selbstverständlich hält.
Eine vielzitierte Studie der Universität Kansas (Desaire et al., 2023) erreichte beim Unterscheiden wissenschaftlicher KI- und Mensch-Texte über 94 Prozent Genauigkeit, allein auf Basis von Satzlänge, Wortvielfalt und Punktdichte. Das zeigt: KI-Texte erkennen ist kein Bauchgefühl, sondern messbar. Die Merkmale-Checkliste in diesem Beitrag bündelt die wichtigsten Indikatoren, damit du nicht bei jeder Verdachts-Passage raten musst.
Sprachliche Merkmale: Vokabular und Floskeln
Das auffälligste Indiz sind wiederkehrende Lieblingswörter. ChatGPT greift überdurchschnittlich häufig zu Begriffen wie essenziell, vielfältig, nahtlos, maßgeschneidert, im digitalen Zeitalter oder in der heutigen Welt. Eine Auswertung von Cornell-Forschenden über 14 Millionen Peer-Reviews fand seit Erscheinen von ChatGPT einen Anstieg von Wörtern wie meticulous oder commendable um den Faktor 10 bis 35.
Auch im Deutschen ploppen typische Wendungen auf: Es ist wichtig zu beachten, dass …, Insgesamt lässt sich festhalten …, Zusammenfassend kann gesagt werden …. Diese Brücken klingen seriös, transportieren aber kaum Information.
- Übermäßig viele Synonyme im selben Absatz (Modell variiert künstlich)
- Anglizismen, die im deutschen Fachkontext unüblich sind
- Adjektivketten wie umfassend, ganzheitlich, nachhaltig ohne Beleg
- Konjunktivische Sicherheitsformeln statt klarer Position
Strukturelle Merkmale: Listen, Symmetrien, Satzlängen
Generierte Texte lieben Symmetrie. Eine Einleitung mit drei Sätzen, danach drei Hauptpunkte mit je drei Unterpunkten, am Ende ein dreigliedriges Fazit. Diese Drei-Drei-Drei-Architektur ist im Studium fast nie organisch gewachsen. Auch Bullet-Listen mit exakt gleich langen Items deuten auf KI-Generierung hin.
Statistisch lassen sich KI-Texte oft an einer auffällig geringen Streuung der Satzlängen erkennen. Wo ein Mensch zwischen 6 und 40 Wörtern variiert, pendelt das Modell zuverlässig zwischen 15 und 25. Auch die Absatzlänge bleibt konstant. Wer prüfen will, kann den Variationskoeffizienten der Satzlängen berechnen: liegt er unter 0,4, ist Misstrauen angebracht.
Ein weiteres strukturelles Muster: KI hängt gerne ein Zusammenfassend-Absatz an jede Sektion. Sieben Sektionen, sieben Mini-Fazits — das schreibt selten jemand freiwillig. Wer wissenschaftlich sauber argumentieren will, findet in unserem Leitfaden zum wissenschaftlichen Schreiben bessere Strukturprinzipien.
Inhaltliche Merkmale: Halluzinationen und Oberflächlichkeit
Der gefährlichste Merkmals-Cluster betrifft den Inhalt. Sprachmodelle erfinden Quellen, Studien, Paragraphen und Zitate, wenn sie unter Druck geraten. Eine Untersuchung im Journal of Medical Internet Research (2024) zeigte, dass GPT-4 in 18 bis 47 Prozent der medizinischen Referenzen entweder Autor, Jahr oder DOI fälschte. Solche Halluzinationen sind oft das einzige harte Indiz, weil sie überprüfbar sind.
Typisch ist außerdem die plateauartige Tiefe: Jeder Absatz bleibt auf demselben Abstraktionsgrad, ohne in Details, Gegenbeispiele oder Streitfälle abzutauchen. Eine echte Bachelorarbeit beißt sich an einem Begriff fest, eine KI-Passage referiert ihn höflich.
Konkrete Prüfschritte: Klick jede Fußnote an. Such einzelne Sätze in Google in Anführungszeichen. Vergleich Zahlenangaben mit dem Original. Schon 10 Minuten Stichprobe entlarven die meisten generierten Abschnitte. Wer das nicht manuell machen will, kann den KI-Detektor oder den englischsprachigen AI Detector nutzen, beide melden verdächtige Passagen mit Score und Markierung.
Typografische und formale Hinweise
Ein unterschätzter Indikator ist die Typografie. Modelle setzen amerikanische Anführungszeichen (" "), während im Deutschen „diese" üblich sind. Sie verwenden Gedankenstriche (—) statt der im Deutschen häufigeren Halbgeviertstriche (–) oder schlicht des Kommas. Häufig tauchen geschützte Leerzeichen vor Prozentangaben auf, die Studis manuell nie setzen.
Weitere Marker: Doppelte Leerzeichen nach Punkten (US-Schreibstil), unsichtbare Sonderzeichen wie das geschützte Leerzeichen (U+00A0) oder das schmale Leerzeichen (U+202F), sowie fehlende deutsche Abkürzungen wie z.B., bzw., u.a. Stattdessen schreibt das Modell ausgeschrieben zum Beispiel oder unter anderem.
Auch Bullet-Symbole verraten viel: KI nutzt gerne den Mittelpunkt-Bullet (•) oder gar Emojis als Listenpunkt. Wer eine Word-Datei prüft, sollte zusätzlich auf den Autor-Eintrag in den Dokument-Metadaten schauen und die Bearbeitungszeit prüfen. Eine Hausarbeit mit 30 Seiten und drei Minuten Total Editing Time ist physikalisch unmöglich von Hand getippt.
Vergleich Mensch vs. Maschine: das Achtklässler-Experiment
Wie groß der Unterschied wirklich ist, illustriert das jüngste Quiz der Wochenzeitung DIE ZEIT. In dem ZEIT-Quiz „Rechtschreibung: Können Sie so gut Deutsch wie ein Achtklässler?“ sollen Erwachsene erkennen, ob ein Satz fehlerfrei ist. Das Spannende: Selbst Muttersprachler stolpern, weil Achtklässler-Texte typische Eigenheiten haben (umgangssprachliche Wendungen, regionaltypische Konstruktionen, originelle Tippfehler), die ein Sprachmodell systematisch ausbügelt.
Genau das ist der Punkt. Ein menschlicher Text verrät die Person dahinter: Alter, Region, Bildungsgrad, Lieblingsfehler. Ein KI-Text verrät vor allem das Modell. Wenn du also einen Aufsatz liest, in dem keine einzige idiosynkratische Wendung vorkommt, kein Tippfehler, kein „äh" im O-Ton, dann ist die Wahrscheinlichkeit hoch, dass nachgeholfen wurde.
Diese Beobachtung deckt sich mit Erfahrungen aus Schulen: Lehrkräfte berichten, dass sie KI-Aufsätze oft schon am ersten Absatz erkennen, einfach weil der typische Schüler-Sound fehlt. Die ZEIT-Aktion ist damit nebenbei ein Lehrstück darüber, wie viel Persönlichkeit in scheinbar simpler Rechtschreibung steckt.
Tools und Detektoren: was sie können und was nicht
Automatisierte KI-Detektoren basieren meist auf Perplexity (wie überrascht ist ein Modell vom nächsten Wort) und Burstiness (wie stark variieren die Satzlängen). Bekannte Anbieter sind GPTZero, Originality.ai, Copyleaks, Turnitin AI sowie der hauseigene KI-Detektor auf korrektur.de. Die Trefferquote liegt bei aktuellen Modellen je nach Studie zwischen 60 und 95 Prozent, mit Falsch-Positiv-Raten von 1 bis 9 Prozent.
Wichtig: Kein Tool ist gerichtsfest. Die TU München, Universität Hamburg und mehrere Schweizer Hochschulen haben in internen Richtlinien festgelegt, dass KI-Detektor-Scores allein keinen Täuschungsvorwurf rechtfertigen. Sie sind ein Anlass für ein Gespräch, kein Beweis.
Deshalb gilt: Tool als Frühwarnung, dann manuelle Prüfung der Merkmale aus dieser Checkliste, dann Rücksprache mit der Autorin oder dem Autor. Wer als Studi selbst auf der sicheren Seite stehen will, sollte vor Abgabe einmal durchscannen und auffällige Stellen umformulieren. Wie das transparent und regelkonform geht, beschreibt die Seite zur akademischen Integrität.
Praktische Checkliste für den Eilfall
Wenn du in 10 Minuten ein verdächtiges Dokument prüfen musst, geh diese Reihenfolge durch:
- Quellen-Stichprobe: Drei Fußnoten zufällig anklicken. Existiert die Quelle? Stimmen Jahr, Seitenzahl, Titel?
- Floskel-Scan: Strg+F nach essenziell, nahtlos, im digitalen Zeitalter, Insgesamt lässt sich festhalten.
- Satzlängen-Test: Markiere einen Absatz, lass dir die durchschnittliche Satzlänge anzeigen (Word: Überprüfen → Lesbarkeit). Variationskoeffizient niedrig = verdächtig.
- Typografie: Welche Anführungszeichen, welche Striche, welche Bullet-Symbole?
- Metadaten: Autor, Bearbeitungszeit, Versionshistorie in der Word-Datei.
- Detektor-Score: Datei in den Datei-Upload laden und prüfen lassen.
- Inhaltliche Tiefe: Gibt es konkrete Beispiele, eigene Beobachtungen, Gegenargumente? Oder nur Lehrbuch-Allgemeinplätze?
Mit dieser Schrittfolge erkennst du in der Praxis die meisten generierten Passagen. Ergänzend hilft ein Blick auf unsere Korrekturlese-Tricks für die letzte Woche vor Abgabe, denn viele Verdachtsfälle entstehen schlicht aus Zeitnot.
Quellen
- DIE ZEIT (2026): Rechtschreibung: Können Sie so gut Deutsch wie ein Achtklässler? (Quiz, online)
- Desaire, H. et al. (2023): Distinguishing academic science writing from humans or ChatGPT. Cell Reports Physical Science.
- Liang, W. et al. (2024): Monitoring AI-Modified Content at Scale, Stanford / Cornell.
- Walters, W. & Wilder, E. (2023): Fabrication and errors in the bibliographic citations generated by ChatGPT. Scientific Reports 13.
- Universität Hamburg (2025): Hinweise zur Bewertung von KI-Detektor-Ergebnissen in Prüfungen.