KI-Erkennung
KI-Erkennung
KI-Detektoren versprechen Klarheit, liefern aber oft das Gegenteil. Wer Studierende auf Basis eines roten Balkens beschuldigt, riskiert ungerechte Vorwürfe und harte juristische Folgen. Was du als Lehrkraft wissen solltest, bevor du einem Tool vertraust.
Was ein KI-Detektor wirklich misst
Ein KI-Detektor erkennt nicht, ob ein Mensch oder eine Maschine geschrieben hat. Er misst statistische Auffälligkeiten im Text, vor allem die sogenannte Perplexität und Burstiness. Vereinfacht gesagt: Wie vorhersehbar ist die Wortwahl, wie stark schwankt die Satzlänge? Texte mit gleichmäßigem Rhythmus und häufigen Standardformulierungen wirken für das Modell maschinell, weil große Sprachmodelle genau solche Muster erzeugen.
Das Problem: Diese Muster entstehen auch in völlig handgeschriebenen Texten. Eine sorgfältig formulierte Einleitung, ein methodisch korrekt aufgebauter Theorieteil oder ein nüchterner juristischer Befundtext liefern fast immer hohe Detektor-Werte, ohne dass ein einziges Token aus ChatGPT stammt.
Hinzu kommt, dass jedes neue Sprachmodell die Detektoren ein Stück weiter entwertet. Wer mit GPT-3.5-Daten trainiert wurde, erkennt aktuelle Modelle deutlich schlechter, je nach Studie sinkt die Treffsicherheit auf unter 20 Prozent, sobald jemand den Text leicht überarbeitet.
Die Studienlage ist eindeutig kritisch
Die wohl bekannteste Untersuchung kommt aus Stanford: Liang et al. (2023) testeten sieben gängige KI-Detektoren an 91 TOEFL-Essays internationaler Studierender. Ergebnis: 61,3 Prozent der rein menschlich geschriebenen Texte wurden fälschlich als KI markiert, 97,8 Prozent fielen bei mindestens einem Tool durch, fast 20 Prozent wurden von allen sieben Detektoren einstimmig falsch klassifiziert. Bei Texten von Muttersprachlern lag die Fehlerquote dagegen nahe null.
Auch jüngere Auswertungen bestätigen das Bild. In medizinisch-wissenschaftlichen Texten liegen die False-Positive-Raten je nach Tool bei bis zu 8 Prozent, in formalen Theorie-Kapiteln deutlich höher. Eine Übersicht der University of San Diego (2024) weist darauf hin, dass kein Hersteller die eigene Trefferquote unabhängig validieren lässt, die Werte aus Marketingmaterial sind also keine belastbare Grundlage für eine Prüfungsentscheidung.
Bemerkenswert: Sobald geprüfte Texte leichte Eingriffe enthalten, etwa eingebaute Tippfehler oder umgestellte Sätze, fällt die Erkennung in mehreren Studien von rund 39 Prozent auf 17 Prozent. Wer also wirklich täuschen will, hat es leicht. Wer ehrlich arbeitet, gerät schneller in Verdacht.

Wen es am häufigsten unschuldig trifft
Drei Gruppen tauchen in den Fehlalarmen besonders oft auf:
- Nicht-Muttersprachler: Begrenzter Wortschatz und einfacher Satzbau erzeugen genau die Vorhersehbarkeit, auf die Detektoren anspringen.
- Sehr ordentlich schreibende Studierende: Wer sauber gliedert, Wiederholungen vermeidet und Fachvokabular präzise nutzt, landet im selben Cluster wie ein Sprachmodell.
- Autoren von Standardabschnitten: Methodik, Literatur-Review, juristische Definitionen, technische Spezifikationen, also alles, was zwangsläufig formelhaft klingt.
Wenn du diese Profile auf deinen Kurs überträgst, wird schnell klar: Ein roter Balken im Detektor sagt mehr über den Textstil als über die Urheberschaft. Ein Verdacht ohne weitere Belege ist daher selten haltbar, weder pädagogisch noch im Widerspruchsverfahren.
So gehst du als Lehrkraft verantwortungsvoll vor
Niemand verlangt, dass du KI-Verstöße ignorierst. Aber die Beweisführung muss tragfähig sein. Diese Schritte haben sich in der Praxis bewährt:
- Mindestens zwei Detektoren parallel nutzen und nur dann weiter prüfen, wenn beide unabhängig hohe Werte ausweisen. Einstimmige Treffer reduzieren das Fehlrisiko, ersetzen aber keinen Beweis.
- Versionshistorie anfordern. Word, Google Docs und Overleaf protokollieren Bearbeitungen minutengenau. Ein über Wochen gewachsenes Dokument mit nachvollziehbaren Edits ist deutlich aussagekräftiger als jeder Detektor-Score.
- Fachgespräch führen. Lass dir drei zentrale Argumente der Arbeit mündlich erklären, ohne Vorbereitung. Wer den Text selbst geschrieben hat, kann inhaltlich antworten.
- Stilbruch-Analyse: Vergleiche die verdächtige Arbeit mit früheren Texten derselben Person, etwa Seminararbeiten oder Klausuren. Plötzliche Sprünge in Stil und Lexik sind ein stärkeres Signal als jede Prozentangabe.
- Transparenz vor Sanktion. Konfrontiere die Person erst, wenn du die Indizien bündeln kannst. Ein unbegründeter KI-Vorwurf hat juristisches Gewicht und kann auf dich zurückfallen.
Hilfreich ist außerdem, schon im Vorfeld klare Spielregeln zu kommunizieren. Eine schriftliche KI-Klausel, in der du erlaubte und unerlaubte Nutzung definierst, schafft Beweissicherheit für beide Seiten und entlastet dich im Konfliktfall.

Den Detektor als Indiz behandeln, nicht als Urteil
Ein KI-Detektor ist ein Verdachtsfilter, kein Gerichtsgutachten. Er kann dir Hinweise geben, wo du genauer hinschauen solltest, aber er ersetzt weder das Fachgespräch noch die Bewertung der Versionshistorie. Wer aus einem Prozentwert eine Täuschungsanzeige ableitet, riskiert nicht nur ungerechte Noten, sondern auch Klagen, die in den letzten Monaten an deutschen Hochschulen sichtbar zugenommen haben.
Die ehrlichste Haltung lautet daher: Detektor-Werte protokollieren, aber niemals als alleinigen Beleg nutzen. Frag dich vor jeder Sanktion, ob du den Vorwurf vor einem Prüfungsausschuss souverän begründen könntest, ohne den Screenshot eines Tools, dessen interne Logik niemand offenlegt.
Studien zum Thema
- Liang et al., Stanford University, 2023 (Patterns): Sieben gängige KI-Detektoren stuften 61,3 Prozent der TOEFL-Essays nicht-muttersprachlicher Studierender fälschlich als KI-generiert ein, 97,8 Prozent wurden von mindestens einem Tool falsch klassifiziert. Quelle
- University of San Diego Legal Research Center, 2024: Übersichtsarbeit zeigt, dass die Genauigkeit gängiger Detektoren bei leicht überarbeiteten Texten von rund 39,5 Prozent auf 17,4 Prozent fällt und False-Positive-Raten in formalen Fachtexten bis zu 8 Prozent erreichen. Quelle
Warum Lehrende skeptisch bleiben sollten, zeigt sich spätestens dann, wenn ein einzelner Detektor-Wert zur alleinigen Grundlage einer Prüfungsentscheidung wird. Die Fehlerquoten aus Stanford, San Diego und medizinischen Fachjournalen verdeutlichen, dass kein aktuelles Tool die nötige Beweiskraft für ein Täuschungsverfahren liefert. Statt sich auf einen roten Balken zu verlassen, lohnt sich ein Blick auf den Schreibprozess: Zwischenstände, Notizen, Versionsverläufe oder ein kurzes Fachgespräch sagen mehr aus als jede Wahrscheinlichkeitsanzeige. Wer pädagogische Verantwortung ernst nimmt, behandelt Detektor-Ergebnisse als Hinweis, niemals als Urteil, und schützt damit Studierende vor ungerechtfertigten Vorwürfen.