Wie KI-Detektoren Texte einstufen — Perplexity, Burstiness und
KI-Detektoren: So funktioniert die Erkennung
KI-Detektoren spucken eine Prozentzahl aus — aber was misst die eigentlich? Wenn du verstehst, wie Perplexity und Burstiness funktionieren, erkennst du auch, warum dein eigener Text falsch markiert werden kann.
Perplexity: Wie überraschend ist dein nächstes Wort?
Perplexity ist das Kernsignal jedes KI-Detektors. Vereinfacht gesagt fragt der Detektor ein Sprachmodell: „Wie wahrscheinlich hättest du dieses Wort an dieser Stelle vorhergesagt?" Liegt das tatsächliche Wort sehr nah an der Top-Vorhersage, ist die Perplexity niedrig — der Text wirkt „glatt" und damit KI-verdächtig.
Konkret heißt das: Schreibst du in einer Hausarbeit „Die Ergebnisse zeigen, dass..." hat das Modell die Folgewörter fast schon erraten. Schreibst du dagegen „Die Ergebnisse kichern uns ins Gesicht", explodiert die Perplexity. Menschliche Texte haben oft solche kleinen Brüche — Formulierungen, die ein Modell nicht als wahrscheinlichsten Pfad gewählt hätte.
- Niedrige Perplexity → KI-typisch, vorhersehbar
- Hohe Perplexity → menschlich-typisch, überraschend
- Problem: Geübte akademische Sprache ist von Natur aus vorhersehbar
Burstiness: Warum gleichmäßige Sätze verdächtig sind
Das zweite Signal ist die Burstiness — also die Varianz zwischen deinen Sätzen. Menschen schreiben rhythmisch ungleich. Ein langer, verschachtelter Satz wird oft von einem kurzen abgelöst. Dann kommt wieder ein mittlerer. KI-Modelle dagegen pendeln sich auf eine relativ konstante Satzlänge und ähnliche Strukturen ein.
Du kannst dir das wie einen Herzschlag vorstellen: Ein menschlicher Text hat Ausschläge, Pausen, Sprünge. Ein KI-Text läuft eher wie ein Metronom. Detektoren wie GPTZero werten genau diese Varianz statistisch aus und kombinieren sie mit der Perplexity zu einem Gesamtscore.
Praktischer Effekt: Wenn du als Studi besonders gewissenhaft schreibst und jeden Satz auf ungefähr 18–22 Wörter trimmst, drückst du deine eigene Burstiness — und der Detektor wird misstrauisch, obwohl du den Text selbst getippt hast.

Vom Score zur Wahrscheinlichkeit: So entsteht die Prozentzahl
Perplexity und Burstiness sind nur Zahlen — bis ein Klassifikator daraus eine Wahrscheinlichkeit macht. Dieser Klassifikator wurde auf zwei Stapeln Texten trainiert: menschlich und KI. Er hat gelernt, welche Perplexity-Burstiness-Kombinationen statistisch in welchen Stapel gehören.
Wenn dein Text reinkommt, wird er im selben „Koordinatensystem" verortet. Liegt er näher am KI-Cluster, bekommst du 87 %. Liegt er dazwischen, vielleicht 42 %. Wichtig zu wissen:
- Die Prozentzahl ist keine Aussage über deine Absicht, sondern über statistische Ähnlichkeit.
- Viele Tools werten satzweise aus und mitteln. Ein einziger „glatter" Absatz kann den Score hochziehen.
- Modelle wie GPT-4 oder Claude haben sich seit dem Training vieler Detektoren weiterentwickelt — die Klassifikator-Grenze passt nicht immer.
Warum False Positives so häufig vorkommen
Die wichtigste Erkenntnis: KI-Detektoren irren sich systematisch — nicht nur zufällig. Weber-Wulff et al. (2023) haben 14 verbreitete KI-Detektoren getestet und festgestellt, dass keines der Tools eine Genauigkeit von 80 % erreichte. Alle produzierten sowohl falsch-positive als auch falsch-negative Treffer.
Eine Auswertung im Journal of Academic Ethics (2024) über mehr als 500 Einreichungen kam zu dem Ergebnis, dass Tools wie Turnitin bei rein menschlich verfassten Texten Falsch-Positiv-Raten von bis zu 20 % erzeugen — besonders betroffen sind Nicht-Muttersprachler und Studierende mit sehr formaler Schreibweise.
Der Grund liegt in der Methode selbst: Akademische Sprache ist standardisiert. Wer sauber zitiert, Passivkonstruktionen nutzt und Fachvokabular einsetzt, produziert niedrige Perplexity — genau das Signal, das auch KI-Texte liefern.

Was du selbst tun kannst, bevor du abgibst
Du kannst deinen Text vor der Abgabe gezielt entschärfen, ohne ihn schlechter zu machen:
- Satzlängen variieren: Mische bewusst kurze und lange Sätze. Ziel ist eine Burstiness, die nicht maschinell wirkt.
- Eigene Formulierungen einstreuen: Persönliche Beispiele, konkrete Zahlen aus deiner Quelle, regionale Begriffe — alles, was ein Modell nicht als „wahrscheinlichste Wahl" produziert hätte.
- Übergangsformeln reduzieren: „Zusammenfassend lässt sich sagen" oder „Im Folgenden wird dargestellt" sind statistische KI-Marker. Streiche sie oder formuliere um.
- Vor dem Hochladen prüfen: Lass den Text durch einen Detektor laufen, bevor das Prüfungsamt das tut. So weißt du, woran du bist, und kannst gezielt nachschärfen.
Und falls ein Detektor unfair Alarm schlägt: Bewahre Versionsverläufe deines Dokuments auf. Word und Google Docs protokollieren Tippgeschwindigkeit und Bearbeitungen — das ist im Streitfall dein bester Beleg.
Studien zum Thema
- Weber-Wulff et al., European Journal for Educational Integrity, 2023: Test von 14 KI-Detektoren — keines der Tools erreichte eine Genauigkeit von 80 %, alle produzierten falsch-positive und falsch-negative Treffer. Quelle
- Journal of Academic Ethics, 2024: Bei einer Auswertung von über 500 Einreichungen erreichten KI-Detektoren wie Turnitin bei rein menschlich verfassten Texten Falsch-Positiv-Raten von bis zu 20 %. Quelle
Wer einen Text final einstufen will, sollte deshalb nicht blind auf die Prozentzahl starren, sondern das Zusammenspiel aus Perplexity, Burstiness und Kontext betrachten. Ein guter Korrektor liest zuerst den Absatz, prüft Quellenlage, Argumentstruktur und Stil — und erst danach wirft er einen Blick auf den Detektor-Score. Genau hier scheitern viele Lehrstühle: Sie lassen das Tool entscheiden, statt es als Indiz zu lesen. Sinnvoll ist es, mindestens zwei Detektoren parallel laufen zu lassen, die Ergebnisse mit der eigenen Lesart abzugleichen und nur dann nachzufragen, wenn statistisches Signal und inhaltlicher Eindruck deutlich auseinanderlaufen.