Falsche KI-Zitate bedrohen die Wissenschaft
Wenn KI-Halluzinationen das Vertrauen in die Wissenschaft erschüttern
Fast 150.000 erfundene Referenzen in wissenschaftlichen Arbeiten: Eine neue Auswertung zeigt, wie massiv sich falsche KI-Zitate seit dem Boom generativer Sprachmodelle in der Forschungsliteratur ausgebreitet haben. Die Studie macht deutlich, dass selbst Top-Modelle regelmäßig Quellen halluzinieren, also Titel, Autoren und Seitenzahlen frei erfinden. Für Studierende ist das mehr als eine technische Randnotiz: Wer in der Hausarbeit eine erfundene Quelle zitiert, riskiert Note, Ruf und im schlimmsten Fall ein Plagiats- oder Täuschungsverfahren. Dieser Beitrag erklärt, warum gerade falsche KI-Zitate die Wissenschaft so massiv unter Druck setzen und wie du dich davor schützt.
Was die neue 150.000-Zitate-Studie wirklich zeigt
Die Auswertung, über die unter anderem t3n berichtet, hat fast 150.000 verdächtige Referenzen in begutachteten und Preprint-Arbeiten identifiziert. Verdächtig heißt: Die zitierte Studie existiert nicht, der DOI führt ins Leere, oder Autor und Jahr passen nicht zur angegebenen Zeitschrift. Auffällig ist der zeitliche Verlauf. Vor 2023 lag die Quote erfundener Quellen im Promillebereich, seit der breiten Verfügbarkeit großer Sprachmodelle steigt sie messbar an.
Besonders heikel: Viele dieser Halluzinationen sehen auf den ersten Blick völlig plausibel aus. Sie nennen reale Forschende, reale Journals und realistische Titel. Erst beim Klick auf den Link fällt auf, dass die Arbeit nie geschrieben wurde. Genau diese Plausibilität ist der Grund, warum gefälschte KI-Zitate so lange unentdeckt durch Peer-Review und Korrektur rutschen.
Methodisch interessant ist, wie die Forschenden gezählt haben: Sie verglichen Referenzlisten aus rund 1,2 Millionen Arbeiten der Jahre 2020 bis 2025 mit CrossRef, PubMed und Semantic Scholar. Treffer ohne Match wurden manuell stichprobenartig nachgeprüft. Die Quote falscher Einträge stieg im untersuchten Zeitraum von etwa 0,3 auf knapp 4 Prozent. Klingt nach wenig, ist aber bei Millionen jährlich publizierter Studien eine gewaltige absolute Zahl. Für Lehrende und Reviewer bedeutet das einen spürbaren Mehraufwand, der bislang in keinem Begutachtungs-Budget eingepreist ist.
Wie KI-Halluzinationen technisch entstehen
Große Sprachmodelle erzeugen Text statistisch, nicht faktisch. Sie sagen das wahrscheinlichste nächste Wort voraus, nicht die wahrste Aussage. Wenn ein Nutzer nach einer Quelle zu Thema X fragt, baut das Modell aus Mustern, die es im Training gesehen hat, eine glaubwürdig klingende Referenz zusammen. Das Ergebnis sieht nach APA-Standard aus, hat aber keinen Realitätsanker.
Drei Faktoren verstärken den Effekt:
- Trainingslücken: Modelle kennen nicht jede Studie, erfinden aber lieber, als zuzugeben, dass sie etwas nicht wissen.
- Prompt-Druck: Wer explizit nach „fünf Quellen“ fragt, bekommt fünf, ob sie existieren oder nicht.
- Temperatur-Einstellungen: Höhere Kreativität im Modell heißt mehr Variation und mehr erfundene Details.
Selbst die neuesten Versionen von GPT, Claude und Gemini halluzinieren laut der Studie noch zweistellig prozentual, wenn man sie ohne Recherche-Tool nach Literatur fragt.
Ein weiterer Punkt wird oft übersehen: Sprachmodelle haben einen Bias zu „runden“ Quellenangaben. Sie produzieren häufiger Jahreszahlen wie 2018 oder 2020, weil diese in Trainingsdaten überrepräsentiert sind, und sie kombinieren gerne bekannte Autorinnen aus dem Fach mit fiktiven Titeln. Wer als Studi solche Muster kennt, erkennt verdächtige Einträge schon beim Überfliegen der Bibliografie. Auffällig sind außerdem zu glatte DOIs ohne Sonderzeichen, sehr generische Journal-Namen und Seitenangaben, die exakt auf 10er-Schritten enden. Solche Heuristiken ersetzen keine Prüfung, geben aber ein gutes Frühwarn-Gefühl.
Welche Fachgebiete besonders betroffen sind
Die Auswertung verteilt sich ungleich. Stark betroffen sind Disziplinen mit hohem Literaturdurchsatz und vielen Übersichtsarbeiten: Medizin, Pharmazie, Psychologie, Erziehungswissenschaft und Teile der Wirtschaftsinformatik. Hier entstehen viele Reviews und Metaanalysen, in denen Referenzlisten lang und schwer zu prüfen sind.
Geistes- und Rechtswissenschaften sind nicht ausgenommen. Im Gegenteil: Bei juristischen Texten erfindet KI gern Urteile mit korrekt klingendem Aktenzeichen, die nie ergangen sind. In den USA wurden bereits Anwälte sanktioniert, weil sie ChatGPT-Urteile vor Gericht vorgetragen hatten. Auch in Deutschland mehren sich Berichte aus dem Studienalltag, dass Seminararbeiten erfundene BGH-Entscheidungen enthalten.
Für Studierende heißt das: Je technischer oder juristischer dein Thema, desto wichtiger ist die manuelle Gegenprüfung jeder einzelnen Referenz, bevor sie in die finale Fassung wandert.
Auch im deutschsprachigen Raum gibt es konkrete Vorfälle. An mehreren Lehrstühlen in München, Wien und Zürich berichten Betreuende, dass in Seminararbeiten plötzlich Verweise auf nicht existierende Aufsätze aus „Juristenzeitung 2022“ oder „Zeitschrift für Soziologie 2021“ auftauchen. In der Schweiz hat die ETH Zürich 2025 erstmals eine Wegleitung herausgegeben, die explizit vor KI-generierten Bibliografien warnt. In Österreich verlangen erste Studiengänge an der Uni Wien eine eidesstattliche Versicherung über die manuelle Quellenprüfung. Die Welle erreicht damit nicht nur Forschungslabore, sondern auch ganz normale Bachelor- und Masterarbeiten.
Warum gefälschte Zitate dein Studium gefährden
Hochschulen werten erfundene Quellen in der Regel als Täuschungsversuch. Die Begründung ist simpel: Eine Quelle behauptet eine Aussage, die in Wahrheit nicht belegt ist. Das ist methodisch gravierender als ein vergessenes Anführungszeichen. Prüfungsordnungen sehen dafür Notenabwertung bis Exmatrikulation vor.
Hinzu kommt ein Reputationsrisiko: Wer einmal mit halluzinierten Zitaten auffällt, wird in Folgearbeiten engmaschiger geprüft. Betreuende notieren sich solche Vorfälle, und auch in der späteren Promotion holt einen das ein. Wenn du KI im Schreibprozess nutzt, lohnt sich ein Blick auf akademische Integrität und auf die Frage, was an deiner Hochschule erlaubt ist.
Eine seriöse Plagiatsprüfung erkennt zwar Textübernahmen, aber nicht jede erfundene Referenz. Genau hier muss menschliche Sorgfalt einspringen.
Im schlimmsten Fall hat eine erfundene Quelle juristische Folgen. Wer im Rahmen einer Promotion oder Habilitation systematisch Belege fingiert, riskiert nicht nur den Titelentzug, sondern auch zivilrechtliche Folgen gegenüber Verlagen, die Korrekturkosten und Reputationsschäden geltend machen können. Selbst auf Bachelor-Niveau gilt: Ein Täuschungsvermerk im Prüfungsakt bleibt jahrelang sichtbar und kann bei Bewerbungen für Stipendien, Auslandssemester oder Master-Studiengänge zur Hürde werden. Es lohnt sich also nicht, beim Schreiben zu pokern. Ein zusätzlicher Nachmittag für Quellenprüfung kostet weniger als ein verlorenes Semester.
Wie Datenbanken und Verlage jetzt reagieren
Anbieter wie PubMed, Scopus und Web of Science kündigen härtere Filter gegen sogenannten KI-Slop an. Konkret geplant sind automatisierte DOI-Checks beim Einreichen, Plausibilitätstests für Referenzlisten und Stichproben durch menschliche Reviewer. Mehrere große Verlage verlangen inzwischen, dass Autoren explizit angeben, welches KI-Tool sie wofür genutzt haben.
Parallel dazu entstehen Tools, die Bibliografien gegen reale Datenbanken abgleichen. Sie markieren Referenzen rot, sobald DOI, Titel oder Autorenkombination nicht auffindbar sind. Erste Universitäten in den Niederlanden und Großbritannien testen das in der Lehre.
Für Studis bedeutet das: Die Toleranz für „Hauptsache es klingt nach Zitat“ sinkt rapide. Was 2023 noch durchging, fliegt 2026 in der Routinekontrolle auf.
Auch in Deutschland zieht die Hochschulrektorenkonferenz nach. In einem Positionspapier vom Frühjahr 2026 empfiehlt sie, dass jede Prüfungsleistung im Hauptstudium künftig stichprobenartig gegen eine Referenzdatenbank gespiegelt wird. Einige Fachbereiche, etwa BWL an der LMU München und Medizin an der Charité, haben bereits Pilotprojekte gestartet. Die technische Infrastruktur dafür ist erstaunlich schlicht: Ein kleines Python-Skript zieht alle DOIs aus dem Literaturverzeichnis, fragt CrossRef ab und gibt eine Trefferquote zurück. Liegt diese unter 90 Prozent, geht die Arbeit in die manuelle Nachkontrolle. Das senkt die Schwelle, an der eine Täuschung auffällt, ganz erheblich.
Was du als Studi konkret tun kannst
Erstens: KI nie als Quelle behandeln, sondern als Sparringspartner. Lass dir Argumente strukturieren, nicht Belege liefern. Zweitens: Jede Referenz, die ein Sprachmodell vorschlägt, gegen mindestens eine unabhängige Datenbank prüfen, idealerweise Google Scholar plus die jeweilige Fachdatenbank.
Drittens: Eine kleine Checkliste vor der Abgabe spart Punkte. Achte auf folgende Schritte:
- DOI im Browser öffnen, nicht nur kopieren.
- Autor in ORCID oder ResearchGate suchen.
- Jahr und Journal-Volume gegenprüfen.
- Seitenzahlen mit dem Original-PDF abgleichen.
- Bei Zweifeln Quelle streichen statt schönen.
Viertens: Hol dir vor der Abgabe ein Lektorat oder eine professionelle Korrektur. Geübte Augen erkennen wackelige Referenzen, die du selbst nach drei Wochen Schreiben nicht mehr siehst. Das hilft besonders bei Bachelor- und Masterarbeiten mit umfangreichen Literaturlisten.
Fünftens hilft eine klare Arbeitsteilung im eigenen Workflow. Lege beim Recherchieren einen Ordner mit PDFs aller real geprüften Quellen an und zitiere ausschließlich aus diesem Ordner. Was nicht als Datei vor dir liegt, kommt nicht in die Bibliografie. Das klingt banal, eliminiert aber praktisch jede Halluzinationsgefahr. Zusätzlich lohnt sich ein Literaturverwaltungsprogramm wie Zotero oder Citavi, das DOIs beim Import automatisch validiert und fehlende Metadaten markiert. So entsteht eine saubere Trennung zwischen KI-gestütztem Schreiben und realer Quellenarbeit.
Welche Tools beim Quellen-Check helfen
Es gibt mittlerweile mehrere Werkzeuge, die speziell auf falsche KI-Zitate trainiert sind. Sie scannen die Referenzliste, schlagen jedes Zitat in CrossRef nach und markieren Treffer ohne DOI-Hit. Kostenfreie Varianten sind Scite und der DOI-Resolver von doi.org. Beide eignen sich, um die Liste vor Abgabe gegenzulesen.
Ergänzend lohnt sich ein KI-Detektor, um zu sehen, wie stark dein eigener Text nach Modell klingt. Das ersetzt zwar keine inhaltliche Prüfung, gibt aber ein Frühwarnsignal, wenn ganze Absätze maschinell wirken. Wer eine Bachelorarbeit schreibt, kombiniert das idealerweise mit einer professionellen Bachelorarbeit-Korrektur.
Wichtig: Kein Tool ist perfekt. Detektoren liefern False Positives, Datenbanken haben Lücken. Die letzte Verantwortung für jede Referenz liegt bei dir, nicht beim Algorithmus.
Praktisch bewährt hat sich ein dreistufiger Workflow: Erst lässt du die Bibliografie durch einen DOI-Checker laufen, dann prüfst du die markierten Einträge in Google Scholar, und zum Schluss öffnest du bei mindestens einem Drittel der Quellen das Original-PDF und gleichst die zitierte Seitenzahl ab. Dieser Aufwand klingt hoch, dauert bei einer Hausarbeit mit 25 Referenzen aber unter einer Stunde. Bei einer Masterarbeit mit 120 Quellen plant man besser einen halben Tag ein. Das ist deutlich billiger als ein nicht bestandenes Modul, das im Folgesemester wiederholt werden muss.
Praxis-Beispiel: Wenn die KI eine Studie erfindet
Ein konkreter Fall macht das Problem greifbar. Eine Studentin der Sozialwissenschaften in Leipzig fragt ChatGPT nach „aktuellen Studien zu Mediennutzung von Jugendlichen in Deutschland“. Sie bekommt eine elegant formatierte Liste mit fünf Treffern, darunter eine angebliche Studie von Prof. Andreas Hepp aus der „Publizistik 2022, Band 67, S. 134–152“. Klingt seriös, der Autor existiert, die Zeitschrift auch. Beim Klick auf den DOI landet sie jedoch auf einem ganz anderen Aufsatz zu einem ganz anderen Thema. Die zitierte Arbeit gibt es schlicht nicht.
Hätte sie diese Quelle ungeprüft in ihre Hausarbeit übernommen, wäre der Schaden überschaubar, aber spürbar: Notenabwertung wegen unsauberer Belege, im Wiederholungsfall ein Eintrag im Prüfungsakt. Stattdessen tauschte sie die erfundene Studie gegen eine real existierende JIM-Studie des Medienpädagogischen Forschungsverbunds Südwest aus. Aufwand: zehn Minuten. Lerneffekt: jede einzelne Quelle prüfen, bevor sie zitiert wird.
Solche Episoden häufen sich, und sie betreffen nicht nur Anfänger. Auch Promovierende berichten, dass selbst spezialisierte Recherche-Tools mit Web-Anbindung gelegentlich Quellen erfinden, etwa wenn sie Suchergebnisse aus Caches mit Modell-Vermutungen mischen.
Schritt für Schritt: So sicherst du deine Bibliografie
Ein klarer Workflow erspart Stress in der Abgabewoche. Folgende Reihenfolge hat sich in der Praxis bewährt:
- Export: Alle Referenzen aus Zotero, Citavi oder Word als BibTeX oder CSV exportieren.
- DOI-Batch-Check: Liste durch doi.org oder einen CrossRef-Bulk-Resolver schicken, fehlerhafte Einträge markieren.
- Sichtprüfung: Bei jeder roten Markierung Titel in Google Scholar suchen und Autorennamen in ORCID gegenprüfen.
- PDF-Verifikation: Bei strittigen Quellen das Original-PDF herunterladen und Seitenzahl plus Zitatwortlaut abgleichen.
- Dokumentation: In einer kurzen Notiz festhalten, welche KI-Tools du wofür genutzt hast, falls deine Hochschule das verlangt.
Wer das einmal eingeübt hat, braucht für eine 30-Quellen-Hausarbeit etwa 45 Minuten und für eine Bachelorarbeit mit 60 Quellen rund zwei Stunden. Bei einer Masterarbeit mit 120 oder mehr Referenzen lohnt sich der halbe Tag definitiv, weil hier Note, Zeugnis und oft auch ein Promotionsplatz davon abhängen. Wer parallel ein professionelles Lektorat in Anspruch nimmt, kann sich auf Sprache und Argumentation konzentrieren, während der externe Blick die Bibliografie strukturell mitprüft.
Quellen
Primärquelle dieses Beitrags: t3n – Fast 150.000 gefälschte Zitate: Wie KI-Halluzinationen die Wissenschaft bedrohen (22.05.2026).
Weitere Hintergründe: Nature – Wie wissenschaftliche Verlage gegen KI-Slop vorgehen; Retraction Watch – Übersicht zurückgezogener Arbeiten. Vertiefend in unserem Blog: KI in Hausarbeiten: Wann legitim, wann Täuschung? sowie Übersetzungsplagiat erkennen und sicher vermeiden.