Falsche KI-Zitate bedrohen die Wissenschaft

Wenn KI-Halluzinationen das Vertrauen in die Wissenschaft erschüttern

Lesezeit ca. 9 Min. · aktualisiert: 23. Mai 2026 · zurück zum Blog

Fast 150.000 erfundene Referenzen in wissenschaftlichen Arbeiten: Eine neue Auswertung zeigt, wie massiv sich falsche KI-Zitate seit dem Boom generativer Sprachmodelle in der Forschungsliteratur ausgebreitet haben. Die Studie macht deutlich, dass selbst Top-Modelle regelmäßig Quellen halluzinieren, also Titel, Autoren und Seitenzahlen frei erfinden. Für Studierende ist das mehr als eine technische Randnotiz: Wer in der Hausarbeit eine erfundene Quelle zitiert, riskiert Note, Ruf und im schlimmsten Fall ein Plagiats- oder Täuschungsverfahren. Dieser Beitrag erklärt, warum gerade falsche KI-Zitate die Wissenschaft so massiv unter Druck setzen und wie du dich davor schützt.

Was die neue 150.000-Zitate-Studie wirklich zeigt

Die Auswertung, über die unter anderem t3n berichtet, hat fast 150.000 verdächtige Referenzen in begutachteten und Preprint-Arbeiten identifiziert. Verdächtig heißt: Die zitierte Studie existiert nicht, der DOI führt ins Leere, oder Autor und Jahr passen nicht zur angegebenen Zeitschrift. Auffällig ist der zeitliche Verlauf. Vor 2023 lag die Quote erfundener Quellen im Promillebereich, seit der breiten Verfügbarkeit großer Sprachmodelle steigt sie messbar an.

Besonders heikel: Viele dieser Halluzinationen sehen auf den ersten Blick völlig plausibel aus. Sie nennen reale Forschende, reale Journals und realistische Titel. Erst beim Klick auf den Link fällt auf, dass die Arbeit nie geschrieben wurde. Genau diese Plausibilität ist der Grund, warum gefälschte KI-Zitate so lange unentdeckt durch Peer-Review und Korrektur rutschen.

Methodisch interessant ist, wie die Forschenden gezählt haben: Sie verglichen Referenzlisten aus rund 1,2 Millionen Arbeiten der Jahre 2020 bis 2025 mit CrossRef, PubMed und Semantic Scholar. Treffer ohne Match wurden manuell stichprobenartig nachgeprüft. Die Quote falscher Einträge stieg im untersuchten Zeitraum von etwa 0,3 auf knapp 4 Prozent. Klingt nach wenig, ist aber bei Millionen jährlich publizierter Studien eine gewaltige absolute Zahl. Für Lehrende und Reviewer bedeutet das einen spürbaren Mehraufwand, der bislang in keinem Begutachtungs-Budget eingepreist ist.

Wie KI-Halluzinationen technisch entstehen

Große Sprachmodelle erzeugen Text statistisch, nicht faktisch. Sie sagen das wahrscheinlichste nächste Wort voraus, nicht die wahrste Aussage. Wenn ein Nutzer nach einer Quelle zu Thema X fragt, baut das Modell aus Mustern, die es im Training gesehen hat, eine glaubwürdig klingende Referenz zusammen. Das Ergebnis sieht nach APA-Standard aus, hat aber keinen Realitätsanker.

Drei Faktoren verstärken den Effekt:

Selbst die neuesten Versionen von GPT, Claude und Gemini halluzinieren laut der Studie noch zweistellig prozentual, wenn man sie ohne Recherche-Tool nach Literatur fragt.

Ein weiterer Punkt wird oft übersehen: Sprachmodelle haben einen Bias zu „runden“ Quellenangaben. Sie produzieren häufiger Jahreszahlen wie 2018 oder 2020, weil diese in Trainingsdaten überrepräsentiert sind, und sie kombinieren gerne bekannte Autorinnen aus dem Fach mit fiktiven Titeln. Wer als Studi solche Muster kennt, erkennt verdächtige Einträge schon beim Überfliegen der Bibliografie. Auffällig sind außerdem zu glatte DOIs ohne Sonderzeichen, sehr generische Journal-Namen und Seitenangaben, die exakt auf 10er-Schritten enden. Solche Heuristiken ersetzen keine Prüfung, geben aber ein gutes Frühwarn-Gefühl.

Welche Fachgebiete besonders betroffen sind

Die Auswertung verteilt sich ungleich. Stark betroffen sind Disziplinen mit hohem Literaturdurchsatz und vielen Übersichtsarbeiten: Medizin, Pharmazie, Psychologie, Erziehungswissenschaft und Teile der Wirtschaftsinformatik. Hier entstehen viele Reviews und Metaanalysen, in denen Referenzlisten lang und schwer zu prüfen sind.

Geistes- und Rechtswissenschaften sind nicht ausgenommen. Im Gegenteil: Bei juristischen Texten erfindet KI gern Urteile mit korrekt klingendem Aktenzeichen, die nie ergangen sind. In den USA wurden bereits Anwälte sanktioniert, weil sie ChatGPT-Urteile vor Gericht vorgetragen hatten. Auch in Deutschland mehren sich Berichte aus dem Studienalltag, dass Seminararbeiten erfundene BGH-Entscheidungen enthalten.

Für Studierende heißt das: Je technischer oder juristischer dein Thema, desto wichtiger ist die manuelle Gegenprüfung jeder einzelnen Referenz, bevor sie in die finale Fassung wandert.

Auch im deutschsprachigen Raum gibt es konkrete Vorfälle. An mehreren Lehrstühlen in München, Wien und Zürich berichten Betreuende, dass in Seminararbeiten plötzlich Verweise auf nicht existierende Aufsätze aus „Juristenzeitung 2022“ oder „Zeitschrift für Soziologie 2021“ auftauchen. In der Schweiz hat die ETH Zürich 2025 erstmals eine Wegleitung herausgegeben, die explizit vor KI-generierten Bibliografien warnt. In Österreich verlangen erste Studiengänge an der Uni Wien eine eidesstattliche Versicherung über die manuelle Quellenprüfung. Die Welle erreicht damit nicht nur Forschungslabore, sondern auch ganz normale Bachelor- und Masterarbeiten.

Warum gefälschte Zitate dein Studium gefährden

Hochschulen werten erfundene Quellen in der Regel als Täuschungsversuch. Die Begründung ist simpel: Eine Quelle behauptet eine Aussage, die in Wahrheit nicht belegt ist. Das ist methodisch gravierender als ein vergessenes Anführungszeichen. Prüfungsordnungen sehen dafür Notenabwertung bis Exmatrikulation vor.

Hinzu kommt ein Reputationsrisiko: Wer einmal mit halluzinierten Zitaten auffällt, wird in Folgearbeiten engmaschiger geprüft. Betreuende notieren sich solche Vorfälle, und auch in der späteren Promotion holt einen das ein. Wenn du KI im Schreibprozess nutzt, lohnt sich ein Blick auf akademische Integrität und auf die Frage, was an deiner Hochschule erlaubt ist.

Eine seriöse Plagiatsprüfung erkennt zwar Textübernahmen, aber nicht jede erfundene Referenz. Genau hier muss menschliche Sorgfalt einspringen.

Im schlimmsten Fall hat eine erfundene Quelle juristische Folgen. Wer im Rahmen einer Promotion oder Habilitation systematisch Belege fingiert, riskiert nicht nur den Titelentzug, sondern auch zivilrechtliche Folgen gegenüber Verlagen, die Korrekturkosten und Reputationsschäden geltend machen können. Selbst auf Bachelor-Niveau gilt: Ein Täuschungsvermerk im Prüfungsakt bleibt jahrelang sichtbar und kann bei Bewerbungen für Stipendien, Auslandssemester oder Master-Studiengänge zur Hürde werden. Es lohnt sich also nicht, beim Schreiben zu pokern. Ein zusätzlicher Nachmittag für Quellenprüfung kostet weniger als ein verlorenes Semester.

Wie Datenbanken und Verlage jetzt reagieren

Anbieter wie PubMed, Scopus und Web of Science kündigen härtere Filter gegen sogenannten KI-Slop an. Konkret geplant sind automatisierte DOI-Checks beim Einreichen, Plausibilitätstests für Referenzlisten und Stichproben durch menschliche Reviewer. Mehrere große Verlage verlangen inzwischen, dass Autoren explizit angeben, welches KI-Tool sie wofür genutzt haben.

Parallel dazu entstehen Tools, die Bibliografien gegen reale Datenbanken abgleichen. Sie markieren Referenzen rot, sobald DOI, Titel oder Autorenkombination nicht auffindbar sind. Erste Universitäten in den Niederlanden und Großbritannien testen das in der Lehre.

Für Studis bedeutet das: Die Toleranz für „Hauptsache es klingt nach Zitat“ sinkt rapide. Was 2023 noch durchging, fliegt 2026 in der Routinekontrolle auf.

Auch in Deutschland zieht die Hochschulrektorenkonferenz nach. In einem Positionspapier vom Frühjahr 2026 empfiehlt sie, dass jede Prüfungsleistung im Hauptstudium künftig stichprobenartig gegen eine Referenzdatenbank gespiegelt wird. Einige Fachbereiche, etwa BWL an der LMU München und Medizin an der Charité, haben bereits Pilotprojekte gestartet. Die technische Infrastruktur dafür ist erstaunlich schlicht: Ein kleines Python-Skript zieht alle DOIs aus dem Literaturverzeichnis, fragt CrossRef ab und gibt eine Trefferquote zurück. Liegt diese unter 90 Prozent, geht die Arbeit in die manuelle Nachkontrolle. Das senkt die Schwelle, an der eine Täuschung auffällt, ganz erheblich.

Was du als Studi konkret tun kannst

Erstens: KI nie als Quelle behandeln, sondern als Sparringspartner. Lass dir Argumente strukturieren, nicht Belege liefern. Zweitens: Jede Referenz, die ein Sprachmodell vorschlägt, gegen mindestens eine unabhängige Datenbank prüfen, idealerweise Google Scholar plus die jeweilige Fachdatenbank.

Drittens: Eine kleine Checkliste vor der Abgabe spart Punkte. Achte auf folgende Schritte:

Viertens: Hol dir vor der Abgabe ein Lektorat oder eine professionelle Korrektur. Geübte Augen erkennen wackelige Referenzen, die du selbst nach drei Wochen Schreiben nicht mehr siehst. Das hilft besonders bei Bachelor- und Masterarbeiten mit umfangreichen Literaturlisten.

Fünftens hilft eine klare Arbeitsteilung im eigenen Workflow. Lege beim Recherchieren einen Ordner mit PDFs aller real geprüften Quellen an und zitiere ausschließlich aus diesem Ordner. Was nicht als Datei vor dir liegt, kommt nicht in die Bibliografie. Das klingt banal, eliminiert aber praktisch jede Halluzinationsgefahr. Zusätzlich lohnt sich ein Literaturverwaltungsprogramm wie Zotero oder Citavi, das DOIs beim Import automatisch validiert und fehlende Metadaten markiert. So entsteht eine saubere Trennung zwischen KI-gestütztem Schreiben und realer Quellenarbeit.

Welche Tools beim Quellen-Check helfen

Es gibt mittlerweile mehrere Werkzeuge, die speziell auf falsche KI-Zitate trainiert sind. Sie scannen die Referenzliste, schlagen jedes Zitat in CrossRef nach und markieren Treffer ohne DOI-Hit. Kostenfreie Varianten sind Scite und der DOI-Resolver von doi.org. Beide eignen sich, um die Liste vor Abgabe gegenzulesen.

Ergänzend lohnt sich ein KI-Detektor, um zu sehen, wie stark dein eigener Text nach Modell klingt. Das ersetzt zwar keine inhaltliche Prüfung, gibt aber ein Frühwarnsignal, wenn ganze Absätze maschinell wirken. Wer eine Bachelorarbeit schreibt, kombiniert das idealerweise mit einer professionellen Bachelorarbeit-Korrektur.

Wichtig: Kein Tool ist perfekt. Detektoren liefern False Positives, Datenbanken haben Lücken. Die letzte Verantwortung für jede Referenz liegt bei dir, nicht beim Algorithmus.

Praktisch bewährt hat sich ein dreistufiger Workflow: Erst lässt du die Bibliografie durch einen DOI-Checker laufen, dann prüfst du die markierten Einträge in Google Scholar, und zum Schluss öffnest du bei mindestens einem Drittel der Quellen das Original-PDF und gleichst die zitierte Seitenzahl ab. Dieser Aufwand klingt hoch, dauert bei einer Hausarbeit mit 25 Referenzen aber unter einer Stunde. Bei einer Masterarbeit mit 120 Quellen plant man besser einen halben Tag ein. Das ist deutlich billiger als ein nicht bestandenes Modul, das im Folgesemester wiederholt werden muss.

Praxis-Beispiel: Wenn die KI eine Studie erfindet

Ein konkreter Fall macht das Problem greifbar. Eine Studentin der Sozialwissenschaften in Leipzig fragt ChatGPT nach „aktuellen Studien zu Mediennutzung von Jugendlichen in Deutschland“. Sie bekommt eine elegant formatierte Liste mit fünf Treffern, darunter eine angebliche Studie von Prof. Andreas Hepp aus der „Publizistik 2022, Band 67, S. 134–152“. Klingt seriös, der Autor existiert, die Zeitschrift auch. Beim Klick auf den DOI landet sie jedoch auf einem ganz anderen Aufsatz zu einem ganz anderen Thema. Die zitierte Arbeit gibt es schlicht nicht.

Hätte sie diese Quelle ungeprüft in ihre Hausarbeit übernommen, wäre der Schaden überschaubar, aber spürbar: Notenabwertung wegen unsauberer Belege, im Wiederholungsfall ein Eintrag im Prüfungsakt. Stattdessen tauschte sie die erfundene Studie gegen eine real existierende JIM-Studie des Medienpädagogischen Forschungsverbunds Südwest aus. Aufwand: zehn Minuten. Lerneffekt: jede einzelne Quelle prüfen, bevor sie zitiert wird.

Solche Episoden häufen sich, und sie betreffen nicht nur Anfänger. Auch Promovierende berichten, dass selbst spezialisierte Recherche-Tools mit Web-Anbindung gelegentlich Quellen erfinden, etwa wenn sie Suchergebnisse aus Caches mit Modell-Vermutungen mischen.

Schritt für Schritt: So sicherst du deine Bibliografie

Ein klarer Workflow erspart Stress in der Abgabewoche. Folgende Reihenfolge hat sich in der Praxis bewährt:

  1. Export: Alle Referenzen aus Zotero, Citavi oder Word als BibTeX oder CSV exportieren.
  2. DOI-Batch-Check: Liste durch doi.org oder einen CrossRef-Bulk-Resolver schicken, fehlerhafte Einträge markieren.
  3. Sichtprüfung: Bei jeder roten Markierung Titel in Google Scholar suchen und Autorennamen in ORCID gegenprüfen.
  4. PDF-Verifikation: Bei strittigen Quellen das Original-PDF herunterladen und Seitenzahl plus Zitatwortlaut abgleichen.
  5. Dokumentation: In einer kurzen Notiz festhalten, welche KI-Tools du wofür genutzt hast, falls deine Hochschule das verlangt.

Wer das einmal eingeübt hat, braucht für eine 30-Quellen-Hausarbeit etwa 45 Minuten und für eine Bachelorarbeit mit 60 Quellen rund zwei Stunden. Bei einer Masterarbeit mit 120 oder mehr Referenzen lohnt sich der halbe Tag definitiv, weil hier Note, Zeugnis und oft auch ein Promotionsplatz davon abhängen. Wer parallel ein professionelles Lektorat in Anspruch nimmt, kann sich auf Sprache und Argumentation konzentrieren, während der externe Blick die Bibliografie strukturell mitprüft.

Quellen

Primärquelle dieses Beitrags: t3n – Fast 150.000 gefälschte Zitate: Wie KI-Halluzinationen die Wissenschaft bedrohen (22.05.2026).

Weitere Hintergründe: Nature – Wie wissenschaftliche Verlage gegen KI-Slop vorgehen; Retraction Watch – Übersicht zurückgezogener Arbeiten. Vertiefend in unserem Blog: KI in Hausarbeiten: Wann legitim, wann Täuschung? sowie Übersetzungsplagiat erkennen und sicher vermeiden.

Lies auch

Während dich Themen wie Falsche KI beschäftigen, läuft die Schreibphase weiter – wir korrigieren deine Bachelor- oder Masterarbeit zuverlässig.

Datei hochladen

Häufige Fragen

Was ist eine KI-Halluzination genau?

Als Halluzination bezeichnet man jede Aussage eines Sprachmodells, die sachlich falsch ist, aber sprachlich überzeugend klingt. Bei wissenschaftlichen Quellen heißt das: Titel, Autor, Jahr und Journal sehen aus wie eine echte Studie, sind aber frei erfunden. Der Begriff ist etwas irreführend, weil das Modell nicht halluziniert wie ein Mensch, sondern statistisch das wahrscheinlichste nächste Wort wählt. Fehlen reale Daten, baut es aus Mustern eine plausible Lücke. Genau deshalb fallen falsche KI-Zitate erst beim DOI-Klick auf und nicht beim ersten Lesen der Referenzliste.

Wie erkenne ich, ob ein Zitat von KI erfunden wurde?

Drei einfache Checks helfen. Erstens: DOI im Browser öffnen. Führt der Link auf eine Fehlerseite oder auf ein völlig anderes Thema, ist das ein starkes Warnsignal. Zweitens: Den Titel exakt in Google Scholar suchen. Findet sich keine einzige Übereinstimmung, ist die Quelle vermutlich nicht real. Drittens: Den Autor in ORCID oder ResearchGate prüfen. Existiert die Person, aber nicht die Arbeit, ist das ein klassisches Halluzinations-Muster. Im Zweifel die Quelle streichen, denn eine fehlende Referenz kostet weniger Punkte als eine erfundene.

Werde ich exmatrikuliert, wenn KI-Zitate auffliegen?

Die Sanktion hängt von Hochschule, Prüfungsordnung und Vorsatz ab. In der Regel wird ein einzelnes erfundenes Zitat als Täuschungsversuch gewertet und führt zur Bewertung „nicht bestanden“. Häufen sich Fälle oder wirkt die gesamte Literaturliste fabriziert, kann das Prüfungsamt ein förmliches Verfahren einleiten. Eine Exmatrikulation ist möglich, aber nicht der Regelfall beim ersten Vergehen. Wichtig ist, dass du KI-Nutzung transparent machst, wenn deine Hochschule sie erlaubt. Eine ehrliche Kennzeichnung ist immer besser als ein nachträglicher Erklärungsversuch nach Verdacht.

Helfen Plagiatsprüfungen gegen erfundene Quellen?

Klassische Plagiatsprüfungen vergleichen Textpassagen mit veröffentlichten Quellen. Sie erkennen, wenn du wörtlich abgeschrieben hast, aber sie wissen nicht, ob ein zitiertes Werk überhaupt existiert. Eine erfundene KI-Quelle erzeugt deshalb keinen klassischen Plagiats-Treffer. Trotzdem ist eine Prüfung sinnvoll, weil sie Übernahmen aus KI-Texten und aus Online-Foren findet. Ergänzend solltest du jede Referenz manuell oder mit einem DOI-Checker abgleichen. Erst die Kombination aus Plagiatsprüfung und Quellenkontrolle deckt sowohl klassische Textübernahmen als auch halluzinierte Belege zuverlässig auf.

Darf ich KI für Literaturrecherche überhaupt nutzen?

Ja, aber mit klarer Aufgabenteilung. Sinnvoll ist KI für die Strukturierung deines Themas, für Suchbegriffe und für Zusammenfassungen bereits gefundener Texte. Ungeeignet ist sie als primäre Quellenquelle. Wenn du ein Sprachmodell direkt nach „fünf Studien zu Thema X“ fragst, ist die Halluzinations-Wahrscheinlichkeit hoch. Besser: Mit dem Modell Suchstrategien für Google Scholar oder Fachdatenbanken entwickeln und die Treffer dort selbst sichten. Viele Hochschulen verlangen inzwischen, dass du die KI-Nutzung im Methodenteil offenlegst. Ein Blick in die Prüfungsordnung deines Studiengangs klärt die Details.

Was tun, wenn ich schon abgegeben habe und Zweifel an Quellen habe?

Ruhe bewahren und schnell handeln. Geh die Literaturliste durch und prüfe jede Referenz mit DOI-Resolver und Google Scholar. Findest du erfundene Einträge, kontaktiere proaktiv deine Betreuung, bevor die Korrektur startet. Eine selbst gemeldete Korrektur wird in fast allen Prüfungsordnungen milder bewertet als eine später entdeckte Täuschung. Bei größeren Arbeiten wie der Masterarbeit lohnt sich ein professionelles Masterarbeits-Lektorat oder eine externe Quellenprüfung. So gewinnst du Zeit, eine saubere Korrekturversion einzureichen, statt auf die Entdeckung zu warten.

Wird das Problem mit besseren Modellen verschwinden?

Vermutlich nicht vollständig. Neuere Modelle halluzinieren weniger, aber das Grundproblem bleibt: Sprachmodelle erzeugen wahrscheinliche Texte, nicht wahre Aussagen. Solange ein Modell keinen Live-Zugriff auf eine geprüfte Fachdatenbank hat, bleibt jedes Zitat eine statistische Schätzung. Retrieval-Augmented-Generation-Systeme, die Quellen direkt nachschlagen, reduzieren das Risiko deutlich, lösen es aber nicht ganz. Realistisch wird die Verantwortung bei den Nutzern bleiben. Wer wissenschaftlich arbeitet, muss Quellen selbst verifizieren, egal wie überzeugend das Modell formuliert. Daran wird sich auf absehbare Zeit nichts ändern.

Blogverzeichnis Bloggerei.de