Eine wichtige menschliche intelligenzleistung kriegt ein angelerntes neuronales netzwerk inzwischen beeindruckend gut hin: den wissenschaftlichen betrug.
Doch war dies nur ein Zufallstreffer – oder ist ChatGPT wirklich so gut? Um das herauszufinden, baten Gao und ihre Kollegen das KI-System, die Zusammenfassungen für 50 echte Fachartikel zu schreiben, die in fünf renommierten medizinischen Fachjournalen – Nature Medicine, Lancet, JAMA, NEJM und BMJ – erschienen waren. ChatGPT erhielt dafür als Information jeweils nur den Titel und das Journal. „Unsere in das System eingegebene Aufgabenstellung war: Bitte schreibe einen wissenschaftlichen Abstract für den Artikel mit Titel () im Stil des Fachjournals ()“, erklären die Forschenden.
Das Ergebnis: Die Plagiats-Software ließ sich komplett täuschen und stufte 100 Prozent der vom ChatBot erstellten Zusammenfassungen als Originalarbeiten ein. Besser schnitt der KI-Detektor ab: Er erkannte 66 Prozent der Chatbot-Texte als computergeneriert – rund ein Drittel entging ihm jedoch. Nicht viel besser sah es bei den menschlichen Gutachtern aus: Sie identifizierten zwar 68 Prozent der von ChatGPT erstellten Abstracts korrekt als vom Chatbot stammend. Doch 32 Prozent der KI-generierten Texte werteten sie als von echten Wissenschaftlern erstellt.
„Dabei wussten unsere Gutachter, dass einige der Abstracts gefälscht waren, so dass sie von vornherein misstrauisch waren“, sagt Gao. „Die Tatsache, dass sie trotzdem 32 Prozent der ChatGPT-Texte nicht erkannten, zeigt, wie gut sie sind.“ Bei 14 Prozent der Abstracts irrten die Gutachter sogar in umgekehrter Richtung: Sie stuften echte Zusammenfassungen fälschlich als computergeneriert ein. „Unsere Gutachter kommentierten, dass es ihnen überraschend schwerfiel, zwischen echten und gefälschten Abstracts zu unterschieden“, so Gao.
[…] „ChatGPT wusste sogar, wie groß die von ihm erfundene Patientenkohorte bei den verschiedenen Themen sein musste“, sagt Gao
Das wird lustig, denn in der gegenwärtigen wissenschaft wird um jeden preis so viel wie möglich publiziert, weil die anzahl der publikazjonen beinahe zum einzigen maßstab für die leistung eines wissenschaftlers verkommen ist. Das drückt auch ohne künstlich betrügerische textauswurfprogramme schon deutlich genug auf die allgemeine kwalität. Es würde mich nicht wundern, wenn schon die ersten ganzen fachartikel veröffentlicht wurden, die ein überarbeiteter auswurf von tschättGPT sind, und zwar keineswegs nur in den geisteswissenschaften.