Robert Klatt
Um das Missbrauchspotenzial der Künstlichen Intelligenz (KI) ChatGPT in der Wissenschaft zu demonstrieren, haben Forscher eine gefälschte medizinische Studie erstellt. Die Daten konnten nur mit hohem Aufwand als nicht authentisch erkannt werden.
Catanzaro (Italien). In den letzten Monaten haben unterschiedlichen Studien die Leistungsfähigkeit des Large language model (LLM) ChatGPT untersucht. Laut den Ergebnissen kann die Künstliche Intelligenz (KI) Studenten bei vielen Prüfungen übertreffen und wissenschaftliche Texte schreiben, die selbst Linguisten nicht von menschlichen Texten unterscheiden können. Forscher der Magna Græcia University of Catanzaro haben im Fachmagazin JAMA Ophthalmology nun eine Studie publiziert, die das Missbrauchspotenzial der KI in der Wissenschaft zeigt.
Laut einem Bericht von Nature haben die Wissenschaftler mit dem ChatGPT-Plug-in Advanced Data Analysis (ADA), das normalerweise für statistische Analysen und Datenvisualisierungen verwendet wird, gefälschte Studiendaten erstellt, um eine nicht überprüfte wissenschaftliche These zu belegen.
Das Projekt zielte darauf ab, zu demonstrieren, dass KI in der Lage ist, in wenigen Minuten gefälschte Datensätze zu erzeugen, die vorhandene Forschungsergebnisse unterstützen oder widerlegen können. Das LLM generierte dazu Daten zur penetrierenden Keratoplastik (PK) und zur tiefen anterioren lamellären Keratoplastik (DALK), zwei Operationen zur Behandlung der Augenerkrankung Keratokonus.
Die Forscher forderten ChatGPT dazu auf, die Unterschiede in der Sehkraft der Teilnehmer vor und nach der Behandlung darzustellen. Dies führte zu realistisch erscheinenden Daten für eine Studie mit 160 männlichen und 140 weiblichen Probanden.
Jack Wilkinson, ein Biostatistiker an der Universität Manchester, konnte bei einer detaillierten Analyse der generierten Studiendaten einige Unstimmigkeiten erkennen. Er bemerkte, dass die Geschlechterangaben nicht immer mit den Namen der Studienteilnehmer übereinstimmten. Zudem fiel ihm eine ungewöhnlich hohe Anzahl von Altersangaben auf, die auf 7 oder 8 endeten. Des Weiteren stellte er fest, dass keine Korrelation zwischen den prä- und postoperativen Sehkraftmessungen und dem Augenbildtest bestand.
Es ist also aktuell noch möglich, gefälschte Studiendaten zu erkennen. Laut den Autoren könnten böswillige Forscher aber bei gefälschten Studien solche Unstimmigkeiten manuell korrigieren oder fehlerhafte Datensätze verwerfen und neue von der KI erstellen lassen. Zudem könnte ChatGPT bessere Daten erzeugen, wenn die Anfragen besser formuliert werden und es ist zu erwarten, dass LLM solche Fehler immer besser selbst identifizieren und vermeiden können.
JAMA Ophthalmology, doi: 10.1001/jamaophthalmol.2023.5162
Nature, doi: 10.1038/d41586-023-03635-w