Robert Klatt
Das Sprachmodell GPT-3 beherrscht das analoge Denken und kann dabei Studenten übertreffen. In einigen Bereichen sind Menschen der Künstlichen Intelligenz (KI) aber noch deutlich überlegen.
Los Angeles (U.S.A.). Menschen nutzen das „analoge Denken“, um neue Probleme zu lösen. Dabei ziehen sie logische Schlüsse aus bekannten Fragen und ihren Antworten, um Lösungen für neue Probleme zu finden. Forscher University of California, Los Angeles (UCLA) haben nun untersucht, ob auch das Sprachmodell GPT-3 Analogien nutzen kann, um Aufgaben und Probleme zu lösen, die der Künstlichen Intelligenz (KI) zuvor unbekannt waren.
Laut ihrer Publikation im Fachmagazin Nature Human Behaviour haben die Wissenschaftler um den Hirn- und KI-Forscher Taylor Webb dazu Experimente durchgeführt, in denen 50 Studenten gegen das Sprachmodell angetreten sind. Die KI und die menschlichen Probanden mussten drei Aufgabenarten lösen, bei denen das analoge Denken erforderlich ist. Damit die KI die Aufgaben nicht bereits aus ihren Trainingsdaten kennt, haben die Forscher neue Aufgaben konzipiert, die denen aus Intelligenztests und Aufnahmeprüfungen von Universitäten ähneln.
Im ersten Segment der Aufgaben wurden den Teilnehmern und der KI progressive Matrizen präsentiert, bei denen sie ein gegebenes Muster erkennen und das fehlende Element aus vorgeschlagenen Optionen auswählen sollten. Das zweite Segment verlangte das Vervollständigen von Buchstabensequenzen, basierend auf einem gegebenen Muster. Im dritten Teil wurden sie herausgefordert, Analogien in Wortketten zu finden und kausale Verbindungen in kurzen Erzählungen zu identifizieren.
In den ersten drei Übungen zeigte GPT-3 eine höhere Leistung als die Studierenden, insbesondere bei den Matrizen, wo das Modell eine Erfolgsrate von 80 Prozent erzielte, verglichen mit 60 Prozent der menschlichen Teilnehmer. Obwohl GPT-3 auch bei Buchstaben- und Wortsequenzen vorn lag, war der Unterschied hier kleiner. Bei der Interpretation von Geschichten und dem Herstellen kausaler Zusammenhänge zeigten sich die Studenten überlegen und erreichten eine Quote von über 80 Prozent. Im Vergleich dazu lag GPT-3 bei etwa 70 Prozent. Es wurde deutlich, dass die KI Schwierigkeiten hatte, kompliziertere Geschichten zu vergleichen, es sei denn, sie wurde speziell darauf ausgerichtet.
Die Wissenschaftler merken an, dass GPT-3 eine Art abstraktes Verständnis von Folgebeziehungen zu besitzen scheint. Dies wird darauf zurückgeführt, dass menschliche Sprache reich an Analogien ist und große Sprachmodelle, die darauf abzielen, diese genau nachzubilden, indirekt auch die Kapazität für logische Deduktion entwickeln. Das Forschungsteam betont jedoch auch Limitationen des Modells. Beispielsweise benötigt die Software zuweilen spezifische Anweisungen, um zu verstehen, was von ihr verlangt wird.
„So beeindruckend unsere Ergebnisse auch sein mögen, es ist wichtig zu betonen, dass dieses System erhebliche Einschränkungen aufweist. Es kann zwar analoge Überlegungen anstellen, scheitert aber bei Aufgaben, die uns Menschen sehr leichtfallen.“
Nature Human Behaviour, doi: 10.1038/s41562-023-01671-0