Seine vergleichsweise einfache Technik liefert erstaunlich wortgewandte Antworten und verrät zugleich einiges zur Konstruktion von Wissen im menschlichen Geist. Was genau hinter der Eingabemaske von ChatGPT abläuft, erläutert Prof. Jonas Kuhn vom Institut für Maschinelle Sprachverarbeitung (IMS) am Fachbereich Informatik der Universität Stuttgart.
Im ausführlichen Interview benennt der Forscher dabei die derzeitigen Grenzen von künstlicher Intelligenz (KI). Denn dem wortgewandten Werkzeug fehlt es noch immer an einem Konzept für Fakten und objektive Wahrheit. Interdisziplinäre, akademische Beiträge könnten wertvolle Impulse liefern, um Sprach- und Begriffsysteme entscheidend voranzubringen.
Der eigentliche Durchbruch hinter dem Hype
Dirk Srocke: Wie ordnen Sie den von ChatGPT ausgelösten KI-Hype ein?
Prof. Jonas Kuhn: ChatGPT basiert auf sogenannten generativen Sprachmodellen, wie sie schon seit einigen Jahren in vielen sprachtechnologischen Anwendungen eingesetzt werden. Solche Sprachmodelle werden auf Unmengen von Text trainiert und nutzen eine astronomische Zahl von Modellparametern, um wahrscheinlichere Wortfolgen von weniger wahrscheinlichen zu unterscheiden. Durch die vielen Parameter können die Modelle auch subtile Beziehungen erfassen, die zwischen den Wörtern bestehen, aus denen Texte aufgebaut sind. Ein Sprachmodell kann damit auch lernen, wie sich größere Textzusammenhänge auf die Wortwahl auswirken, und es ist nach dem Training in der Lage, auf Fragen ausgesprochen natürlich klingende Antworten zu generieren. Der eigentliche Durchbruch bei ChatGPT ist aber, dass auf Basis eines solchen vortrainierten Sprachmodells nun ein künstlicher Konversations-Agent trainiert wurde, mit dem Nutzerinnen und Nutzer völlig natürlich plaudern können. Mit dem Chatbot kann man jetzt Schritt für Schritt Lösungen für relativ komplizierte Aufgaben entwickeln, in die das gesammelte Textwissen des Sprachmodells einfließt.
Srocke: ...was für manchen Anwender an ein technisches Wunder grenzt. Können Sie allgemein verständlich erklären, wie so ein parametrisches Sprachmodell funktioniert?
Prof. Kuhn: Von der Idee her ist das zugrunde liegende Sprachmodell eigentlich sehr einfach. Man sammelt zunächst gigantische Mengen von Text zu allen möglichen Inhalten. Diese Textdaten dienen dann als Trainingsmaterial, um das Modell darauf zu trimmen, für irgendeine gegebene Wortfolge eine wahrscheinliche Fortsetzung vorherzusagen. Also: vervollständige den Satz „Der Hund nagt an einem …“! Das Wort „Knochen“ oder vielleicht auch „Tischbein“ sind hier wesentlich wahrscheinlicher als „Meer“, „Überholverbot“ oder „hier“. Lässt man ein trainiertes Sprachmodell zu einem Anfangswort Schritt für Schritt wahrscheinliche Anschlusswörter produzieren, generiert es natürlich klingende Sätze und Texte. Sinnbildlich vergleicht man das Modellverhalten deshalb gern mit einem „stochastischen Papagei“.
Einen Text wortweise fortzuführen ist für sich genommen zwar eine sehr simple Fähigkeit, aber der Vorteil ist, dass man als Trainingsmaterial für diese Fähigkeit nichts weiter braucht als die reinen Texte. Man sagt, dass der Computer die Aufgabe durch „selbstüberwachtes Lernen“ lernen kann. Es ist also nicht nötig, dass zusätzlich ein Mensch für jede einzelne Lernentscheidung vorgibt, was das richtige Vorhersageergebnis sein sollte. Dadurch ist es möglich, dem Computer praktisch beliebig viel Trainingsmaterial zu füttern.
Moderne Machine Learning-Verfahren sind nun in der Lage, die große Fülle von Trainingsmaterial dafür auszunutzen, immer feinere Unterschiede in wiederkehrenden Textmustern zu erfassen. Die heutigen „Deep Learning“-Architekturen sind dabei nicht auf vordefinierte Kriterien eingeschränkt, um Eingaben systematisch zu gruppieren. Stattdessen bauen sie ihre internen Repräsentationen während des Trainings selbst auf und verfeinern sie nach Bedarf, um all die Unterscheidungen zu erfassen, die offensichtlich Einfluss auf das erwünschte Ergebnis haben.
Ein solches Sprachmodell hat die Kapazität, weit mehr zu lernen als dass im Deutschen nach einem Artikel mit hoher Wahrscheinlichkeit ein Substantiv folgt. Überlegen wir uns zum Beispiel, was das Sprachmodell aus Millionen von Berichten zu Fußballspielen gelernt haben wird. Mittelfeldspieler schießen Flanken, Innenverteidigerinnen verhindern Tore, Stürmer positionieren sich im Strafraum usw. Wenn wir das Modell also um eine typische Aussage zu einer bestimmten Spielposition bitten, entsteht der Eindruck, dass die künstliche Intelligenz (KI) tatsächlich ein differenziertes Wissen über Fußball besitzt.
Allerdings lauert hier die Gefahr, dass man als Nutzer oder Nutzerin das Modell überschätzt.
Srocke: Warum das?
Prof. Kuhn: Weil die Sprachmodelle korrekte Fakten mit der gleichen Überzeugung wiedergeben wie sie immer wieder auch Fantasie-Aussagen generieren. Das passiert vor allem in Wissensregionen, zu denen es wenig Trainingstexte gab. Und wenn man nicht aufpasst, fällt es einem gar nicht auf, dass der Chatbot in solchen Bereichen Dinge erfindet. Dieses „Halluzinieren“ zählt aktuell auch noch zu den größten technischen Herausforderungen.
Halluzination und fehlende Konzepte von Wirklichkeit
Srocke: Wie kann es zu solchen Halluzinationen kommen?
Prof. Kuhn: Hier muss ich ein wenig ausholen – es hängt nämlich mit dem Zusammenspiel zwischen dem Sprachmodell und dem Konversations-Agenten zusammen, der als Erweiterung des Sprachmodells in zwei zusätzlichen Schritten trainiert wird. In Schritt 1 wird das unmittelbare Antwortverhalten des Chatbots trainiert. Hierfür bekommt das System nur faktisch wahre Antworten als Trainingsvorgabe, die in diesem Fall tatsächlich von Menschen produziert werden. Aus den Beispielen lernt der Bot, wie Menschen korrekte Antworten formulieren. Allerdings drücken Menschen beim Antworten selten jedes Detail sprachlich explizit aus, sondern sie verlassen sich darauf, dass das Gegenüber implizite Information aus dem Kontext ergänzt. Wenn zum Beispiel jemand beim Stand von 1:0 in eine Sportkneipe kommt, fragt er oder sie vielleicht „Führt Bayern schon lange?“ und jemand anderes sagt „Handelfmeter in der 6. Minute“. Das ist ein extremes Beispiel, um die menschlichen Fähigkeiten besonders plastisch zu machen – in schwächerer Form wird ein Chatbot, der Menschen bei der Beantwortung von Fragen imitiert, jedoch lernen, dass nicht jeder gedankliche Schritt explizit verbalisiert werden muss. Er lernt zum Beispiel, dass es üblich ist, zwischen „Jürgen Klopp“ und „dem Trainer von Liverpool“ hin und her zu wechseln. Diese beiden sprachlichen Ausdrücke werden ja im Sprachmodell auch sehr ähnlich repräsentiert.
Das nicht sklavisch wort-wörtliche Beantworten einer einzelnen Frage ist der erste Anlass, der den Chatbot zum Halluzinieren animieren kann. Ein zusätzlicher Faktor liegt in der Art und Weise, wie der Bot in einem zweiten Schritt noch darauf trainiert wird, zielführende längere Dialoge über beliebige Inhalte zu führen – darin liegt ja genau der Durchbruch, der mit ChatGPT gelungen ist. Hierfür wird die Technik des Reinforcement Learning eingesetzt, ein bestärkendes Lernen. Der Computer spielt dabei für sich selbst sehr viele alternative Dialogverläufe durch und probiert damit in längeren Dialogen aus, was er im Kleinen aus einer Reihe von vorgegebenen Frage-Antwort-Paare gelernt hat. Das Entwicklungsteam lässt eine Auswahl von Dialogverläufen durch menschliche Betrachter bewerten, und der Computer lernt aus diesen Beispielen, eigenständig zwischen zielführenden und weniger zielführenden Verläufen zu unterscheiden. Beispielweise wird ein Dialog, in dem der Chatbot mehrere nicht-triviale Aussagen in selbstbewusster Weise zusammengefügt, als hilfreich empfunden. Also bekommt der Chatbot im Training für ein solches Verhalten eine Belohnung.
Das Problem ist nun, dass der Chatbot für eine Selbsteinschätzung des gewünschten Konversationsverhaltens keinen Zugang zu einem Konzept von Wahrheit hat. In Wissensbereichen, zu denen das Trainingsmaterial nicht so dicht gesät ist, wird der Chatbot also auch gelegentlich Aussagen produzieren, die nach dem Sprachmodell zwar relativ wahrscheinliche Formulierungen sind, aber schlichtweg nicht der Wahrheit entsprechen. Und er wird diese Aussagen genauso selbstbewusst vertreten wie Aussagen, die sich auf einen Wissensbereich beziehen, zu denen die Trainingstexte des Sprachmodells zu viel dichter vernetzten Modellrepräsentationen geführt haben.
Es ist sehr unterhaltsam, mit ChatGPT zu plaudern und zu beobachten, wann es anfängt, mit viel Detail über Dinge zu dozieren, die es gar nicht gibt. Ich habe den Bot zum Beispiel gestern gefragt, wie man im Zoo Nürnberg vom Koala-Gehege zum Ausgang kommt. Ich hatte vorher kurz auf der Zoo-Webseite recherchiert: Es gibt in dem Zoo gar keine Koalas. ChatGPT hat mir dennoch eine Liste mit fünf Anweisungen generiert, wie ich über die „Agora, einen zentralen Platz im Zoo“ zum Ausgang Tiergartenstraße laufen kann. Nichts davon gibt es im Nürnberger Zoo. Man spürt förmlich, wie der Chatbot versucht, die Art von Antwort zu produzieren, die sonst gut ankommt – nur leider schwimmt er komplett, was die Kombination der Begriffe angeht, die ich in der Frage verwendet habe.
Wenn man das so beobachtet, fragt man sich natürlich, warum das System nicht darauf trainiert ist, bei seinen Antworten vorsichtiger zu sein. Tatsächlich liegt ja gerade in der Verknüpfung von erlernten Facetten zu einem Ort oder Gegenstand das enorme Potenzial des Chat-Modells. Eine große Zahl von Fällen, in denen das gut geht, würde eben verhindert, wenn der Bot beim Training weniger Freiheiten bekäme.
Srocke: Würde so ein System auch dann noch halluzinieren, wenn ich es ausschließlich mit korrekten Fakten trainiere – sagen wir mit einer fehlerfrei redigierten Enzyklopädie?
Prof. Kuhn: Ich würde vermuten ja. Falsche Aussagen des Modells basieren zumeist nicht darauf, dass im Training unwahre Behauptungen hineingefüttert wurden. Sie entstehen eher deshalb, weil das Modell partielles Wissen, das es sich zurecht aus Texten angeeignet hat, fälschlich zusammenfügt.
ChatGPT zeigt, wie Menschen Wissen konstruieren
Srocke: Wir sprechen also nicht über eine Fakten-Datenbank, sondern über eine „Sprachfantasiermaschine“, die mutmaßlich plausible Dinge wiedergibt?
Prof. Kuhn: Ja, im Prinzip schon. Wobei das Entwicklungsteam dem System im Chatbot-Training doch schon erstaunlich gut beigebracht hat, auf seine eigenen Grenzen hinzuweisen. Oft, wenn man versucht ChatGPT aufs Glatteis zu führen, sagt es ja, dass es als künstliche Intelligenz zu der Frage nichts beitragen kann.
Das eigentlich Faszinierende ist aber, wie oft der Sprachmodell-basierte Ansatz zum indirekten Aufgreifen von Wissen aus Texten nahezu perfekt funktioniert. Das wilde Fantasieren ist ja eher die Ausnahme. Dieser Umstand sagt viel darüber aus, wie wir Menschen Wissen konstruieren. Wenn wir als Erwachsene etwas Neues lernen, stützen wir uns häufig auf das Hörensagen. Ich kenne mich zum Beispiel überhaupt nicht mit der Seefahrt aus. Wenn ich aber in einem Roman wie „Moby Dick“ nur oft genug Einzelheiten dazu lese, was ein spezifischer Obermaat tut, was ein Steward usw., kann ich anschließend mit anderen schon ein Stückweit über diese Dienstgrade reden. Ich eigne mir Schritt um Schritt Aspekte des Wissens an, das die Bedeutung der Begriffe ausmacht. Eher selten lernen wir Begriffe, indem uns jemand die Definition gibt. Die Art und Weise, wie Menschen ihre sprachliche und begriffliche Kompetenz laufend auffächern und adaptieren, ist also vermutlich gar nicht so weit entfernt vom Training der rein oberflächenorientierten Sprachmodelle.
Srocke: Müssen wir die Grenzen unseres eigenen Intellekts damit auch schon hinterfragen oder gibt es noch einzigartige menschliche Kompetenzen, die wir nicht künstlich nachbauen können?
Prof. Kuhn: Manche Entwickler und Entwicklerinnen glauben tatsächlich, dass man umfassende wissensverarbeitende Systeme bauen kann, die allein aus großen Mengen von Oberflächendaten lernen. Das sehe ich kritisch. Denn diesen Modellen fehlt es an der menschlichen Eigenschaft zur Reflexion. Dazu muss man sich im Dialog auf eine Konzeptebene begeben können und sich in Zweifelsfällen darüber austauschen, wie wir Sprache verwenden, um auf bestimmte nichtsprachliche Dinge zu referieren.
Wenn die künstlichen Systeme nicht zwischen der sprachlichen und einer nichtsprachlichen Ebene trennen können, wird die Modellierung immer an einem bestimmten Punkt scheitern müssen.
Srocke: In gewisser Weise sind diese Metadiskussionen mit ChatGPT doch aber schon möglich. Man kann den Bot korrigieren und der entschuldigt sich dann sogar für falsche Auskünfte...
Prof. Kuhn: Das ist richtig, aber vermutlich ist das nur Teil einer erlernten Konversationsstrategie. ChatGPT hat gelernt, unter bestimmten Umständen in ein Dialogmuster überzugehen, das wir Menschen als Metareflexion verstehen. Aber das ist eben etwas ganz anderes, als tatsächlich in der Lage zu sein, in jedem Austausch die Oberflächenebene von Sprache und Text hinaus von einer Referenzebene zu trennen. Denn das ist in diesem gesamten Repräsentationsansatz einfach nicht angelegt.
Akademische Forschung verspricht wertvolle Impulse
Srocke: Im Gespräch interpretieren wir also nur Einsicht und Erkenntnis in die maschinellen Ausgaben hinein?
Prof. Kuhn: Ja, ChatGPT kann zwar mit dem Vorwurf umgehen, etwas Falsches gesagt zu haben. Aber ihm fehlt das explizite Verständnis, dass man auf unterschiedliche Weise auf gleiche Konzepte zugreifen kann. Auch kann der Ansatz nicht erfassen, dass verschiedene Personen, die sich an einem kommunikativen Austausch beteiligen, in der Regel über unterschiedliches Teilwissen zum Thema und zum Kontext des Austausches verfügen. In einem menschlichen Austausch richten wir die Wortwahl aber sehr stark genau danach aus, welches Teilwissen wir bei unserem Gegenüber vermuten.
Daher sollte die Forschung zu Sprache und Dialog Modellarchitekturen erkunden, die den Umstand erfassen, dass Sprachbenutzer einen sprachlichen Ausdruck in einem bestimmten Kontext immer mit einem nichtsprachlichen Konzept oder Gegenstand verbinden. Wie man dieses Modellierungsziel mit praktikablen Trainingsverfahren verbinden kann, die ja der Schlüssel zur Natürlichkeit von ChatGPT sind, ist im Augenblick noch immer sehr offen.
Die Linguistik, Computerlinguistik und Teilfelder der Informatik forschen schon lange an Theorien und Konzeptrepräsentationen für die nichtsprachliche Ebene. Die Abbildung zwischen den sprachlichen Ausdrucksmitteln und der Konzeptebene wird dabei je nach Kontext von sehr vielen unterschiedlichen Wissensquellen beeinflusst, die sich häufig überlagern. Eine solche Überlagerung sollte eine geeignete Modellarchitektur erfassen können.
Deshalb versuchen wir an der Universität Stuttgart, die Forschung, die sich traditionell mit der menschlichen Sprache und der Sprachverarbeitung beschäftigt, interdisziplinär mit der Forschung zusammenzubringen, die traditionell eine weitergehende Perspektive auf die Verwendung von Sprache in Texten und kommunikativen Interaktionen einnimmt. Es gab und gibt zum Beispiel eine Reihe von Kooperationsprojekten zwischen Computerlinguistik und Politikwissenschaft oder Computerlinguistik und Literaturwissenschaft.
In solchen disziplinenübergreifenden Kooperationen entwickeln wir Repräsentationen, Computermodelle und Untersuchungsmethoden, die auf die Vielschichtigkeit von sprachlicher Interaktion abzielen. So können wir die Grenzen der aktuellen Sprachmodellen ausloten und untersuchen, ob und wie eine bestimmte Erweiterung der Modellarchitektur unterschiedliche Phänomene im menschlichen Diskursverhalten erfasst.
Mit solchen Beiträgen kann die akademische Forschung hoffentlich in den nächsten Jahren auch wertvolle Impulse liefern, um die beeindruckenden Entwicklungserfolge der großen IT-Unternehmen zu komplementieren. Dabei geht es uns nicht vordringlich darum, technologische Verbesserungen für die Anwendungssysteme beizutragen. Kernziel ist vielmehr ein vertieftes wissenschaftliches Verständnis der Mechanismen, die dem kommunikativen Austausch, dem Erlernen von Sprache und Begriffsinventaren und der permanenten Weiterentwicklung von Sprach- und Begriffssystemen zugrunde liegen.