Überarbeitete Fassung vom März 2025
Halluzinationen
KI-Systeme tun sich schwer mit der Erkennung der Grenzen ihrer Leistungsfähigkeit. Je wenigewr aktuell die Daten aus der Trainingsstichprobe sind, desto größer wird das Problem. Dann müssen sich die Systeme in den Bereich der Extrapolation aus ihrer ursprünglichen Domain begeben. Nun laufen sie Gefahr, etwas zu tun, das verniedlichend als Halluzinieren beschrieben wird. Die durch Wahrscheinlichkeitsrechnung getriebene Suche greift jetzt ins Leere und fängt an, zu fantasieren. Eigentlich weniger wahrscheinliche Ergebnisse können mangels Vergleich als hochwahrscheinlich dargestellt werden. In Aussagesätze verpackt verleiht dies dem Ergebnis den Eindruck von Objektivität. Menschen, die diese technischen Hintergründe nicht kennen, vertrauen den Aussagen und stellen keine kritischen Fragen mehr. Dies kann schwerwiegende Folgen haben. Etwas drastischer ausgedrückt: KI kann buchstäblich Schwachsinn produzieren - sie erfindet auf der Grundlage von Trainingsdaten Dinge, die gut klingen, oder noch nicht einmal das, wie das hier dokumentierte Beispiel zeigt.
Auch eine noch so große Datenmenge bildet nicht alle Situationen der Realität repräsentativ ab, und die Systeme tun sich schwer, diese Grenze zu erkennen. Sie neigen dann zu besagten Halluzinationen.
Technischer Hintergrund
Nehmen wir an, für eine Benutzeranfrage findet das System in seinen Trainingsdaten überhaupt kein ähnliches Muster für eine Antwort. Die ermittelte Wahrscheinlichkeit ist buchstäblich Null. Mit Nullen lässt sich aber schlecht rechnen. Da für komplexe Ereignisse oder Sachverhalte die Wahrscheinlichkeit sich aus dem Produkt der Einzelwahrscheinlichkeiten berechnet, bleibt alles bei Null.
Eine Möglichkeit, aus dieser Bredouille herauszukommen, ist ein Trick, der manchmal angewendet wird: Man ordnet der Antwort auf die Benutzeranfrage eine klitzekleine Wahrscheinlichkeit zu. Das fällt im Vergleich zu den millionenfach höheren Wahrscheinlichkeiten der Umgebung weiter nicht auf - und ist ja auch keine richtige Lüge, denn eine Wahrscheinlichkeit von ein Zehnmillionstel im Vergleich zu Null ist ja nicht fundamental falsch. Aber nun kann das System mit der kleinen Kleinstwahrscheinlichkeit rechnen, und findet mit Bestimmtheit irgendwas. Das ist zwar auch nicht sehr wahrscheinlich, aber das merkt das System nicht. Auf keinen Fall merkt es die Benutzerin oder der Benutzer, denn dieser Person wird nicht verraten, auf welchem unsicheren Terrain das System seine Ergebnisse gefunden hat.
Fehlergründe
Falsche Antworten können allerdings auch banalere Gründe haben. Sie liegen in der mangelhaften Datenqualität, können ihre Gründe bei den Trainingsmethoden oder in den Algorithmen haben, die für die Ergebnispräsentation zuständig sind.
Datenqualität
Am bekanntesten sind die als BIAS bekannten systematischen Fehler durch Abweichungen von der Repräsentativität. Literarisch bekannt sind die in den USA deutlich beobachtbare Benachteiligung von Schwarzen oder sog. colored people gegenüber den weißen Einwohnern oder die männlich-weiblich-Verzerrung
Quelle für das Training sind die im Internet vorfindbaren Daten. Die Betreiber der großen Sprachmodelle bedienen sich alle bei den großen Datentöpfen und längst nicht nur an Datenquellen, die von ihren Besitzern oder Betreibern als qualitativ hochwertig angepriesen werden (In diesem Zusammenhang wurde der Deal zwischen OpenAI und dem Axel-Springer-Verlag für sog. Qualitätsjornalismus als „Bild schreibt mit“ verspottet).
Mit Bedauern muss beobachtet werden, dass die im Internet zugänglichen Daten
- immer stärkeren Wiederholungen unterliegen,
- über Gebühr kommerzielle Inhalte darstellen und
- in rasantem Tempo künstlich durch KI erzeugt werden.
Die solcherart vermehrten Daten stellen gegenüber dem realen Leben eine beachtliche Häufigkeitsverzerrung dar, die in den KI-Systemen zu einer Wahrscheinlichkeitsverzerrung führt und folglich immer öfter zu verfälschten Ergebnissen.
Fragt man nach sehr präzisen Details innerhalb eines spezialisierten Fachwissens, so kann man den umgekehrten Effekt erlebenden. Möglicherweise findet sich im Trainingsmaterial überhaupt nichts. Dann ist Bahn frei für phantasierte Antworten. Ähnlich kann es einem ergehen, wenn man über brandneue Sachen etwas wissen will.
Die Hersteller behelfen sich damit,in solchen Fällen dann eine ganz traditionelle Suche ins Internet zu starten, deren Tiefe meist davon abhängt, wieviel man für die Benutzung des Services bezahlt. Die gefundenen Ergebnisse können dann mit der Zusammenfass-Funktion aufbereitet und dem Benutzer präsentiert werden. Das Problem ist aber: Das System muss erkennen, dass es seine als solide erachtete Datenbasis verlässt. Und damit tut es sich schwer.
Aufmerksamkeitsfehler
Der Aufmerksamkeitsmechanismus der Sprachmodelle soll dafür sorgen, die wichtigen Begriffe (für das System sind das dieToken) einer Benutzereingabe oder -anforderung herauszufinden. Mit Hilfe sogenannter Query-, Key- und Value-Vektoren soll herausgefunden werden, wie stark ein Wort (ein token) auf andere tokens "aufmerksam" ist. Dabei kann es passieren, dass der Aufmerksamkeits-Fokus auf falsche token gesetzt wird (sog. Attention Glitch). Dies ist möglich, weil das System nichts „versteht“, sondern mit Wahrscheinlichkeitswerten für die Beziehung von Wörtern untereinander hantieren muss und sich dabei kräftig vertun kann, denn nicht alles, was häufig ist, ist auch wichtig - eine Macke der künstlichen Intelligenz, und der Beweis dafür, dass sie nicht in menschlichem Sinn „intelligent“ ist. Eine ganze Wissenschft kümmert sich um diese Probleme
Schon kleine Änderungen in der Eingabe des Benutzers können zu völlig anderen Aufmerksamkeitsverteilungen führen. Da die meisten Sprachmodelle mit mehreren Aufmerksamkeitsköpfen arbeiten, können sich die dabei entstehenden sog. layers widersprechen, oder das Modell kann sich an einem token buchstäblich aufhängen. Man kann das manchmal erkennen, wenn das System mitten in einer Antwort plötzlich das Thema wechselt oder seltsame Wiederholungen präsentiert oder sich in der Grammatik verheddert.
Modellfehler
In den Beiträgen auf dieser Website wurde oft betont. dass Künstliche Intelligenz nicht im entferntesten über etwas wie unser Bewusstsein verfügt, es bestenfalls in Ansätzen simulieren kann und nichts wirklich „versteht“. Für die Systeme sind Bedeutungen nichts anderes als Beziehungen. Mathematisch lässt sich das leicht durch Verkoren in einem Semantischen Raum darstellen. Und jetzt kann man Bedeutungen endlich messen. Nicht ganz richtig, aber man kann die Abstände der Vektoren voneinander messen. Dinge mit ähnlichen Bedeutungen werden dort durch nahe beieinander liegende Vektoren dargestellt.
Für uns Menschen sind Bedeutungen ein Mix aus kognitiven Prozessen und Gefühlen. Die KI-Modelle kennen diesen Unterschied nicht. Bedeutungen sind für uns sehr individuell, man kann sagen relativ. Die KI-Modelle packen alles in eine Kiste, behandeln Bedeutungen als objektiv und bedienen alle Menschen, die etwas von ihnen wollen, aus ein und demselben Large Language Model, einem großen Sprachmodell. Dass dies meilenweit von der Realität entfernt ist, bedarf wohl keiner näheren Erklärung. Man kann das auch unter dem Gesichtspunkt sehen, dass die Beschränkung auf nur digital vorliegende Information auch eine Art von BIAS, also Verzerrung, darstellt.
Die Modelle funktionieren gut auf dem Hintergrund eines gemeinsamen main stream. Wenn alle Menschen gleich ticken, gibt es für alle gleich gute (oder gleich schlechte) Antworten. Die verfügbaren Daten für das Training der Systeme haben längst diesen Weg zunehmender Gleichförmigkeit beschritten.
Schlussfolgerung
Eine Konsequenz aus den dargelegten Fehlergründen ist, dass das Problem der Halluzinationen grundlegend ist und nur gemildert, aber nicht gelöst werden kann. Darauf stützt sich meine These, dass die Zeit der großen Systeme aus der Sparte der Generative Artificional Intelligence, der GenAI zu Ende geht und die Zukunft deutlich kleineren Systemen gehört, den Spezialisten, die mit Daten trainiert sind oder mit Datenquellen verbunden sind, bei denen über die Bedeutung ihrer Daten in hohem Maße Konsens herrscht und bei denen auf keinen Fall Bild mitgeschrieben hat.
Es wird viel getan, um die Zuverlässigkeit der großen Sprachmodellezu verbessern. Da sie sich schnell weiterentwickeln, ändern sich die Methoden zum Erkennen und besseren Vermeiden von Halluzinationen natürlich auch ständig, von Debiasing bis zu Retrieval Augmented Generation (RAG), wobei das Modell mit zusätzlichen Datenquellen verbunden wird. Oder man lässt die Ergebnisse eines Sprachmodells durch ein anderes speziell trainiertes Modell prüfen.
Die großen Anbieter, die im zu Ende gehenden Jahr 2025 immer noch hohe Verluste einfahren, sind auf eine baldige gründliche Kommerzialisierung ihrer Produkte förmlich angewiesen. Dieser Tatbestand setzt den Verbesserungsaktivitäten enge Grenzen.