Reinforcement Learning

Das derzeit (Spätsommer/Herbst 2024) für die Sprachmodelle der Chatbots bzw. aller allgemein generativen KI-Systeme erfolgreichste Training ist das Reinforcement Learning. Es kombiniert maschinelles Lernen mit menschlicher Bewertung und soll dadurch besser auf die Vorlieben seines Publikums abgestimmt sein.

Die Trainingsmethode

Zu allererst definiert man eine Policy für das geplante System, d.h. Ziele, z.B. sachliche Korrektheit, Verständlichkeit, Vermeidung „unethischer“" Anwtorten, Beachtung „menschlicher Werte“, Vermeidung bekannter Vorurteile und erkennbarer Fehler.

  • Erste Trainigsstufe: Man lässt das Sprachmodell Fragen bzw. Inputs beantworten, wozu man richtige (bzw. für richtig gehaltene) Antworten bereits kennt. Dazu hat man einige Tausende oder Zigtausende Frage-Antwort-Paare vorbereitet. Die vom System zu den Fragen produzierten Ausgaben werden nun von menschlichen Experten bewertet. Diese Bewertung orientiert sich an der Policy, den Zielen für das Modell. Meistens wird eine Bewertungszahl aus einer vorgegebenen Qualitäts-Skala von den Experten vergeben oder ein Ranking unter mehreren Antworten vorgenommen. Außerdem können erkennbare Fehler oder Schwächen der Systemantworten kommentiert werden, z.B. mangelnde Faktentreue, Beeinflussung durch erkennbare Vorurteile.
  • Reward-System: Man baut nun ein separates meist kleineres Modell mit derselben Architektur wie das bereits vortrainierte Modell auf, das mit den ursprünglichen Eingaben, den vom System erzeugten Antworten und den Experten-Bewertungen gefüttert wird. Es soll darauf trainiert werden, die Bewertungen der Experten auch für andere Fragen vorherzusagen. Auf diese Weise soll eine Belohnungsfunktion ermittelt werden, die für noch nicht trainierte Fragen eine wahrscheinliche Experten-Bewertungszahl vorhersagen soll. Diese Belohnungsfunktion kann nun weiter angepasst werden, z.B. Bestrafung (Punkteabzug) für vermutet falsche Antworten und Boni für besonders „gute“ Antworten (höflicher Ton wie bei dem Chatbot Caude von Anthropic, vermeintliche besondere Sachlichkeit wie angeblich bei ChatGPT von OpenAI usw.).
  • Übertragung: Das ursprüngliche Sprachmodell wird nun mit der erarbeiteten Belohnungsfunktion ausgestattet und so optimiert, dass es Antworten mit hohen Belohnungswerten erzeugt. Dazu werden besondere Algorithmen verwendet (z.B. Proximal Policy Optimization),
  • Optimierung: Das System wird nun weiter in iterativen Schritten optimiert, z.B. durch Sammeln neuer Feedback-Daten, Anpassung der Belohnungsfunktion, Vermeidung später entdeckter Antwortfärbungen durh Vorurteile, Bewertungen von Beobachtungen während des Trainings und was sonst noch den Systemanbietern einfällt.

Das trainierte Modell soll natürlich kontinierlich weiterentwickelt werden, v.a.durch Anpassung der Policy und Wiederholung der Feintunings. Diese Erziehungsarbeit soll auch zu höflicheren Antworten führen, spezifische ethische und kulturelle Normen besser berücksichtigen und so aus der Abhängigkeit von nur statistisch ermittelten Wahrscheinlichkeiten herauskommen und besser auf menschliche Erwartungen eingehen können, so zumindest die Hoffnung der Systemanbieter.

Kritische Auseinandersetzung

Die Praxis entfernt sich sozusagen im Wochentempo von den Prinzipien des Transformer-Modells mit seinem Aufmerksamkeits-Algorithmus.

In der Trainingsmethode sind mehrere Ebenen erkennbar, wie die Qualität der Ergebnisse beeinflusst und manipuliert werden kann:

  • Domain-Auswahl: Das A und O der Qualität für das trainierte System liegt in der Auswahl der Daten für das Training. Sie sollent repräsentativ für die Community der Menschen sein, für die das System gemacht ist. Ist das nicht der Fall, so ergibt sich eine erste Stufe von Verzerrungen.
  • Policy: Die von den Systemanbietern gesetzten Ziele beeinflussen die Antworten des Systems. Sie regeln auch, welche Informationen unterdrückt werden. So entsteht eine verstärkte Ausrichtung am mainstream der jeweiligen politischen Orientierung und den bevorzugten Moden, eine zweite Stufe von Verzerrungen.
  • Expertenauswahl: Die Subjektivität der Personen, die während des Trainings die Antworten des Systems beurteilen sollen, ist ein schwer kontrollierbarer weiterer Faktor, der Verzerrungen begründen kann.
  • Messmethoden: Die verwendeten Bewertungskriterien und quantitativ ausgerichteten Skalen sowie die mathematischen Funktionen zur automatisierten Bewertung bieten ebenfalls zahlreiche Gelegenheiten zur Verzerrung.

Die Problematik der Verzerrungen ist unter dem Fachbegriff Bias bekannt. Weiter berücksichtigen muss man die Business-Orientierung der großen Anbieter. Nur sie verfügen über das big money für das Training der Systeme und über eine durch die Nationalstaaten kaum noch kontrollierbare Machtkonzentration.

Des Weiteren zeigt sich, wie unscharf die Grenze zwischen Optimierung und Zensur geworden ist, zumal die Hersteller kaum etwas für eine kritischen Bewertung ihrer Aktivitäten tun und keine externe Kontrolle vorsehen. Bei der Integration von DeepMind in das Google-Imperium zum Beispiel blieb das ethische Kontrollgremium auf der Strecke. Die personellen Auseinandersetzungen um die Führung von OpenAI zeigen ein ähnliches Bild.

Wir sehen in letzter Zeit eine zunehmende Abschottung der Internet-Nutzung in politischen Blöcken. Stellt man dem chinesischen DeepSeek und dem US-amerikanischen ChatGPT z.B. politisch kontrovers diskutierte Fragen, so kann man leicht überprüfen, wie stark die Differenzen sind.

Karl Schmitz November 2024, Update Juni 2025