Reinforcement Learning

Das derzeit (Spätsommer/Herbst 2024) für die Sprachmodelle der Chatbots bzw. aller allgemein generativen KI-Systeme erfolgreichste Training ist das Reinfordement Learning. Es kombiniert maschinelles Lernen mit menschlicher Bewertung und soll dadurch besser auf die Vorlieben seines Publikums abgestimmt sein.

Die Trainingsmethode

Zu allererst definiert man eine Policy für das geplante System, d.h. Ziele, z.B. sachliche Korrektheit, Verständlichkeit, Vermeidung „unethischer“" Anwtorten, Beachtung „menschlicher Werte“, Vermeidung bekannter Vorurteile und erkennbarer Fehler.

  • Erste Trainigsstufe: Man lässt das Sprachmodell Fragen bzw. Inputs beantworten, wozu man richtige (bzw. für richtig gehaltene) Antworten bereits kennt. Dazu hat man einige Tausende oder Zigtausende Frage-Antwort-Paare vorbereitet. Die vom System auf die Fragen produzierten Ausgaben werden nun von menschlichen Experten bewertet. Diese Bewertung orientiert sich an der Policy, den Zielen für das Modell. Meistens wird eine Bewertungszahl aus einer vorgegebenen Qualitäts-Skala von den Experten vergeben oder ein Ranking unter mehreren Antworten vorgenommen. Außerdem können erkennbare Fehler oder Schwächen der Systemantworten kommentiert werden, z.B. mangelnde Faktentreue, Beeinflussung durch erkennbare Vorurteile.
  • Reward-System: Man baut nun ein separates meist kleineres Modell mit derselben Architektur wie das bereits vortrainierte Sprachmodell auf, das mit den ursprünglichen Eingaben, den vom System erzeugten Antworten und den Experten-Bewertungen gefüttert wird. Es soll darauf trainiert werden, die Bewertungen der Experten auch für andere Fragen vorherzusagen. Auf diese Weise soll eine Belohnungsfunktion ermittelt werden, die für noch nicht trainierte Fragen eine wahrscheinliche Experten-Bewertungszahl vorhersagen soll. Diese Belohnungsfunktion kann nun weiter angepasst werden, z.B. Bestrafung (Punkteabzug) für vermutet falsche Antworten und Boni für besonders „gute“ Antworten (höflicher Ton wie bei dem Chatbot Caude von Anthropic, vermeintliche besondere Sachlichkeit wie bei ChatGPT von OpenAI).
  • Übertragung: Das ursprüngliche Sprachmodell wird nun mit der erarbeiteten Belohnungsfunktion ausgestattet und so optimiert, dass es Antworten mit hohen Belohnungswerten erzeugt. Dazu werden besondere Algorithmen verwendet (z.B. Proximal Policy Optimization),
  • Optimierung: Das System wird nun weiter in iterativen Schritten optimiert, z.B. durch Sammeln neuer Feedback-Daten, Anpassung der Belohnungsfunktion, Vermeidung später entdeckter Antwortfärbungen durh Vorurteile, Bewertungen von Beobachtungen während des Trainings und was sonst noch den Systemanbietern einfällt.

Das trainierte Modell soll atürlich kontinierlich weiterentwickelt werden, v.a.durcdh Anpassung der Policy und Wiedeerholung der Feintunings. Diese Erziehungsarbeit soll auch zu höflicheren Antworten führen, spezifische ethische und kulturelle Normen besser berücksichtigen und so aus der Abhängigkeit von nur statistisch ermittelten Wahrscheinlichkeiten herauszukommen und besser auf menschliche Erwartungen eingehen zu können, so zumindest die Hoffnung der Systemanbieter.

Kritische Auseinandersetzung

Die Praxis entfernt sich sozusagen im Wochentempo von den Prinzipiel des Transformer-Modells mit seinem Aufmerksamkeits-Algorithmus.

Die Beschreibung der Trainingsmethode macht mehrere Ebenen deutlich, wie die Qualität der Ergebnisse beeinflusst und manipuliert werden kann:

  • Domain-Auswahl: Das A und O der Qualität für das trainierte System liegt in der Auswahl der Daten für das Training. Sind sie repräsentativ für die Community der Menschen, für die das System gemacht ist? Diese Verzerrungen sind als Bias bekannt.
  • Policy: Die von den Systemanbietern gesetzten Ziele beeinflussen entscheidend die Antworten, vor allem, welche Informationen unterdrückt werden. Sie lassen eine verstärkte Ausrichtung am mainstream der jeweiligen politischen Orientierung und den von herrschenden Eliten bevorzugten Moden erwarten.
  • Expertenauswahl: Die Subjektivität der Personen, die während des Trainings die Antworten des Systems beurteilen sollen, ist ein schwer zu kontrollierender Faktor.
  • Messmethoden: Die verwendeten Bewertungskriterien und quantitativ ausgerichteten Skalen sowie die mathematischen Funktionen zur automatisierten Bewertung bieten zahlreiche Gelegenheiten zur Verzerrung.

Schwer nachzuweisen sind die Auswirkungen durch die Business-Orientierung der großen Anbieter. Nur sie verfügen über das big money für das Training der Systeme und verfügen über eine durch die Nationalstaaten kaum noch kontrollierbare Machtkonzentration.

Des Weiteren zeigt sich, wie unscharf die Grenze zwischen Optimierung und Zensur geworden ist, zumal die Initiativen der Hersteller zur kritischen Bewertung ihrer Aktivitäten wenig transparent sind und keine externe Kontrolle vorsehen. Bei der Integration von DeepMind in das Google-Imperium blieb das ethische Kontrollgremium auf der Strecke. Die personellen Auseinandersetzungen um die Führung von OpenAI zeigen ein ähnliches Bild.

Wir sehen in letzter Zeit eine zunehmende Abschottung der Internet-Nutzung in politischen Blöcken. China hat den Einsatz US-amerikanischer Systeme verboten. In den USA gibt es ähnliche Bestrebungen. Wenn man Ernie, den Chatbot des chinesischen Unternehmens Baidu nach einer Erklärung für Russlands Einmarsch in die Ukraine befragen würde und dieselbe Frage ChachGPT oder Gemini stellen würde, könnten die Unterschiede der Antworten kaum extremer ausfallen.

Karl Schmitz November 2024