Chatbots, Sprachmodelle und Neuronale Netze
ChatGPT hat die Künstliche Intelligenz ins Bewusstsein der ganzen Welt befördert. Hinter dem freundlichen Unterhaltugsprogramm steckt ein mächtige Sprachmodell, dessen Basistechnik ein Neuronales Netz ist. Hier das Wichtigste so kurz wie es geht:
Die Idee der KI-Technik ist alles andere als neu, sie geht auf die 1940er Jahre zurück und hatte danach eine lange Durststrecke.
1943 veröffentlichten der Neurophysiologe Warren McCulloch und der Mathematiker Walter Pitts den Artikel „A Logical Calculus of the Ideas Immanent in Nervous Activity“, in dem sie ein mathematisches Modell von Neuronen vorstellten. Dieses Modell gilt als die erste formale Beschreibung eines neuronalen Netzes.
Sie ist erst in den letzten Jahren so erfolgreich, weil man heute über riesige Mengen von Daten und damals nicht vorstellbare Computer-Power verfügt.
Die Idee der Neuronalen Netze besteht darin, nachzubauen, was wir über die Vorgänge in unserem Gehirn wissen - oder zu wissen glauben.
Das menschliche Gehirn
Unser Gehirn verfügt über rund 100 Milliarden besondere Nervenzellen, die sog. Neurone. Sie sind für die Signalübertragung untereinander durch besondere Nervenbahnen verbunden, die Dentriten für einkommende Signale und die Axone für ausgehende Signale. Jedes Neuron kann bis zu 1000 solcher Verbindungen haben, das macht dann insgesamt rund eine Billion. Diese Verbindungen sind surch die sog. Synapsen unterbrochen. Hier entscheidet sich, ob ein Impuls verstärkt oder abgeschwächt wird.
Skizze eines biologischen Neurons und einer seiner Verbindungen
mehr erklären
Ein Neuron wird aktiv, wenn es einen genügend starken elektrischen Impuls erhält, der es aus seinem Ruhepotenzial von ca. -70 mV „aufweckt“. Diese Impulse können von den Sinnesorganen (sehen, hören, fühlen usw.), anderen Neuronen oder vom Gehirn selber erzeugt sein, beispielsweise auch durch Nachdenken. Wenn ein Neuron aktiviert wird, sendet es seinerseits über seine zahlreichen Verbindungen Signale aus. Im Fachjargon heißt das dann: es feuert.
Bei allem, was im Gehirn mit den Neuronen passiert, handelt es sich nie um Einzeltäter, sondern sie sind immer in großen Massen, zu Tausenden oder Zehntausenden, in Ausnahmefällen sogar Millionen an ihren Aktionen beteiligt, alle gleichzeitig.
Reizübertragung
durch den Synaptischen Spalt
Die Axone sind keine direkten Leitungen, sondern durch Synapsen unterbrochen. Hier verfügen die Axon-Enden über Eigenschaften, bestimmte Botenstoffe, sog. Neurotransmitter, auszuschütten. Diese können die Leitungslücke in dem synaptischen Spalt überwinden und am anderen Ende wieder einen elektrischen Impuls weiterleiten. Es gibt hunderte verschiedener Neurotransmitter, spezialisiert auf besondere Reize, die wir Menschen dann als Emotionen wie Freude, Lust, Schmerz, Angst, Trauer, Stress usw. empfinden können. Diese Botenstoffe können dafür sorgen, dass in der Synapse die angekommenen Reize verstärkt, abgeschwächt oder ganz unterdrückt werden. Dies erfolgt in kleinen und kleinsten Schritten, immer ein bisschen Umbau durch die Bildung neuer Rezeptoren für die Neurotransmitter oder durch deren Abbau, alles durch Wiederholungen verstärkt, bis ein für einige Zeit stabiler Zustand erreicht wird.
Dieser Langzeitpotenzierung genannte Vorgang ist die Grundlage für Lernen und Gedächtnis und ist auch daran beteiligt, dass alte Informatonen „vergessen“ werden können. Die Gesamtheit dieser Veränderungen macht die Plastizität des Gehirns aus, die uns normalerweise bis ins hohe Alter erhalten bleibt. Trotz intensiver Forschung ist unser Wissen um diese Vorgänge nur sehr oberflächlich. Wir können die Reize im Gehirn verfolgen, Areale ausmachen, die für besondere Eigenschaften wie Sehen, Sprache, Hören, Motorik genutzt werden, haben aber buchstäblich keine Ahnung, wie aus den Reizen subjektive Empfindungen und Gefühle oder gar Bewusstsein entsteht. Dann ist immer die Rede von den neuronalen Korrelaten, die nur besagen, dass ein bestimmter visueller Cortex genannter Bereich mit dem Sehen verbunden ist oder Aktivitäten in den beiden Hippocampi für die Bildung und den Abruf von Erinnerungen in Zusammenhang gebracht werden. Aber wie das genau funktioniert, wissen wir nicht.
Computergehirne
Die Mimik des menschlichen Gehirns versucht man nun technisch nachzubauen. Kein Computer hat tatsächlich Neurone, alles wird nur softwaretechnisch simuliert. Dies gilt auch für die Synapsen, die als Verbindungswerte bzw. Parameter gespeichert werden. OpenAIs Spitzenmodell soll davon schätzungsweise 100 Billionen haben. Alles ist etwas eindimensional, die künstlichen Synapsen verfügen nicht über die Vielfalt der Botenstoffe im Gehirn.
Neuronale Netze sind also Softwaremodelle. Sie sind in mehreren Schichten organisiert, haben eine Input-Schicht für die Aufnahme der geforderten Informationen, eine Ausgabeschicht für ihre Ergebnisse und dazwischen beliebig viele vorborgene Schichten, die sog. hidden layers, unterschiedlich je nach Art und Aufgabe des Netzes. Es gibt sehr verschiedene Konstruktionen, bekannt als Netzwerk-Topologien.
Schematischer Aufbau eines einfachen Neuronalen Netzes
mit zwei Eingabeneuronen (E), zwei hidden layers (L) mit je vier Neuronen und einem Ausgabeneuron (A).
Es gibt sehr unterschiedliche Topologien. Am bekanntetsten sind die Transformer-Modelle. Sie haben Hunderte bis Tausende hidden layers und sind die Grundlage der Chatbots wie ChatGPT von OpenAI, Gemini von Google, Claude von Anthropic, Meta AI (Facebook) oder Grok von Elon Musks X, um nur die derzeit Wichtigsten zu nennen. Die Abkürzung GPT steht für Generative Pretrained Transformer, also vortrainierte Systeme. Sie alle arbeiten mit sog. Large Language Models, abkekürzt LLM. Sie müssen trainiert werden.
Training
Für das Training wählt man eine riesige Datenmenge aus. Bei den bekannten großen Systemen sind das Milliarden bis Billionen Datensätze. Nur ein Teil dieser Daten wird für das Training ausgewählt. Es gibt sehr verschiedene Trainingsmethoden.
- Datenauswahl: Für die Aufgabenstellung des Systems soll man repräsentative Daten auswählen. Das ist natürlich für spezielle Systeme, z.B. medizinische Diagnosen, relativ einfach, für Chatbots wie ChatGPT oder Gemini aber schwierig, weil sie ja für nahezu alles und jedes Auskunft und Antwort geben müssen.
- Aufbereitung: Die Daten werden dann bereinigt und in eine computerlesbare Form gebracht. Dieses Verfahren nennt sich Vektorisierung.
- Training: Eine bekannte Trainigsmethode ist die Verwendung von Frage-Antwort-Paaren, die in großer Zahl von Experten entwickelt wurden. Man nimmt eine Teilmenge der Trainingsdaten, setzt die Verbindungswerte der Neuronen auf einen Anfangswert und lässt das System suchen, was die aufgrund der statistischen Auswertung der Trainingsdaten die wahrscheinlichste Antwort auf die Frage wäre.
- Wiederholung: Das Ganze wird - je nach System - millionen- bis milliardenfach wiederholt. Eine der bekannten Fehlerfunktionen lässt man entscheiden, ob das Ergebnis sich gegenüber dem vorangegangenen Ergebnis verbessert oder verschlechtert hat. Davon abhängig werden die Verbindungswerte, wiederum gesteuert durch eine mathematische Funktion - ein klein wenig verändert.
- Test: Wenn die Änderungen nach einem Trainings-Step eine vorgegebene Fehlergrenze unterschritten haben, wird das Training abgebrochen und mit den Daten der gesamten Trainings-Domain getestet, bis man mit dem Ergebnis zufrieden ist.
- Filterung: Besondere Algorithmen sollen dafür sorgen, dass beleidigende, Gewalt verherrlichende oder zu Verbrechen auffordernde Ergebnisse unterdrückt werden oder die Antworten irgendwie nach Auffassung des Systenbetreibers political correct sind.
mehr erklären
Eine ausführlicher Erklärung zum Training findet sich hier.
Die bekanntesten Trainingsmethoden sind
- Überwachtes Lernen (Supervised Learning): Für vorher ausgewählte Eingabe- und Ausgabemuster kennt das System für jeden Input den „richtigen“ Output und vergleicht in jedem einzelnen Trainingsschritt das vorhergesagte Ergebnis mit dem „richtigen“ Ergebnis. Es ändert dann die Gewichte zwischen den Neuronen selbständig gemäß bestimmter Verfahren (sog. Loss-Funktionen) und lernt so die Eingabemuster mit den gewünschten Ausgabemustern mit jedem Schritt besser zu verbinden. Dabei ist es nützlich, wenn die Daten gelabelt sind, d.h. jedes Datenbeispiel in den Trainingsdaten mit besonderen Merkmalen näher beschrieben ist.
- Unüberwachtes Lernen (Unsupervised Learning): Das Netz erhält keine Eingabehilfen und muss versuchen, selbst Muster oder Eigenschaften in den Daten zu finden, ohne vorher zu wissen, wonach es suchen soll.
- Bestärkendes Lernen (Reinforcement Learning): Das Netz erhält im Vergleich zum überwachten Lernen deutlich weniger Informationen. Es muss die passende Kategorisierung der Eingabe selber herausfinden und erhält nach jedem Durchlauf entweder durch Experten oder maschinell nur die Information, ob sich die Richtigkeit des Outputs verbessert oder verschlechtert hat. Aufgrund dieser Information ändert es die Gewichte zwischen den Neuronen, ebenfalls nach bestimmten, je nach Verwendungszweck des Netzes unterschiedlichen Verfahren.
Bei der zuletzt genannten Methode kann sich natürlich kein Systemanbieter leisten, Milliarden Antworten von menschlichen Experten bewerten zu lassen. Hier begnügt man sich mit einer kleinen Auswahl, verwendet dann diese bewerteten Antworten als neues Trainingsmaterial. So soll den Systemen beigebracht werden, die an ausgewählten Frage-Antwort-Paaren trainierten Bewertungen für beliebige andere Statements vorherzusagen. Mehr dazu hier.
Im Vergleich mit der menschlichen Intelligenzleistung fallen doch riesige Unterschiede auf:
- Langsames Lernen: Im Vergleich zu uns Menschen lernen Neuronale Netze trotz der enorm hohen Leistungsfähigkeit der Computer sehr langsam. Ein Kind ist in der Regel nach einer Million gesprochener Sätze in der Lage, einen beliebigen Satz richtig formulieren zu können, ein Sprachmodell braucht dafür Milliarden Sätze. Das Training der großen Systeme kann Wochen dauern.
- Keine autonome Wahrnehmung: Computer heutiger Bauart können nicht nach draußen sehen und nichts selber, aus eigener Initiative wahrnehmen. Ihnen muss allles von außen beigebracht werden. Man kann sie trainieren, Gefühlsregungen von Menschen zu erkennen, aber sie können selber nichts fühlen.
- Mustererkennung: Darin sind die Systeme unübertroffen. Sie können aus Milliarden, inzwischen Billionen von gespeicherten Informationen Muster erkennen, auch solche, auf die noch kein Mensch je gekommen ist. Viele Technik-Enthusiasten halten dies für Kreativität, stellt aber bei genauerer Betrachtung nur eine neue Kombination bereits dagewesener Dinge dar.
- Kein Bewusstsein: Die großen Sprachmodelle wissen nicht, was sie tun. Sie kommen aufgrund von Statistik und Wahrscheinlichkeitsrechnung, gesteuert durch korrigierende Algorithmen, zu ihren Ergebnissen. Sie können nicht selber denken, haben keinen eigenen Willen und können auch nicht aus eigenem Antrieb handeln.
Immer noch ist das Problem der Halluzinationen nicht zufriedenstellend behoben. Wenn die Systeme bei Fragen oder Anforderungen keine plausiblen Daten in ihren Trainingsdaten finden, müssen sie extrapolieren, merken aber selber nicht, wann sie ihre sicheren Gefilde verlassen. Hier ein krasses Beispiel.
Inzwischen werden Klagen über den Mangel an qualitativen Daten immer lauter. Bei den schon billionenhaft vorhandenen Trainingsdaten stellen neue Daten keinen nennenswerten Qualitätszuwachs mehr dar, zumal jetzt, zwei Jahre nach der Geburt leistungsfähiger Chatbots, schon beachtlich viele öffentlich zugängliche Daten von KI erzeugt wurden (Schätzungsweise sind schon fünf Prozent der Wikipedia-Einträge nicht von Menschen geschrieben).
Mit seinem LLM-Distillation-Konzept hat OpenAI eine Methode vorgestellt, wie ein großes Sprachmodell ein kleineres spezialisiertes Sprachmodell trainieren kann. Wenn die Methode sich bewährt, dann wird es auch für kleinere Unternehmen kostengünstig, sich leistungsfähige Chatbots für spezialisierte Einsatzbereiche herzustellen.
Nächste Stufen
Chatbots und ähnliche KI-Programme werden zu Agenten weiterentwickelt, die Sprachmodelle, Chatbots oder klassische Assistenzprogramme mit Workflows verbinden. Sie sollen mehrstufige komplexe Aufgaben mit wenig oder gar keiner menschlichen Unterstützung übernehmen können. Das Ziel ist, intelligente und hochleistungsfähige Assistenten zu schaffen, die Arbeitsaufgaben unabhängig oder mit minimaler menschlicher Aufsicht gemäß vorgegebener Algorithmen planen, begründen und ausführen können.
mehr erklären
Workflow für den Recruiting-Prozess
Die nebenstehende Abbildung (aus einer Vorschlagsskizze von McKinsey) zeigt den Aufbau eines solchen Workflows am Beispiel des Recruiting-Prozesses:
Die Unternehmensberatung Gartner prognostiziert, dass bis 2028 ein Drittel der Unternehmensanwendungen „agentic A“ enthalten wird, gegenüber weniger als einem Prozent im Jahr 2024. Die Agenten werden in digitale Arbeitsanwendungen integriert, mit denen eine Vielzahl von Büroangestellten regelmäßig arbeitet.
Eine bekannte Unternehmensberatung schildert ein Beispiel dafür, wie ein solcher Agent in die Gestaltung von Kundengesprächen integriert werden könnte. Der Workflow wird aktiviert, sobald eine Kunden-E-Mail eingeht. Der Agent sammelt die relevanten Details aus den früheren E-Mails, überprüft frühere Interaktionen, fasst die Kundenbedürfnisse zusammen und ermittelt die richtige Mitarbeiterin bzw. den Mitarbeiter für das Treffen mit dem Kunden nach Durchsuchen der Skillprofile und persönlichen Kalender. Die ausgewählte Person erhält die Auftrags-Order mit einer Zusammenfassung der relevanten Kundendaten und sendet nach Bestätigung eine Einladung an den Kunden.
Man soll dann auch Mitarbeitenden Tools zur Verfügung stellen können, sich für ihre Aufgabengebiete solche Agenten selber zusammenbasteln zu können. Viele Tools erfordern dazu wenig bis gar keine IT-Fachkenntnisse. Alles soll mit LowCode- oder NoCode-Werkzeugen bewerkstelligt werden können. Analysten von International Data Corporation (IDC) prognostizieren, dass ein Fünftel der sog. Wissensarbeiter ohne Entwicklungserfahrung bis Ende 2025 ihre eigenen, agentenbasierten Arbeitsabläufe erstellen werden. Aufgaben, Prozesse, Probleme und Ziele werden dann in einfacher Sprache beschrieben und von den Agenten in Code, Skripte oder Automatisierungsroutinen umgewandelt.
Vorerst traut man sich noch nicht, KI-Agenten komplexere Aufgaben ganz ohne menschliche Aufsicht ausführen zu lassen, doch das wird sich, gestuft nach Risikogruppen - wahrscheinlich schnell ändern.
Die KI-Agenten sollen nicht nur Fragen in Chatfenstern beantworten, sondern selbstständig Aufgaben erledigen wie z.B. eigenständig im Internet suchen, Flüge buchen, E-Mails schreiben, Verträge abschließen oder auch bloß Dinge übernehmen, die den Nutzern lästig sind. Die Kommunikation erfolgt über Sprache, eingebettet in freundlichen Smalltalk. So kann das System die Stimmungslage seines Benutzers besser erkennen und sich ihm als Freund oder Partner andienen. Die Systeme können zwar selber nichts fühlen. Das ist auch nicht nötig, denn dank ihrer Fähigkeit zu Mustererkennung und aufgrund ihres gründlichen Trainings können sie Gefühle ausreichend gut simulieren. Eine gründlichere Auseinandersetzung mit diesem Thema finden Sie hier.
Dabei können die Agenten sogar in Verbünden arbeiten und selber untereinander ausmachen, welcher Agent welche Arbeit übernimmt. So lässt sich eine Menge Koordinierungsarbeit einsparen.
Die Folgen
Auch hier ist das eigenständige Handeln der neuen Agenten nur Schein. Mustererkennung funktioniert nicht nur mit Textdokumenten. Man kann Systeme genauso gut auf Handlungsmuster trainieren. Sie können dann erkennen, welche Cluster von Arbeitsabläufen statistisch signifikant zusammen vorkommen. Daraus lassen sich Tätigkeitsprofile entwickeln, die dann den Benutzerinnen und Benutzern vorgeschlagen werden können. Der Umfang der erlaubten Abweichungen von diesen Mustern kann mit fortschreitendem Feintuning immer weiter eingeschränkt werden. So lassen sich Konzepte für Normalität entwickeln. Durch Algorithmen kann die Steuerung weiter beeinflusst werden.
Dank der kleinteiligen Überwachbarkeit aller digitalisierten Vorgänge ist die Kontrolle über die Einhaltung der neuen Normalität kein Problem, denn die Abweichungen von der computerdefinierten Normalität können real time festgestellt, über längere Zeitabschnitte ausgewertet oder mit Alarmfunktionen versehen werden. Im Laufe der Zeit lassen sich durchaus duldbare Abweichungen von den Normalitäts-Vorlagen erkennen und in das Repertoire der Systeme einbeziehen. Und den Menschen wird es gefallen, sagen jedenfalls zahlreiche Prognosen. So wird Schritt für Schritt das Konzept des in seiner Arbeit geführten Menschen in die Tat umgesetzt, bis die Arbeit von den Agent-Verbünden komplett übernommen wird. Neu im Vergleich zu früheren Automatisierungswellen ist: Das kann alles sehr schnell gehen.
Große technische Veränderungen haben immer schon Probleme für gesellschaftliche Anpassungen nach sich gezogen, eindrucksvoll in den Büchern The Coming Wave von Mustafa Suleyman und Nexus von Yuval Noah Harari beschrieben. Auch hier ist neu, dass alles viel zu schnell geht.