Die Grenzen der Künstlichen Intelligenz

Gewaltige Fähigkeiten werden der Künstlichen Intelligenz (KI) zugeschrieben. Wenn wir an Intelligenz denken, richten wir uns vermutlich danach, was wir als Menschen mit wachem Geist darunter verstehen. Und da liegt auch schon der Hund begraben.

Menschen vs. Maschinen: Was sind wir?

Wir sind nicht digital. Wir mögen uns für rationale und logische denkende Wesen halten, doch ein großer Teil unserer Intelligenz ist durch Gefühle gesteuert. Wir empfinden Freude, Schmerzen, Trauer, Zorn und vieles mehr. Wir leben in einer sozialen Umgebung, stehen in ständigem Austausch mit anderen Menschen, können uns an veränderte Verhältnisse anpassen, sind neugierig, einfallsreich, verspüren einen naturgegebenen Drang nach Ausprobieren, sind zu Spiritualität fähig. Unsere Erinnerungen sind durch Erfahrungen in einem realen Leben geprägt. Wenn wir wollen, sind wir aufmerksam, wir können spontan etwas tun, gründlich nachdenken oder uns von unseren Gedanken und Gefühlen treiben lassen. Unser Gedächtnis prägt einen wesentlichen Teil unserer Intelligenz. Unser Geist verfügt über diese wunderbare Mischung von Gefühl und Verstand und ist untrennbar mit unserem Körper verbunden. Das alles kennzeichnet menschliche Intelligenz.

Was davon können Maschinen? Künstliche Intelligenz ist an Computer und Software gebunden, und beide können nur digital.

Hindernis Digitalisierung

Statt von künstlicher Intelligenz sollten wir bescheidener von maschineller Intelligenz reden. Stand heute: Der komplette Input von Maschinen ist digital, besteht aus Texten, Bildern, Bild- und Tonsequenzen, alles was sich in Bitfolgen auflösen lässt. Mit Gerüchen und der Simulation unseres Tastsinns hapert es noch.

Kein Computer hat Gefühle. Computer können nichts selber empfinden - alles muss ihnen mitgeteilt werden. Ein wichtiger Ast der KI-Entwicklung bemüht sich, den Systemen wenigstens beizubringen, Gefühlte zu erkennen. Emotionale KI nennt sich das.

Für uns braucht es nur ein wenig Empathie, und wir sind in der Lage, Trauer oder Freude im Gesicht eines Menschen sofort zu erkennen. Künstlichen Systemen muss dies alles mitgeteilt und antrainiert werden. Heerscharen von Psychologen haben jeder Sichtbarkeit von minimalen Muskelbewegungen einen Code zugeordnet, der allein oder in Kombination mit anderen solchen Codes eine bestimmte Gefühlsregung beschreiben soll. So ist ein sog. Gesichtsbewegungskoordinierungssystem entstanden, abgekürzt FACS (englich Face Action Coding System). Mit dieser Micromimik lässt sich erkennen, welche Emotionen jemand wirklich hat, auch wenn die betreffende Person dies verbergen möchte. Mit diesen Codes und entprechendem Filmmaterial kann man dann künstliche Neuronale Netze trainieren.

Ähnliches lässt sich mit stimmbasierter Emotionserkennung erreichen. Das System soll Valenz (positiv - neutral - negativ) und Erregungszustand erkennen. Das Modell kann erweitert werden um Dominanz, Lautstärke, Tonhöhe, Sprechgeschwindigkeit usw. Was diese Merkmale aber bedeuten, muss der Software erst mitgeteilt werden. Dafür haben wir die Psychologen. Zusätzliche Informationen (Sprache, wenn's sein darf per Kamera erkannte Hautfarbe) sollen dafür sorgen, dass ethnische Besonderheiten berücksichtigt werden.

Ansonsten muss man sich mit dem sog. Tagging zufrieden geben, indem man Textpassagen Metadaten (für Benutzerinnen und Benutzer nicht sichtbare Merkmale) zuordnet, die sagen, welchen emontionalen Grundtonus die Texte haben, Methoden, die aus der Sentimentanalyse bekannt sind.

Interessant wird dann die Kombination dieser Art von Künstlicher Intelligenz mit der Robotik, und wir sind bei den humanoiden Robotern. Auch ihnen muss mitgeteilt werden, was sie tun sollen. Sicher kann man im Laufe der Zeit immer mehr Teile dieser Information automatisieren - das ändert jedoch nichts daran: Sie treffen keine Entscheidungen, sondern sind Reaktion auf (automatisierte) Reize.

Das „Nachdenken“ der Künstlichen Intelligenz

Der Stein der Weisen für die derzeitige Künstliche Intelligenz ist ein sogenannter Aufmerksamkeits-Mechanismus. Bei solchen Programmen handelt es sich um trainierte Large Language Models. Dahinter stecken Neuronale Netze der modernsten Kategorie, sog. Transformer-Modelle.

Sie haben in ihrem Training einen riesigen Wortschatz erworben, der mathematisch gut aufbereitet wurde. Das große Geheimnis der Systeme besteht darin, die Wahrscheinlichkeitsverteilungen für das gemeinsame Vorkommen von Wortsequenzen in beliebigen Textzusammenhängen ermitteln zu können. Diese Kenntnisse haben sie durch ihr Training auf der Basis riesengroßer Datenmengen erworben. Mit Zugriff auf diese Wahrscheinlichkeiten können sie dann erstaunlich gute Prognosen treffen und verschiedene Aufgaben erledigen, wie z.B.

  • Fragen von Benutzerinnen und Benutzer beantworten,
  • Texte zusammenfassen,
  • aufgrund von Stichworten neue Texte verfassen oder
  • Texte in andere Sprachen übersetzen.

Das Seltsame allerdings: Die Systeme „verstehen“ nicht, was sie tun. Sie hantieren nur mit Wahrscheinlichkeiten, nach dem Motto, was mit Milliarden und Abermilliarden von Wörtern trainiert worden ist, kann nicht allzu sehr daneben sein.

Wenn Menschen etwas erklären sollen, steht ihnen ihr aus einem mehr oder minder langen Leben erworbener Erfahrungsschatz zu Verfügung, mit allen subjektiven Besonderheiten, die ein Leben so mit sich gebracht hat.

Das Neuronale Netz des KI-Systems verfügt über einen Speicher der Trilliarden von Wortkombinationen aus der ganzen Internet-Welt, deren Output in digitaler Form vorliegt. Besonderheiten kann es nur berücksichtigen, wenn sein gewaltiger Datenschatz entsprechend gefiltert wird, z.B. für gewünschte emotional gefärbte oder betont sachlich gehaltene Ergebnisse.

Die unverkennbare Stärke dieser Systeme ist ihre Fähigkeit zur Mustererkennung. Sie können dabei Dinge erkennen, die noch kein Mensch gesehen hat. Das Entscheidende aber ist, es handelt sich immer nur um bereits Dagewesenes, das möglicherweise anders kombiniert wird, als dies bisher je geschehen ist. Wenn man das unter kreativ versteht, dann sind die Systeme in diesem Sinne kreativ. Aber wirklich Neues bringen sie nicht zustande. Der Kick des Noch-Nie-Dagewesenen bleibt ihnen verschlossen, sie können nur bereits Dagewesenes anders durcheinanderwirbeln und neu kombinieren. Ihnen fehlt das „Verstehen“ dessen, was sie tun.

Da die Systeme auch über keine eigene Wahrnehmungsfähigkeit verfügen, muss ihnen alles präsentiert werden, was sie wahrnehmen sollen. Das selbstfahrende Auto bisheriger Bauart wird immer hilflos auf Feldwegen herumirren, solange diese über keine Sensorik verfügen, für die das Wunderauto auch ausgestattet sein muss.

Unbekannte Umgebungen werden für KI-Systeme heutiger Bauart immer ein Problem darstellen, denn im Unterschied zu unserem Körper verfügen sie über keine Univeralsensorik, wie sie uns unsere fünf Sinne bescheren. Alles muss spezialisiert für die Systeme hergerichtet werden, seien es Kameras, Mikrofone, elektronische Ersatzorgane oder Informationssysteme wie z.B. die oben erwähnte FACS-Bibliothek für die Interpretation von Mikromimik-Bewegungen.

Fazit

Ein KI-System wird niemals aus eigenem Antrieb entscheiden können, was es wahrnehmen und was es tun soll. Es kann auch niemals die Bedeutung seines Inputs verstehen. Die heute verfügbare Technik ist nicht nur weit weg von einer Superintelligenz, sondern dazu grundsätzlich nicht in der Lage. Das sollte man wissen, um der Technik nicht unrealistische Erwartungen zuzuschreiben.

 

 

Karl Schmitz April 2024