Künstliche Empathie

Teil 1 Die Grundlagen

13. Mai 2024: OpenAI stellt GPT 4o vor. Eingebaut in ChatGPT kann es jetzt mit Menschen fließend sprechen und Emotionen erkennen. Zwei Geräte können sich sogar direkt miteinander unterhalten, auch in verschiedenen Sprachen. Launen der Benutzer werden am Gesichtsausdruck per Kamera erkannt, der Tonfall der Antworten wird entsprechend angepasst. Die Künstliche Intelligenz will nun den Umgang mit Emotionen gelernt haben. Und OpenAI's Hauptgeldgeber Microsoft ist dabei, die neuen Errungenschaften der gesamten Bürowelt anzudienen, via Microsoft Copilot+. Eine ausgesprochen wachstumsintensive Disziplin der Künstlichen Intelligenz schickt sich nun an, sich um die Simulation menschlicher Empathie zu kümmern.

Empathie ist die Fähigkeit und Bereitschaft, die Empfindungen, Emotionen, Gedanken, Motive und Persönlichkeitsmerkmale einer anderen Person zu erkennen, zu verstehen und nachzuempfinden. Es geht darum, sich emotional mit anderen verbinden zu können und ihre Erfahrungen nachzuvollziehen, ohne sie selbst zu erleben.

Quelle: Mix aus Gemini und ChatGPT, Mai 2024

Wer sich für eine ausführliche Erläuterung der Begrifflichkeit interessiert, findet diese in dem sehr empfehlenswerten Buch der Göttinger Philosophie-Professorin Catrin Misselhorn: Künstliche Intelligenz und Empathie Vom Leben mit Emotionserkennung, Sexrobotern & Co., Stuttgart 2023.

Computer und Menschen

Wir haben gelernt, zumindest begrifflich Körper und Geist voneinander zu trennen. In einem etwas einfach geratenen Vergleich mit Computern stellt unser Körper samt Gehirn dabei die Hardware dar, und unser Geist, die Gedanken, der Intellekt die Software.

Aber: KI-gesteuerte Computer haben keine eigene Fähigkeit zur Wahrnehmung. Sie können Bilder und Töne als Input aufnehmen, vorausgesetzt, sie haben vorgeschaltete „Sinnesorgane“ wie Kameras oder Mikrophone. Sie machen dann aus den aufgenommenen elektromagnetischen Signalen Bit-Matrizen.

Wenn wir Menschen von Wahrnehmung reden, können wir immer auch den Bildern oder Tönen Bedeutungen zuordnen, und dies aus eigener Kraft. Dabei steht uns unsere komplette Lebenserfahrung zur Verfügung. Computern dagegen muss man erst beibringen, was die ihnen eingeflößten Bit-Muster bedeuten sollen. Sie verfügen über keine autonome Fähigkeit zu einer Wahrnehmung und erst recht zu keiner Fähigkeit, dem Wahrgenommenen Bedeutungen zuzuordnen. Computer-Wahrnehmung beruht immer auf einem von außen veranlassten Input, dem gesagt werden muss, was er zu bedeuten hat.

Entwicklungsgeschichtlich ist der kognitive Teil unseres Gehirns erst spät entstanden. Der sehr viel ältere Teil, das limbische System, wird oft auch als das emotionale Gehirn bezeichnet. Wir sind erzogen worden, unsere Intelligenz als die Leistungen des kognitiven Teils unseres Gehirns zu begreifen, während Gefirnforscher unsere Empfindungen und Emotionen dem emotionalen Gehirn zuordnen. Diese bleiben - zumindest heutigen - Computern vorenthalten.

Die Neuronalen Netze sind die derzeit erfolgreichsten Teile der Künstlichen Intelligenz. Sie versuchen, wichtige uns bekannten Funktionen des kognitiven Gehirns nachzubauen. Ihre epochemachenden Leistungen bestehen im wesentlichen in Mustererkennung auf der Basis des Trainings mit riesigen digitalisierten Datenmengen. Dies lässt sich natürlich auch auf Videos von Gesichtsausdrücken und auf Stimmaufnahmen ausdehnen. Voraussetzung ist auch hier, dass man über riesige Datenmengen verfügt, die von Psychologen oder anderen Experten interpretiert werden müssen. So lässt sich eine Teildisziplin der Künstlichen Intelligenz aufbauen, die man in gesichtsbasierte und stimmbasierte Emotionserkennung unterscheiden kann.

Gesichtsbasierte Emotionserkennung

Hier geht es um die Interpretation menschlicher Gesichtsausdrücke auf der Grundlage bewegter Bilder als Input. Diese müssen zunächst klassifiziert werden. Dazu lässt sich das Facial Action Coding System, abgekürzt FACS, zu deutsch Gesichtsbewegungs-Koordinierungssystem, benutzen. Es wurde von dem Psychologen Paul Ekman in den 1970er Jahren entwickelt. Die Software, die damit zu tun hat, muss auf die Erkennung dieser Bewegungen trainiert werden und kann dann jeder erkannten Bewegung einen Wert aus der FACS-Liste zuordnen.

Skala der FACS Ausprägungen

A: nur angedeutet

B: gut sichtbar

C: deutlich sichtbar

D: ausgeprägt

E: im Höchstmaß

Ebenfalls lässt sich die Ausprägungsstärke der Mimik nach einer fünfstufigen Skala ermitteln und den gefundenen Merkmalen zufügen.

Für die sieben Basis-Emotionen (Wut, Freude, Trauer, Ekel, Verachtung, Angst, Überraschung) haben Psychologen charakteristische Muster durch Zusammenfassungen mehrerer dieser Codes definiert, wie im Folgenden beispielhaft für Freude und Angst dargestellt.

FACS-Codierung für Freude
Code	Beschreibung
6	angehobene Wangen
12	Anheben der Mundwinkel
42	Zusammenkneifen der Augen

FACS-Codierung für Angst
Code	Beschreibung
1	Heben der inneren Augenbraue
2	Heben der äußeren Augenbraue (Hoch gezogene Augenbrauen)
4	Zusammenziehen der Augenbrauen
5	Heben des oberen Augenlides (weit geöffnete Augen)
7	Anspannen der Augenlider
20	Anspannen der Lippen
26	Herunterfallen des Kiefers

Alternativ zur Anwendung des FACS-Systems kann man natürlich auch von Anfang an ein Neuronales Netz auf die Erkennung von Gesichtsausdrücken als Muster trainieren, mit einer genügend großen Datenbasis aus Videoaufzeichnungen und Fotos. Auch hier braucht man Psychologen für das sog. Tagging der Daten, d.h. der stichwortartigen Beschreibung, was die erkannten Muster bedeuten sollen. Beide Verfahren lassen sich natürlich kombinieren.

Kritisch wird eingewendet, dass die automatisierten Emotionserkennungen den sozialen Kontext der jeweils konkreten Situation ausblenden und sich auch mit kulturellen Unterschieden noch schwer tun. Mit Humor, Ironie, Witz oder Sarkasmus geraten sie schnell in die Zone der Halluzination. Schon seit längerer Zeit bekannt sind die Verzerrungen aufgrund von rassistischen Vorurteilen, sicher nur die Spitze eines Eisberges nicht treffsicherer Einschätzungen.

Stimmbasierte Emotionserkennung

Was mit Mikromimik geht, funktoniert ähnlich auch mit Sprache. Stress lässt sich durch minimales Beben in der Stimme, sog. microtremors, erkennen und wird dann als Erregungsgrad gewertet. Den emotionalen Kontext soll das System als sog. Valenz erkennen, allerdings nur sehr grob: positiv, neutral oder negativ - uns Menschen stehen da bekanntlich deutlich differenziertere Möglichkeiten zur Verfügung. Weitere Indikatioren sind Sprechgeschwindigkeit, Lautstärke, Tonhöhe, Pausen und Unterbrechungen. Diese Merkmale lassen sich noch ergänzen, z.B. durch die Dominanz als Maß für die von der betroffenen Person ausgeübte Kontrolle oder Macht, ebenfalls per Mustererkennung.

Schon seit Jahren finden solche Verfahren in Call Centern Anwendung, z.B. um die aufgebrachte Stimme eines verärgerten Kunden zu erkennen und das Gespräch dann automatisch an ein Back Office mit für solche Fälle ausgebildeten Spezialisten weiterzuleiten. Einige Diestleister bieten sogar Chatbot-unterstützte Software an, die mit Bewerbern einen unverfänglich erscheinenden Small Talk mit kleinen eingestreuten Überaschungsfragen durchführt und dann Schlussfolgerungen z.B. für Resilienz, Stressanfälligkeit, Flexibilität usw. zieht. Die Bezeichnung dafür ist Employee Experience, eine Teildisziplin der Semtimentanalyse.

Neuere Anwendungen sind darauf ausgerichtet, Emotionen in Echtzeit zu erkennen, z. B. bei Sportereignissen. Diese Systeme werden anhand von Videomaterial aus echten Wettkämpfen trainiert. Die von den Anbietern als realitätstauglich bezeichnete Emotionserkennung lässt sich auf zahlreiche andere Anwendungsfelder ausdehnen und wird als frühzeitige Emotionserkennung beworben, z.B. für das Gesundheitswesen, in Bildungseinrichtungen, in der Kundenbetreuung und im Bereich der Automobilsicherheit.

Die Grenzen der künstlichen Emotionserkennung

Wie schon bei den Neuronalen Netzen muss alles Material der künstlichen Emotionserkennung in digitalisierter Form vorliegen. Was sich nicht digitalisieren lässt, bleibt draußen. Wir Menschen bilden uns zumindest ein, über ein wesentlich breiteres Wahrnehmungsspektrum zu verfügen. Wenn wir in Bruchteilen von Sekunden Sympathie oder Antipathie für einen uns bisher unbekannten Menschen empfinden, ist das nicht allein digital erklärbar, sondern es spielen eine Menge analoger Eindrücke eine Rolle. Die Technikbegeisterten würden sagen , dass deren digitale Erfassung nur eine Frage der Zeit ist. Durch zusätzliches Gerät würden sich auch die derzeit für Computer noch unzugänglichen Gerüche digital erfassen lassen. Schließlich kann man heute auch schon Gehirnwellen in meterweitem Abstand messen und in absehbarer Zukunft womöglich als Gedankenlesen verkaufen. Wir verzichten an dieser Stelle lieber auf eine Bewertung von solcherart Optimismus.

Wie grundsätzlich bei der Technik Neuronaler Netze hängt alles von der großen Menge und der Qualität der Daten ab. Im Unterschied zu Texten stellt bei Video- oder Tonmaterial, das Aufschluss über Emotionen geben soll, der Zugang zu geeignetem Testmaterial und insbesondere die daraus getroffene Auswahl für das Training ein zusätzliches Problem dar.

Hinzu kommt, dass der Schwerpunkt der Entwicklung für die uns zugänglichen Softwareprodukte bei US-amerikanischen Konzernen liegt. Ihre Systeme können zwar Deutsch, Französisch, Italienisch „verstehen“, aber bei Finnisch wird es schon problematisch. Vor allem ihr „Denken“ bleibt im wesentlichen US-amerikanisch.

Die Methoden der Filterung und Aufbereitung der Daten sind bisher wenig bis kaum unter dem Gesichtspunkt von Manipulation und Zensur diskutiert worden. Ebenso wenig kann man sich auf transparente Methoden-Richtlinien berufen. Heimliche Vorurteile und Verzerrungen sind schon von textorientierten Modellen als sog. Bias hinreichend bekannt und werden sich bei der Emotionserkennung und -präsentation in anderer Form wiederholen.

Nicht zu unterschätzen sind ebenfalls die Interessen der Systemanbieter. Nur wenige Firmen können sich den immensen Aufwand für das Sammeln und Aufbereiten der Daten und für das Training der Systeme leisten. Sie betreiben schließlich keine öffentlich finanzierte und kontrollierte Infrastruktur, sondern werden darauf achten, dass ihre kommerziellen Interessen nicht zu kurz kommen.

Diese Hinweise mögen genügen, um zu begründen, dass Vorsicht im Umgang mit den Systemen der künstlichen Emotionserkennung geboten ist.

Humanoide Maschinen

Das Spektrum künstlicher Wahrnehmung lässt sich durch Biosensoren erweitern. Die sog. wearables können Pulsfrequenz, Blutdruck, Hautleitfähigkeit und sicher in naher Zukunft schon eine Reihe weiterer Impulse registrieren und gemäß dem Stand aktueller medizinischer Erkenntnisse interpretieren. Bringt man diesen multimodalen Mix zusammen, so hat man die entscheidenden Zutaten für den Bau von Robotern mit künstlichen Gehirnen. Sie bestehen nicht mehr aus Blech und Kunststoff und lassen sich mit Materialien ausstatten, die nartürlichem Gewebe immmer mehr ähneln. Ihre künstliche Haut kann mit verschiedenartigen Sensoren gespickt werden. Für besondere Anlässe lassen sie sich auch auf 37°C-Körpertemperatur aufheizen.

Große Hoffnungen für die Einsatzbereiche solcher Geräte bestehen für das weite Feld menschlicher Dienstleistungen im Gesundheits- und Pflegebereich. Als neuer Trend zeichnet sich dabei ab, Systeme, speziell Roboter zu entwickeln, die Menschen zu Gesprächspartnern werden, mit denen sie sich befreunden können und ihnen sogar als Liebes- oder Sexpartner zu Diensten stehen. Im Unterschied zu früheren Sexpuppen bleiben sie nicht passiv, sondern können eigenständige Aktivitäten suggerieren, verfügen über ein zwar bescheidenes aber immerhin vorhandenes Repertoire an unterschiedlichen Handlungsmöglichkeiten. Sogar eine gewisse Lernfähigkeit können sie mit ihren vorprogrammierten Verhaltensaktivitäten vortäuschen, abhängig davon, was man mit ihnen unternimmt.

Verdrehte Empathie

Wenn auch humanoide Systeme kein eigeninitiatives Verhalten und keine Anzeichen eigener mentaler Zustände oder emotionaler Bedürfnisse zeigen, so können sie dennoch den Eindruck erwecken, eigenständig zu handeln. Somit erscheint es nicht verwunderlich, dass auch umgekehrt Menschen Empathie oder sogar Gefühle für die solcherart ausgestatteten Maschinen entwickeln.

Ein früher Vorläufer war das Tamagotchi, ein aus Japan stammendes Spielzeug, das sich wie ein pflegebedürftiges Küken verhielt, eigene Bedürfnisse signalisierte, regelmäßige Pflege reklamierte und starb, wenn es zu sehr vernachlässigt wurde. Im Unterschied zum realen Leben konnte man ihm per Reset-Knopf ein neues Leben einhauchen.

Bekanntlich liebt die Presse Sensationen mehr als die oft langweilig erscheinende Tagesaktualität. Deshalb wundert auch nicht, wenn sich die Diskussion über Einsatzgrenzen humanoider Roboter bei den Sexrobotern erhitzt. Wir heben uns diese Diskussion für einen späteren Beitrag auf.

Teil 2: Kritische Auseinandersetzung

Eine Beurteilung, wo der Einsatz künstlicher emotionserkennender Intelligenz hilfreich und begrüßenswert ist, erfordert eine Grenzziehung. Deshalb ist es nützlich, sich zuvor mit kritischen Aspekten auseinanderzusetzen. Beginnen wir mit der gesteigerten Überwachungseignung:

Perfektionierte Überwachung

Eine Nebenwirkung der Digitalisierung war schon immer die Überwachbarkeit so ungefähr aller Aktivitäten, die Menschen mit Hilfe von Computern ausüben. Big Data ermöglicht die Speicherung dieser Datenflut. Die Künstliche Intelligenz sorgt dafür - und das ist neu - dass diese Daten nun auch in Echtzeit auswertbar sind.

Wenn diese Systeme um Ergebnisse der Emotionserkennung erweitert werden, ergibt sich eine neue Dimension der Überwachungseignung, die neue Probleme für den Schutz der Privatsphäre auslöst, vor allem wenn hochsensible private Informationen über Emotionen ohne Wissen und Zustimmung der betroffenen Personen erfasst, auf Servern gespeichert und womöglich weiterverkauft werden und sei es auch nur zu Testzwecken. Sie sind auch für Werbezwecke überaus interessant.

Die schiere Möglichkeit dieser ausgedehnten Überwachungseignung in Echtzeit stellt eine neue Gefahrenstufe dar, denn oft wird etwas einfach schon deshalb gemacht, weil es möglich ist.

Wenn hier schwerwiegende Verstöße gegen das Selbstbestimmungsrecht der betroffenen Personen vermieden werden sollen, sind klare Grenzziehungen erforderlich, in welchen Bereichen und unter welchen Bedingungen Systeme mit Emotionserkennung eingesetzt werden dürfen.

Erhöhte Manipulationsgefahr

Als Konsequenz aus der automatisierten Emotionserkennung wird ihr Verbot bei wichtigen Entscheidungen diskutiert, z.B. bei Bewerbungen, Eignungstests, Einstellungen, Personalbeurteilungen sowie in sensiblen sozialen oder politischen Kontexten. Ohne klare Grenzziehung ist eine Bedrohung der Intimsphäre, der persönlichsten Gedanken und Gefühle einschließlich der Sexualität nicht zu übersehen.

Darüber hinaus lassen sich solche Informationen zur Manipulation von Verhalten und speziell von Emotionen verwenden, wie das Beispiel Cambridge Analytica schon vor Jahren auf der Basis weit bescheidenerer Informationen gezeigt hat. Hierbei wurden persönliche Informationen zur gezielten Beeinflussung verwendet. Dieses sog Microtargeting soll nach Schätzungen von Sozialforschern zum Wahlerfolg von Donald Trump im Jahr 2020 beigetragen haben. Wenn die damals nur auf der Grundlage textlich vorliegender Informationen eine solche Wirkung hatten, kann man sich gut vorstellen, wie die Wirksamkeit bei der Erweiterung um emotionale Inhalte gesteigert werden kann.

Das Training vor allem der emotionalen Aspekte ist eine sehr aufwendige Angelegenheit und wird vermutlich in der Hand weniger Firmen bleiben, die dafür ausreichende Mittel einsetzen können. Neben der Monopolisierungstendenz besteht hier erhöhte Gefahr der Manipulation (Erhebung und Auswahl der Trainingsdaten, deren psychologische Bewertung, diverse Filtermethoden).

Fakenews und Fälschungen

Manipulationen von Informationen, die mit Systemen sogenannter emotionaler Intelligenz erstellt oder bearbeitet werden, sind heute schon als äußerst ernstzunehmende Bedrohung des gesamten digitalen Geschäftes erkannt und stellen ein schnell wachsendes Feld dar. Über Security ist vieles schon gesagt worden. Wie man jetzt die infolge KI gesteigerten Gefährdungen mit KI-Gegenmitteln bekämpfen will, läutet eine neue Runde der Austreibung des Teufels durch Beelzebub ein.

Bevor man sich Gedanken über sinnvolle und unerwünschte Einsatzmöglichkeiten in sozialen Bereichen macht, ist es nützlich, sich prinzipielle Grenzen der Leistungsfähigkeit technischer Systeme bewusst zu machen.

Dies betrifft die mangelnden Fähigkeiten künstlicher Systeme zu einer autonomen Wahrnehmung, zur Empfindung von Gefühlen sowie zu autonomen Gefühlsaktionen.

Fehlende Fähigkeit autonomer Wahrnehmung

Trotz beachtlicher Leistungen in der Emotionserkennung darf nicht übersehen werden, dass die Systeme immer eines von außen gesteuerten Inputs bedürfen. Sie können ihre Aufmerksamkeit nicht aus eigenem Antrieb auf Objekte oder Ereignisse richten. Sie benötigen dazu gezielte Impulse von außen oder programmgesteuerte Abläufe. Das sog. Autonome Fahren funktioniert nur in einer sensorgespickten Umgebung im Rahmen vorprogrammierter Zielsetzungen. Das Wissen um diese Grenzen sollte uns vor überzogenen Erwartungen bewahren.

Fehlende Gefühlsfähigkeit

Wenn Menschen gut drauf sind, verfügen sie gleichzeitig und gleichwertig über Verstand, Gefühl und Körper. Gefühle sind für uns die stärkste und nachhaltigste Codierung von Erfahrungen. KI-Systeme müssen da passen. Sie verfügen nur über die kognitive Seite des Wissens und können Gefühle nur mit kognitiven Mitteln beschreiben bzw. mit Bild- und Tonbeispielen illustrieren. Sie verfügen über keine Fähigkeit des Mitfühlens. Folglich sind ihre Reaktionen auf registrierten Wahrnehmungen und Emotionen nur Simulationen empathischer Anteilnahme. Diese grundsätzlichen Grenzen der Leistungsfähigkeit künstlicher Systeme sollten uns bewusst bleiben.

Geheuchelte Anteilnahme

Soweit künstliche empathische Systeme Reaktionen zeigen, die sich als Mitgefühl oder Anteilnahme interpretieren lassen, sollte man sich im Klaren sein, dass es sich nur um simuliertes Empfinden handelt. Ihr Verhalten bleibt auf ein Reiz-Reaktions-Schema begrenzt.

Wenn umgekehrt Menschen Gefühle für solche KI-Systeme entwickeln, so sind es Gefühle für Objekte. Das wird zum Problem, wenn diese Objekte Menschen simulieren, wie dies bei humanoiden Robotern der Fall ist, die sich z.B. als Pflege-, Liebes- oder sogar Sexpartner anbieten lassen. Bei Letzteren wird das Problem besonders deutlich. Sexroboter stellen fast ausschließlich simulierte Frauen dar, die Männern als Objekte zur Verfügung gestellt werden. Die Anbieter solcher „Gadgets“ scheuen sich nicht, ihre Produkte noch als therapeutische Hilfen für Menschen (bzw. Männer) mit Beziehungsstörungen oder sexuellen Problemen zu positionieren.

Ein echtes „Liebesobjekt“ dagegen fordert eine Beziehung auf Augenhöhe, eine Beziehung, die mit Respekt für die Gefühle und Bedürfnisse der Partnerperson verbunden ist. Diese Fähigkeit besitzt ein künstliches Objekt nicht.

Statisches Gedächtnis ohne Vergessen

Computer haben keine Fähigkeit zu autonomem Vergessen. Sie lassen sich am Ende immer auf Bit an - Bit aus reduzieren. Ihre gespeicherten Daten sind immer im Zugriff. Dies wird bekanntlich als ihre den Menschen überlegene Stärke gerühmt.

Die menschliche Fähigkeit des Vergessenkönnens ist abgesehen von manchmal bedauerlichen Nebenwirkungen eine unverzichtbare mentale Leistung, nämlich die Selektion nach Relevanz. Was dagegen die LLMs, die großen Sprachmodelle, in ihrem Basistraining als Vokabular aufgebaut haben, ist ihr immer zugängliches „Gedächtnis“, das sich nicht ändert. Ganz anders als bei uns Menschen bleibt alles erhalten, nichts wird vergessen.

Das Computergedächtnis ist per hartem Schnitt mit Ende des Basistrainings erworben und wird durch sog. Online-Trainings in bestimmten Zeitabschnitten aktualisiert. Die Anbieter legen diese Zeitabschnitte fest. Die Aktualisierung erfolgt durch kurze Zusatztrainings mit - ebenfalls von den Anbietern ausgewählten - Daten.

Im Unterschied zum menschlichen Gedächtnis erfolgt die Aktivierung nicht kontinuierlich und vor allem nicht durch autonome Erfahrung. Das Computerwissen bleibt ein statisches Wissen, das in mehr oder weniger kurzen Intervallen auf einen neuen, erweiterten Stand gebracht wird.

Prozeduren zur Bereinigung dieses künstlichen Gedächtnisses sind schwierig zu handhaben. Chronologie und Zugriffshäufigkeit lassen sich zwar als Kriterien für das programmgesteuerte Löschen von Daten verwenden, aber stellen keine Bereinigung nach Relevanz dar.

Dialogunfähigkeit im Wissenserwerb

Fortschritt entsteht meist im Dialog und zuweilen auch im Streit aus dem Aufeinandertreffen unterschiedlicher Gedanken und Gefühle. Das Gedächtnis der großen Sprachmodelle ist dagegen die Sammelstelle allmöglicher einmal geäußerter und in digitale Form gebrachter Gedanken. Gefühle sind nur in Form digitaler (meist sprachlicher) Beschreibung zugänglich, entbehren also jeglicher „Echtheit“. Was die Systeme ihren Benutzern sagen, beruht letztenendes nur auf Statistik und Wahrscheinlichkeitsrechnung.

Bewertungen der „Computergedanken“ nach Relevanz oder gar Wahrheit sind - wie auch immer geartet - nur als Manipulation möglich. Darin liegt eine große Versuchung für die Herren der Systeme, die Big-Tech-Companies - und natürlich auch für die Politik.

Versagende Selbststeuerung

Der Soziologe Niklas Luhmann hat der Selbsteuerung der Wissenschaft seinerzeit ein eigenes Werk gewidmet (1968). Wir durften sehen, spätestens seit der Corona-Pandemie, dass es mit dieser Selbststeuerung nicht weit her ist, wenn es der Politik gelingt, sich die Wissenschaft zum Büttel zu machen und kontroverse Diskussionen - ehemals der Motor des Fortschritts - einfach verbieten oder unter Sanktionen stellen kann.

Die großen Sprachmodelle, verstärkt um die Fähigkeit der Emotionssimulation, sind für politische Systeme ein verlockendes Instrumentarium der Manipulation. Gleiches gilt natürlich für die Herren der Systeme, solange die Konzentration von Macht und Geld über diese Herrschaft bestimmt. Schutz dagegen bietet nur eine allzeit wache Demokratie. Vor deren Beschädigung sollte man mehr Angst haben als vor einer künstlichen Superintelligenz mit der Kapazität, die ganze Menschheit zu vernichten, vor der Nick Bostrom, aber auch Elon Musk und einige Granden der Künstlichen Intelligenz warnen.

Die bisher geschilderten Aspekte betrafen die Leistungsfähigkeit der künstlichen Systeme unter dem Aspekt der Einbeziehung simulierter Gefühle. Wie man sieht, gehört differenziertes Wissen dazu, diese Simulation nicht für Echtheit zu halten. Unsere Bildungssysteme tragen zum Erwerb kritischen Wissens wenig bei. Trotzdem finden die Systeme reichlich Anwendung, im privaten Umfeld vermutlich sogar weit mehr als in der Arbeitswelt.

Wachsende Abhängigkeit von den Geräten

Es ist ein begrüßenswerter Vorteil, wenn man per Sprache einem Computer mitteilen kann, was man von ihm will und nicht alles selber eintippen muss - eine Steigerung von Komfort und Schnelligkeit. Die Bedeutung der Gerätschaften für die Menschen - sowohl privat wie auch in der Arbeitswelt - hat schon durch die Digitalisierung einen ersten Schub erhalten. Die Künstliche Intelligenz sorgt für einen weiteren noch viel größeren Schub. Die jetzt neue „Emotionalisierung“ des Umgangs mit den Geräten wird zur Folge haben, dass die Menschen noch mehr Zeit mit ihnen verbringen. Was weiter bedeutet, dass auch die Abhängigkeit von den Geräten weiter steigt. Wir haben uns zu fragen, in welchem Ausmaß wir dies wollen.

Verlust von Qualifikationen

Viele bisher teils außerordentlich mühsame Sachen sind durch einfache Handhabung ebenfalls einfach geworden. Ein gutes Beispiel sind die Navigationsfunktionen, die viele Softwaresysteme bieten. Die Kehrseite ist natürlich - mal abgesehen vom Niedergang der Landkartenindustrie - der Verlust der Fähigkeit, mit Landkarten einen Weg zu finden. Beispiele dieser Art lassen sich zahlreich finden. Das ist alles kein Drama, fördert aber eine gewisse Alltagsuntauglichkeit, sollten die Geräte einmal nicht mehr zur Verfügung stehen.

Die wachsende Fixierung auf die Geräte macht aber auch etwas mit unserer Fähigkeit zur Aufmerksamkeit. Manfred Spitzer hat schon vor Jahren in seinem Buch Cyberkrank auf die Folgen von Aufmerksamkeitsstörungen und in einem späteren Werk auf zunehmende Einsamkeitsphänomene hingewiesen. Er hat im Herbst 2023 zwar ein neues Buch mit dem Titel Künstliche Intelligenz herausgebracht, aber nur wenig über die mentalen Folgen der neuen Technik geschrieben. Wir warten also geduldig auf sein nächstes Buch.

Es gibt zurzeit nur sehr wenige Studien über den Einsatz der neuen Tools für Qualifizierungsprozesse im Arbeitsleben. Eine schwedische Forschergruppe beispielsweise hat festgestellt, dass Chatbots als Unterstützung in Lernprozessen durchaus Vorteile bringen und sogar als Inspirationsquelle bei Brainstormings nützlich sein können, allerdings mit dem Nachteil, dass die Kommunikation in den Teams sich verringert hat.

Die Vernachlässigung medialer Kompetenz in unserem Bildungswesen ist Dauerbrenner für öffentliche Klagelieder. Experimente alternativer Pädagogik wie z.B. die Alemannenschule Wutöschingen, hier nur beispielhaft genannt, sind erfreulich aber leider selten.

Wir werden vermehrt darauf zu achten haben, uns die Fähigkeit zur Aufmerksamkeit (und damit auch zur Achtsamkeit) zu erhalten.

Reduzierung sinnlicher Wahrnehmung

Künstliche Emotionalität lässt alles viel echter aussehen. Das wird die Einsatzfelder der Technik schnell erweitern. Sich z.B. wunderschöne Urlaubswelten ansehen und sich darin auch noch interaktiv bewegen zu können, wird sicher als ein Fortschritt begriffen, wenn man sich die teure Reise nicht leisten kann. Doch es ist ein Unterschied, ob man Freude selber erlebt oder nur anschaut bzw. präsentiert bekommt. Der Blick auf den Bildschirm schickt sich an, immer mehr Anteile eigenen Erlebens durch digitale Präsentationen und Simulationen zu ersetzen.

Darüber hinaus engen die wachsende Bindung an die Geräte und der zunehmende zeitliche Anteil der Systemnutzung den Spielraum eigenen Erlebens und eigener Erfahrung immer mehr ein. Vermutlich hat jeder von uns schon die Erfahrung gemacht, wider besseren eigenen Wissens eher den Geräten zu vertrauen als dem eigenen Kopf (z.B. im Umgang mit Navigationssystemen).

Unmittelbare Kontakte der Menschen untereinander werden seltener. Das gilt nicht nur für das Arbeitsleben, sondern betrifft auch den privaten Bereich. Der Pegel quantitativer Kontaktlosigkeit wird steigen, Tempo schwer abzuschätzen, Trendwende ungewiss.

Die Folge: Die Kopflastigkeit unserer erlebten Welt wird zunehmen, eigene Erfahrungen, Empfindungen und Erlebnisse treten zurück. Gefühle werden beschrieben statt erlebt. Gespräche finden vermehrt im digitalen Raum durch elektronische Vermittlung statt. Wer darin keinen Verlust von Lebensqualität sieht, sollte sich fragen, warum ausgerechnet die Big Bosse und Cracks der großen Digitalkonzerne ihre Kinder zu Montessori- und Waldorfschulen schicken.

Die geschilderten Veränderungen erfolgen nicht per Paukenschlag, eher schleichend, in immer wieder neuen kleinen Schritten und zurzeit noch in einem sehr hohem Tempo. Hat man sich sachkundig gemacht, gilt das einen Monat später schon nicht mehr. Die Entwicklung präsentiert von sich aus keine roten Linien, an denen man Halt sagen könnte. Diese Entscheidung müssen wir selber treffen.

Statt eines Schlusswortes

Die Technik der Künstlichen Intelligenz und ganz besonders der Künstlichen Empathie ist sehr neu. Man kann sagen, sie hat uns förmlich überrumpelt. Vieles wird gemacht erstens einfach weil es möglich ist und zweitens weil es neue Geschäftsfelder eröffnet - oder umgekehrt. Die Grenzen zwischen Nutzen und Schaden werden grauer, undeutlicher. Grenzüberschreitungen lassen sich nur schwer korrigieren bzw. zurücknehmen, wie am Beispiel der gesteigerten Überwachungsmöglichkeiten besonders deutlich wird.

Entsprechend bescheiden sind noch die Erfahrungen mit der neuen Technik. Den Stein der Weisen, um belastbare Vorschläge zu machen, was den individuell und gesellschaftlich wünschenswerten Umgang betrifft, hat noch niemand gefunden. Was wir aber tun können, sind die Fragen zu formulieren, die schnell eine politische, gesellschaftliche und auch individuelle Anwort erfordern.

zurück zu Teil 1 Teil 2

tse • Dr. Karl Schmitz

Juni 2024