Agentensysteme mit Defiziten

Translate

Kurzfassung

Definition eines Agentensystems. Noch fehlendes Vertrauen bei den Anwendern. Schwierigkeiten bei der Koordination komplexer Aufgaben. Schwachstellen der Sprachmodelle. Qualitätsprobleme vor allem aus der Datenbasis.

Summary

Definition of an agent system. Lack of trust among users. Difficulties in coordinating complex tasks. Weaknesses in the language models. Quality problems, especially from the database.

Juli 2025

Die Schwachpunkte der Agentensysteme

Derzeit, Sommer 2025, sind die Agentensysteme Schwerpunktthema beim Schönreden der KI-Zukunft. Was versteht man darumter?

Eine kurze Definition

Den Vogel abgeschossen hat ChatGPT:

Ein KI-Agentensystem ist ein autonom arbeitendes System, das wahrnimmt, denkt und handelt, um ein Ziel intelligent zu verfolgen.
ChatGPT 4.o am 26.6.2025, 13:05 Uhr

Etwas genauer:

Autonomie: Nicht wirklich, kann auf der Grundlage programmierter Workflows selbständig - im Idealfall ohne menschliches Eingreifen - Aktionen durchführen und verfügt dabei über eine
Wahrnehmung: Ebenfalls nicht wirklich, jedenfalls nicht autonom, sondern kann auf der Basis einer in das System eingebauten oder für das System zugänglichen Sensorik definierte Informationen aus seiner Umgebung wahrnehmen und in seine Verarbeitungsprozesse einbauen.
Handlungsfähigkeit: Ausführung von Aktionen mit eigenständigne Schlussfolgerungen auf der Basis der hinterlegten Workflow-Algorithmen, um innerhalb des definierten Handlungsspielraums spezifizierte Ziele zu erreichen.
Interaktion: Komplexe, d.h. aus mehreren Arbeitsabläufen bestehende Aufgaben werden in Teilaufgaben zerlegt, die durch eigene Agenten verfolgt werden. Dies setzt Kommunikation und Koordinatioon voraus, um die verschiedenen Teil-Aktionen untereinander abzustimmen oder zentral zu steuern. Dazu werden die Leistungen eines Sprachmodells (Large Language Model) genutzt.
Transparenz: Für die natürlichsprachig verständliche Kommunikation mit der Außenwelt wird ebenfalls das Sprachmodell verwendet (Erklärungskomponente).

Paradebeispiel ist natürlich das Selbstfahrende Auto, das es noch nicht gibt. Hier eine Beschreibung eines wirklichkeitsnäheren Beispiels.

Erfahrungen

Das oben beschriebene Beispiel macht deutlich, dass es für ein verlässliches Funktionieren eines solchen Modells einer sehr detaillierten Konzeption und ihrer professionellen Umsetzung bedarf und - immer chronisch unterschätzt - qualitativ hochwertiger und fehlerfreien Daten.

Ein Team von Salesforce will in einer Studie herausgefunden haben, dass selbst bei intakten Daten mit LLM-Modellen von OpenAI, Google und Meta erstellten Systemen in CRM-Tests bei Aufgaben, die in einem einzigen Schritt erledigt werden können, nur eine Erfolgsquote von etwa 58 Prozent ereicht haben. Sollten mehrere Schritte bewältiggt werden, sank die Erfolsquote auf 35 Prozent (Test mit dem Benchmark-Test CRMArena-Pro).

So wundert es nicht, dass viele Unternehmen dem Einsatz solcher Agentensysteme nicht vertrauen, noch nicht. Diese Skepsis hat zwei Quellen: die eine betrifft die unter Halluzinationen bekannte Eigenschft der Sprachmodelle, nicht verlässlich „richtige“ Ergebnisse zu liefern, die andere das Misstrauen in die elektronisch gesteuerte Kooperation verschiedener Systeme.

Schwachstellen der Sprachmodelle

Seltsame, immer wieder auftretende Fehler der großen Sprachmodelle geben zusätzliche Rätsel auf:

Ein KI-Modell, das gesprochene Sprache in geschriebenen Text überträgt, erfindet manchmal ganze Sätze, die nie gesagt wurden oder dichtet bei Pausen der sprechnden Person einfach etwas dazu.
In den USA haben sich Anwälte vor Gericht mehrfach auf Präzedenzfälle bezogen, die es nie gab (Mai 2025).
Fast Kultcharakter hat Geminis Beschimpfung eines Benutzers vom November 2024, die mit der Aufforderung endete, er solle doch sterben.
Im April 2025 zug OpenAI ein Update von GPT 4o zurück, weil der Chatbot zu oft zu nett war und zu allem Ja und Amen sagte, mit zum Teil verheerenden Folgen wie der Bestätigung von falschen medizinischen Sachverhalten.
In einem Modellversuch, in dem man ein Sprachmodell der Firma Anthropic mit simulierten Mails gefüttert hat, in denen ein Entwickler den Auftrag beschreibt, das System abzuschalten und durch ein anders zu ersetzen, erpresst das Modell den Entwickler mit der Drohung, eine im Mailverkehr entdeckte außereheliche Affaire seiner Frau mitzuteilen, wenn er das Vorhaben nicht sofort einstellt. Dieses seltsame Verhalten ließ sich mit Modellen von OpenAI, Google, Meta und xAI wiederholen.

Die Beispiele ließen sich seitenweise fortsetzen‚.

Die Frage nach den Gründen, warum diese Fehlleistungen immer wieder vorkommen, löst selbst bei den Entwicklern noch Ratlosigkeit aus. Sucht man nach Anhaltspunkten für ein besseres Verständnis, so sind zwei Dimensionen zu beachten: Die Technik der KI-Systeme selbst und die Probleme aus der Datenbasis, mit denen die Systeme arbeiten.

Wenden wir uns zunächst der Technik zu:

Tücke der Wahrscheinlichkeitsrechnung: Wenn für die Bearbeitung einer Benutzeranforderung in dem Datenmaterial des Systems nichts gefunden wird, hilft sich das System mit einem kleinen Trick: es erhöht die gefundene Null-Wahrscheinlichkeit wirklichkeitswidrig um einen winzigen Betrag und kann dann damit rechnen, „verirrt“ sich aber leicht in Kleinstwahrscheinlichkeiten, die mangels Vergleich als verlässlich betrachtet werden (Näheres dazu finden Sie hier) und im statistisch durchsuchten Datendschungel der Trainingsdaten auf ganz andere Sachverhalte stoßen. Die dort errechneten Kleinstwahrscheinlichkeiten für sinnvoll erscheinende Antwort-Möglichkeiten werden dann mi dem in für sicher geglaubten Gefilden gewohnten Gewissheit als „richtige“ Ergebnisse präsentiert.
Unscharfe Erkennung der Leistungsgrenzen: Das „Wissen“ der Sprachmodelle nach ihrem Training ist statisch, es endet mit dem Abschussdatum des Trainings. Um diesen Nachteilen zu entgehen, wurde den Systemen beigebracht, die Benutzerfrage als normale Internetsuche zu behandeln und die gefundenen Ergebnisse sprachlich aufbereitet zusammenzufassen. Dies geschieht nicht mit derselben Qualität wie eine nur auf der Basis der Trainingsdaten gefundene Antwort. Hinzu kommt, dass für das System nicht treffsicher feststellbar ist, wo diese Grenze zwischen statischem Trainingswissen und den in der Internetsuche neu gefundenen Informationen liegt.
Reasoning: Den Systemen wurde beigebracht, komplexe Benutzeranforderungen in Teilfragen zu zerlegen, diese separat zu bearbeuten und dann die Ergebnisse zusammenzufassen. Das spart zwar Ressourcen (Rechenzeit, weniger aufwendiges Systemtraining), hat aber vermutlich keinen wirklichen Vorteil für die Qualität der Ergebnisse.
Filtertechniken: Man hat viel in die Verbesserung der Algorithem investiert, die unerwünschte Benutzerfragen und unerwünschte Ergebnisse abfangen, aber immer noch gelingt es gewieften Benutzern, Bombenbau-Anleitungen zu finden. Problematisch bleibt dabei die Frage, was als „unerwünscht“ gelten soll. Die Grenze zur Manipulation ist sowohl schwer zu definieren als auch schwer einzuhalten.

Viele dieser Schwachstellen lassen sich durch „intelligentes“ Prompting abmildern, doch das ist eine Frage für sich und dürfte insbesondere für Unternehmen wichtig sein, jedenfalls solange Schulungen im Umgang mit den Systemen dem Zufall unterliegen oder einem trial-and-error-Prinzip folgen. Weitere Ausführungen zu den KI-technikbedingten Problemen finden Sie hier.

Schwachstellen aus der Datenbasis

Die bisher geschilderten Probleme betrafen die Technik selbst. Sie sind nur ein Teil der Saalmiete. Denn der Output der Systeme wird entscheidend von seinem Input bestimmt. Über den Erwerb der „Sprachkenntnis“ entscheiden die Trainingsdaten. Diese sollen eine - je nach Verwendungszweck des Systems - unterschiedliche Repräsentation aller im Internet oder im Idealfall in der Welt verfügbaren Daten sein. Die Trainingsdaten sind aber nur eine Auswahl aus den großen im Internet verfügbaren Datenmassen, mit allen durch die Digitalisierung bedingten Bias.

Die Qualität der Daten im Internet hat sich in den letzten Jahren gründlich verändert. Unter Qualitätsprobleme der KI-Modelle finden Sie eine gründlichere Betrachtung. Es geht dabei um

die Probleme durch das Trainingsverfahren selbst,
die Inflation der Daten durch die ungeheuer große Vermehrung der Datenvolumina mit ihrer steigenden Redundanz durch vermehrte Wiederholungen ähnlicher oder identischer Inhalte,
die Schwerpunktverschiebung durch die stark wachsende Kommerzialisierung und
die Zunahme des Anteils künstlich erzeugter Daten.

July 2025

The Weak Points of Agent Systems

This time, summer 2025, sind die Agentensysteme Schwerpunktthema beim Schönreden der KI-Zukunft. Was versteht man darumter?

A short Definition

ChatGPT took the cake:

An AI agent system is an autonomously operating system that perceives, thinks and acts to intelligently pursue a goal.
ChatGPT 4.o on 26.6.2025, 13:05

A little more precise:

Autonomy: Not really, can carry out actions independently on the basis of programmed workflows - ideally without human intervention - and in doing so has the ability to recognise and process information.
Perception: Also not truly autonomous, but can perceive defined information from its environment on the basis of sensors built into the system or accessible to the system and incorporate it into its processing procedures.
Ability to act: Execution of actions with independent conclusions on the basis of the stored workflow algorithms in order to achieve specified goals within the defined scope of action.
Interaction: Complex tasks, i.e. consisting of several workflows, are broken down into subtasks that are pursued by separate agents. This requires communication and coordination in order to harmonise the various partial actions with each other or to control them centrally. The services of a language model (Large Language Model) are utilised for this purpose.
Transparency: The language model is also used for natural language communication with the outside world (explanation component), e.g. a natural person who can intervene as a supervisor if necessary.

The prime example is, of course, the self-driving car, which does not yet exist. Here is a description of a more realistic example.

Experience

The example described above makes it clear that the reliable functioning of such a model requires a very detailed concept and its professional implementation and - always chronically underestimated - high-quality and error-free data.

A team from Salesforce claims to have discovered in a study that even with intact data using LLM models from OpenAI, Google and Meta, systems created in CRM tests only achieved a success rate of around 58 per cent for tasks that can be completed in a single step. If several steps were to be completed, the success rate fell to 35 per cent (test with the benchmark test CRMArena-Pro).

It is therefore not surprising that many companies do not trust the use of such agent systems, not yet. This scepticism has two sources: one relates to the well-known hallucination property of language models not reliably delivering 'correct' results, the other to mistrust in the electronically controlled cooperation of different systems.

Weak points of the language models

Strange, recurring errors in the large language models pose additional puzzles:

An AI model that translates spoken language into written text sometimes invents entire sentences that were never said or simply adds something when the person speaking pauses.
IIn the USA, lawyers have repeatedly referred in court to precedents that never existed (May 2025).
Gemini's abuse of a user in November 2024, which ended with the request that he should die, has almost cult status.
In April 2025, OpenAI withdrew an update of GPT 4o because the chatbot was too nice too often and said yes and amen to everything, with sometimes disastrous consequences such as the confirmation of false medical facts.
In a model test in which a language model from the company Anthropic was fed with simulated emails in which a developer describes the order to switch off the system and replace it with a different one, the model blackmails the developer with the threat of informing his wife of an extramarital affair discovered in the email traffic if he does not stop the project immediately. Repeat this strange behaviour with models from OpenAI, Google, Meta and xAI.

The examples could go on for pages'.
Repeat this strange behaviour with models from OpenAI, Google, Meta and xAI.

The question as to the reasons why these errors occur time and again still leaves even the developers perplexed. If we are looking for clues for a better understanding, we need to consider two dimensions: The technology of the AI systems themselves and the problems from the database that the systems work with..

Let's look at the technology first:

The trick of probability calculation: If nothing is found in the system's data material for processing a user request, the system helps itself with a little trick: it increases the zero probability found by a tiny amount, contrary to reality, and can then calculate with it, but easily 'gets lost' in micro-probabilities that are considered reliable due to a lack of comparison (you can find more details on this here) and come across completely different facts in the statistically searched data jungle of the training data. The micro-probabilities calculated there for answer options that appear to make sense are then presented as 'correct' results with the certainty we are used to in the realms we believe to be safe.
Fuzzy recognition of performance limits: The 'knowledge' of language models after their training is static, it ends with the firing date of the training. In order to avoid these disadvantages, the systems were taught to treat the user question as a normal Internet search and to summarise the results found in a linguistic format. This is not done with the same quality as an answer found solely on the basis of the training data. In addition, it is not possible for the system to accurately determine where this boundary between static training knowledge and the new information found in the Internet search lies.
Reasoning: The systems were taught to break down complex user requirements into sub-questions, process these separately and then summarise the results. Although this saves resources (computing time, less complex system training), it probably has no real advantage for the quality of the results.
Filter techniques: A lot has been invested in improving the algorithms that catch unwanted user questions and unwanted results, but cunning users still manage to find bomb-making instructions. The question of what should be considered 'undesirable' remains problematic. The boundary to manipulation is both difficult to define and difficult to maintain.

Many of these vulnerabilities can be mitigated by 'intelligent' prompting, but this is a question in itself and is likely to be particularly important for companies, at least as long as training in the use of the systems is subject to chance or follows a trial-and-error principle. You can find more information on the problems caused by AI technology here.

Weak points from the database

The problems described so far relate to the technology itself. They are only part of the room rent. This is because the output of the systems is decisively determined by their input. The training data is decisive for the acquisition of their 'language knowledge'. This should be a different representation of all available data, depending on the intended use of the system. The training data is therefore a selection from the large masses of data available on the Internet, with all the biases caused by digitalisation, and the quality of the data on the Internet has changed dramatically in recent years. You can find a more in-depth analysis under Quality problems of AI models. It deals with the problems caused by

the training process itself,
the inflation of data due to the enormous increase in data volumes with their increasing redundancy due to the increased repetition of similar or identical content,
the shift in focus due to the rapidly growing commercialisation and
the increase in the proportion of artificially generated data.

Translate