KI-Agenten mit Zusatzwissen: Studie zeigt deutliche Lücke zwischen Versprechen und Praxis

Eine neue Studie mit über 34.000 realen „Skills” erschüttert den Optimismus rund um modulare KI-Agenten: Unter praxisnahen Bedingungen verpufft der versprochene Mehrwert – und schwächere Sprachmodelle werden durch die Erweiterungen sogar aktiv schlechter.

KI-Agenten mit Zusatzwissen: Studie zeigt deutliche Lücke zwischen Versprechen und Praxis

Was sind Agent Skills – und warum gelten sie als vielversprechend?

KI-Agenten werden in Unternehmensumgebungen zunehmend nicht nur als einzelne Modelle eingesetzt, sondern mit sogenannten Skills ausgestattet: modularen Erweiterungen, die dem Agenten zusätzliches Fachwissen oder spezifische Fähigkeiten bereitstellen sollen. Das Prinzip ähnelt einem Plugin-System – der Agent ruft bei Bedarf die passende Erweiterung ab, um eine Aufgabe zu lösen.

In Benchmark-Tests unter kontrollierten Bedingungen schnitten solche Systeme bislang vielversprechend ab, was zu entsprechend hohen Erwartungen in der Branche geführt hat.

Ernüchternde Ergebnisse unter realistischen Bedingungen

Die aktuelle Studie, die einen Datensatz mit mehr als 34.000 realen Skills verwendet, zeichnet ein deutlich nüchterneres Bild. Sobald die Testbedingungen näher an der Praxis liegen – etwa durch eine große Anzahl verfügbarer Skills, unklare Aufgabenstellungen oder mehrstufige Workflows – verlieren die Erweiterungen ihren Nutzen weitgehend.

Das zentrale Problem liegt im Retrieval: Damit ein Agent den richtigen Skill auswählt, muss er diesen aus einer potenziell riesigen Sammlung korrekt identifizieren und abrufen – genau diese Abrufqualität bricht unter realistischen Bedingungen ein.

Besonders problematisch ist der Befund für kleinere oder schwächere Large Language Models. Diese profitieren nicht nur nicht von den zusätzlichen Skills, sondern werden durch das Rauschen irrelevanter oder falsch ausgewählter Erweiterungen in ihrer Leistung messbar beeinträchtigt. Leistungsstarke Modelle zeigen zwar eine höhere Robustheit, erreichen aber ebenfalls keine signifikante Verbesserung gegenüber dem Betrieb ohne Skill-Erweiterung.

Methodische Schwäche bisheriger Benchmarks

Die Studie legt nahe, dass ein erheblicher Teil des bisherigen Optimismus auf methodisch schwache Evaluierungen zurückzuführen ist. Viele Benchmarks testen KI-Agenten mit einer kleinen, überschaubaren Zahl von Skills unter idealisierten Bedingungen – ein Szenario, das in produktiven Unternehmensumgebungen selten vorkommt.

Unternehmen, die KI-Agenten in der Praxis einsetzen, müssen häufig Hunderte oder Tausende von Prozessen, Datenquellen und Schnittstellen abbilden. Genau diese Komplexität überfordert aktuelle Retrieval-Mechanismen.

Die Qualität der Skill-Beschreibungen ist ein weiterer kritischer Faktor: Unklare oder inkonsistente Dokumentation führt zu Fehlauswahlen, die sich entlang einer mehrstufigen Agenten-Pipeline aufschaukeln können.

Kein Widerspruch zum Einsatz von KI-Agenten – aber ein Aufruf zur Präzision

Die Studie stellt den Einsatz von KI-Agenten in Unternehmen nicht grundsätzlich infrage, fordert aber eine realistischere Bewertung aktueller Fähigkeiten. Verbesserungsbedarf besteht vor allem bei:

Retrieval-Design unter realistischer Skill-Last
Qualitätssicherung von Skill-Beschreibungen
Modellauswahl in Abhängigkeit vom konkreten Anwendungsfall

Für Unternehmen, die KI-Agenten evaluieren oder bereits pilotieren, liefert die Studie einen wichtigen Hinweis: Benchmark-Ergebnisse aus kontrollierten Laborsettings lassen sich nicht direkt auf produktive Umgebungen übertragen.

Der Reifegrad der Technologie lässt sich am verlässlichsten am eigenen Anwendungsfall – und nicht an Herstellerversprechen – ablesen.

Quelle: The Decoder