KI-Versprechen kritisch hinterfragen: Was Unternehmen bei der Anbieterauswahl beachten sollten

Wer KI-Lösungen einkauft, bewegt sich in einem Markt voller glänzender Versprechen – und kaum verbindlicher Standards. Die Fähigkeit, Marketing von messbarer Realität zu trennen, entscheidet zunehmend darüber, ob KI-Investitionen Wert schaffen oder Ressourcen verschwenden.

KI-Versprechen kritisch hinterfragen: Was Unternehmen bei der Anbieterauswahl beachten sollten

KI-Anbieter investieren erheblich in Marketing – und die Botschaften klingen oft überzeugender als die tatsächlichen Produkteigenschaften es rechtfertigen. Für Unternehmen, die KI-Lösungen beschaffen, wird die Fähigkeit, Marketingversprechen von belegbaren Leistungsmerkmalen zu trennen, zunehmend zur strategischen Kernkompetenz.

Zwischen Versprechen und Realität

Die großen KI-Unternehmen – darunter OpenAI, Google, Anthropic und Microsoft – verfügen nicht nur über technische Expertise, sondern auch über ausgereifte Marketingapparate. Begriffe wie „State-of-the-Art”, „führendes Modell” oder „enterprise-ready” werden in Pressemitteilungen und Produktpräsentationen inflationär verwendet, ohne dass einheitliche Messstandards dahinterstehen.

Benchmarks werden häufig so ausgewählt, dass das eigene Produkt vorteilhaft abschneidet – ein Phänomen, das Analysten als „Benchmark-Shopping” bezeichnen.

Hinzu kommt, dass Leistungsdaten oft unter kontrollierten Laborbedingungen erhoben werden, die mit dem produktiven Einsatz in Unternehmen wenig gemein haben. Ein Large Language Model, das auf einem standardisierten Test exzellente Ergebnisse liefert, kann in spezifischen Branchenanwendungen deutlich schlechter performen.

Typische Muster im KI-Marketing

Mehrere Muster lassen sich im Marktauftritt von KI-Anbietern regelmäßig beobachten:

Cherry-Picked Examples: Fähigkeiten werden anhand von Demonstrationen kommuniziert, die sorgfältig kuratierten Eingaben entsprechen.
Verschleierte Fehlerquoten: Die tatsächliche Fehlerrate in realen Anwendungen bleibt in Marketingmaterialien systematisch unterrepräsentiert.
Versteckte Folgekosten: Integrationsaufwand, Datenvorbereitung und laufende Wartungskosten werden selten transparent ausgewiesen.

Ein weiterer kritischer Punkt betrifft Sicherheits- und Compliance-Aussagen:

Begriffe wie „DSGVO-konform” oder „enterprise security” sind ohne konkrete technische und vertragliche Spezifikationen wenig aussagekräftig – und taugen nicht als Grundlage für eine Beschaffungsentscheidung.

Praktische Bewertungsansätze

Erfahrene IT-Entscheider empfehlen mehrere Schritte, um Anbieterversprechen systematisch zu überprüfen:

1. Eigene Proof-of-Concept-Tests
Reale Unternehmensdaten und -prozesse liefern aussagekräftigere Ergebnisse als Herstellerbenchmarks. Dabei sollten auch Negativszenarien – also bewusst schwierige oder randständige Eingaben – Teil der Evaluation sein.

2. Unabhängige Bewertungsquellen nutzen
Akademische Evaluationen, Berichte von Analystenhäusern wie Gartner oder Forrester sowie Erfahrungsberichte aus vergleichbaren Unternehmen bieten wertvolle Orientierung. Referenzgespräche mit bestehenden Kunden sollten strukturiert und auf konkrete Anwendungsfälle ausgerichtet sein.

3. Vertragliche Absicherung
Klar definierte Service Level Agreements mit messbaren KPIs für Modellqualität, Verfügbarkeit und Datenschutz schaffen Verbindlichkeit.

Anbieter, die solche Vereinbarungen scheuen, senden damit selbst ein Signal.

Einordnung für deutsche Unternehmen

Für deutschsprachige Unternehmen kommt ein strukturelles Problem hinzu: Viele KI-Anbieter kommunizieren primär auf anglophonen Märkten, während lokale Sprachkompetenz, regulatorische Anforderungen unter dem EU AI Act sowie Datenlokalisierung oft erst auf Nachfrage konkret adressiert werden.

Wer KI-Lösungen beschafft, sollte diese Punkte proaktiv in den Evaluationsprozess einbauen – und nicht darauf vertrauen, dass Marketingmaterialien die relevanten Einschränkungen von selbst benennen.

Eine strukturierte Due-Diligence-Praxis bei KI-Beschaffungen wird damit nicht nur zur Kostenkontrolle, sondern auch zur Risikominimierung.

Quelle: The Guardian AI