Kein einziger KI-Output war direkt verwendbar – das ist das ernüchternde Fazit eines neuen Benchmarks, bei dem rund 500 erfahrene Investmentbanker die Arbeit führender Sprachmodelle unter die Lupe nahmen. Die Ergebnisse zeigen: Zwischen technischem Fortschritt und professioneller Praxistauglichkeit klafft noch eine erhebliche Lücke.
Banker stufen KI-Outputs durchgehend als nicht abgabereif ein
Ein neuer Benchmark hat erstmals systematisch geprüft, ob aktuelle Large Language Models die Arbeit von Junior-Investmentbankern übernehmen können – mit ernüchterndem Ergebnis. Rund 500 Banker bewerteten die KI-generierten Inhalte und fanden keinen einzigen Output, den sie direkt an Kunden oder Vorgesetzte weitergegeben hätten. Die Studie wirft grundlegende Fragen darüber auf, wie weit der praktische Einsatz von KI im Finanzsektor tatsächlich gereift ist.
Der Benchmark: Fachleute als Maßstab
Im Rahmen des Tests wurden Modelle wie GPT-5.4 und Claude Opus 4.6 mit typischen Aufgaben konfrontiert, wie sie Junior-Analysten im Investmentbanking täglich bearbeiten. Die Ergebnisse wurden anschließend von erfahrenen Bankern auf ihre Praxistauglichkeit hin beurteilt. Das Urteil fiel einheitlich aus:
Kein einziger KI-generierter Inhalt wurde als abgabereif eingestuft. Als Hauptgründe nannten die Bewerter Ungenauigkeiten und teils schlicht fehlerhafte Inhalte – Mängel, die im direkten Kundenkontakt erhebliche Konsequenzen haben könnten.
Das Benchmarking-Verfahren selbst ist dabei bemerkenswert: Indem echte Fachleute die Bewertung übernehmen, entsteht ein praxisnaherer Maßstab als herkömmliche automatisierte Testverfahren, die häufig nur formale Korrektheit messen – nicht aber fachliche Tiefe oder kommunikative Eignung für den Kundenkontakt.
KI als Arbeitsgrundlage – nicht als Endprodukt
Interessant ist die Differenzierung, die viele der befragten Banker vornahmen. Obwohl die Outputs als unfertig galten, erklärten viele Teilnehmer, sie würden das KI-Material durchaus als Arbeitsgrundlage nutzen – als Ausgangspunkt, den ein menschlicher Analyst überarbeitet, ergänzt und auf Plausibilität prüft.
Das entspricht einem Nutzungsmuster, das in der Praxis bereits verbreitet ist:
KI als beschleunigendes Hilfsmittel im Hintergrund – nicht als eigenständiger Produzent abschlussfertiger Dokumente.
Warum der Befund für den Finanzsektor besonders bedeutsam ist
Für den Finanzsektor ist dieses Ergebnis aus mehreren Gründen relevant:
- Der Finanzsektor zählt zu den aktivsten Anwendern generativer KI
- Banken und Vermögensverwalter investieren erhebliche Budgets in entsprechende Werkzeuge
- Die Erwartungen an Effizienzgewinne sind entsprechend hoch
Gleichzeitig zeigt die Studie, dass der Abstand zwischen technischer Leistungsfähigkeit und dem, was im professionellen Kontext tatsächlich einsetzbar ist, größer bleibt als vielfach angenommen. Gerade im Investmentbanking, wo Präzision, regulatorische Anforderungen und Haftungsfragen eine zentrale Rolle spielen, sind Fehler in Kundenunterlagen keine Bagatelle.
Einordnung: Starke KI – schwache Fachdomäne?
Die Ergebnisse fügen sich in eine wachsende Zahl von Befunden ein, die darauf hindeuten: Aktuelle KI-Modelle liefern zwar in vielen Bereichen beeindruckende Ergebnisse, weisen in hochspezialisierten Fachdomänen jedoch noch erhebliche Lücken auf. Der Sprung von beeindruckend zu verlässlich ist gerade dort am größten, wo Fehler am kostspieligsten sind.
Fazit: Realistische Erwartungen statt blinder KI-Euphorie
Für Unternehmen im Finanz- und Unternehmensbereich liefert die Studie eine nüchterne Orientierungshilfe:
- Realistische Output-Erwartungen formulieren
- Interne Prüfprozesse nicht vorschnell abbauen
- KI primär zur Unterstützung menschlicher Fachkräfte einsetzen – nicht als Ersatz
Wer KI-generierte Inhalte ohne qualifizierte Nachkontrolle in den Kundenprozess einspeist, geht angesichts solcher Befunde ein messbares Qualitätsrisiko ein.
Das Potenzial zur Effizienzsteigerung bleibt real – aber es realisiert sich im Zusammenspiel von Mensch und Maschine, nicht durch deren Trennung.
Quelle: The Decoder