Führende KI-Modelle gelten als leistungsstark – doch ein neuer Benchmark enthüllt eine überraschende Schwäche: Bei komplexen, realen Datenvisualisierungen bricht die Leistung selbst der besten Systeme drastisch ein. Was das für Unternehmen bedeutet, die KI in ihren Daten-Workflows einsetzen.
KI-Modelle scheitern an komplexen Diagrammen: Neuer Benchmark deckt Lücken auf
Was RealChart2Code misst
Der neue Benchmark RealChart2Code wurde entwickelt, um eine grundlegende Schwäche bisheriger Evaluierungsverfahren zu adressieren: Viele gängige Tests für multimodale KI-Modelle verwenden vereinfachte oder synthetisch erzeugte Diagramme, die mit realen Anwendungsfällen wenig gemein haben.
RealChart2Code setzt stattdessen auf echte, komplexe Visualisierungen – also Diagramme, wie sie in wissenschaftlichen Publikationen, Unternehmensberichten oder Datenanalysen tatsächlich vorkommen. Die Aufgabe der Modelle: anhand eines solchen Diagrammbildes den zugrunde liegenden Code zu rekonstruieren, der die Visualisierung erzeugt. Die Bewertung erfolgt anhand der visuellen Übereinstimmung zwischen generiertem und originalem Diagramm.
Getestet wurden 14 führende Large Language Models mit Bildverarbeitungsfähigkeiten – darunter sowohl proprietäre Modelle großer Anbieter als auch Open-Source-Alternativen.
Deutliche Leistungseinbrüche bei steigender Komplexität
Die Ergebnisse zeigen ein klares Muster:
Selbst die leistungsstärksten proprietären Modelle verlieren bei komplexen Diagrammen im Vergleich zu einfacheren Tests nahezu die Hälfte ihrer Leistungsfähigkeit.
Je komplexer das Ausgangsdiagramm, desto stärker bricht die Modellleistung ein. Während aktuelle Spitzenmodelle bei einfacheren Diagrammtypen noch solide Ergebnisse erzielen, verlieren sie bei mehrachsigen, datenreichen oder ungewöhnlich gestalteten Visualisierungen erheblich an Präzision. Besonders problematisch sind:
- Komplexe statistische Plots
- Verschachtelte Layouts
- Diagramme mit unkonventioneller Gestaltung
Besonders auffällig ist die Diskrepanz zwischen Standard-Benchmarks und dem realistischen Datensatz: Modelle, die auf vereinfachten Tests noch nah beieinanderliegen, zeigen bei RealChart2Code deutlichere Unterschiede – ein Hinweis auf eine bislang unterschätzte Varianz in der tatsächlichen Leistungsfähigkeit.
Open-Source-Modelle mit erheblichem Rückstand
Zwischen proprietären und Open-Source-Modellen klafft eine spürbare Lücke. Die besten kommerziellen Systeme schneiden zwar ebenfalls nicht fehlerfrei ab, übertreffen ihre quelloffenen Pendants jedoch konsistent.
Für Unternehmen, die aus Datenschutz- oder Kostengründen auf Open-Source-Alternativen setzen, bedeutet das: Bei anspruchsvollen Visualisierungsaufgaben sind aktuell erhebliche Qualitätseinbußen einzukalkulieren.
Warum Diagrammverständnis für Unternehmen relevant ist
Die Fähigkeit, Diagramme zu interpretieren und in Code zu überführen, ist keine akademische Randaufgabe. In der Praxis betrifft sie unter anderem:
- Automatisierte Berichtsanalysen
- Extraktion von Kennzahlen aus Präsentationen und Fremddokumenten
- Reproduktion von Visualisierungen im Rahmen von Datenanalyse-Workflows
Allesamt Szenarien, die in datengetriebenen Unternehmen regelmäßig auftreten. KI-gestützte Workflows, die in diesem Bereich eingesetzt werden, stoßen offenbar schneller an Grenzen als bislang angenommen.
Einordnung für deutsche Unternehmen
Für Entscheider, die KI-Modelle im Bereich Datenanalyse, Reporting oder Business Intelligence einsetzen oder evaluieren, liefert RealChart2Code eine wichtige Orientierung:
Benchmarks auf Basis vereinfachter Testdaten bilden die tatsächliche Leistung in produktiven Umgebungen oft nur unzureichend ab.
Vor dem Einsatz multimodaler Modelle für diagrammbezogene Aufgaben empfiehlt sich daher eine Evaluierung anhand eigener, repräsentativer Datensätze. Die Ergebnisse legen zudem nahe, dass im Bereich Visualisierungsverständnis noch erheblicher Entwicklungsbedarf besteht – unabhängig davon, welcher Anbieter gerade die aktuellen Ranglisten anführt.
Quelle: The Decoder