Neuer Benchmark zeigt: KI-Modelle scheitern an komplexen Diagrammen

Führende KI-Modelle gelten als leistungsstark – doch ein neuer Benchmark enthüllt eine überraschende Schwäche: Bei komplexen, realen Datenvisualisierungen bricht die Leistung selbst der besten Systeme drastisch ein. Was das für Unternehmen bedeutet, die KI in ihren Daten-Workflows einsetzen.

KI-Modelle scheitern an komplexen Diagrammen: Neuer Benchmark deckt Lücken auf

Was RealChart2Code misst

Der neue Benchmark RealChart2Code wurde entwickelt, um eine grundlegende Schwäche bisheriger Evaluierungsverfahren zu adressieren: Viele gängige Tests für multimodale KI-Modelle verwenden vereinfachte oder synthetisch erzeugte Diagramme, die mit realen Anwendungsfällen wenig gemein haben.

RealChart2Code setzt stattdessen auf echte, komplexe Visualisierungen – also Diagramme, wie sie in wissenschaftlichen Publikationen, Unternehmensberichten oder Datenanalysen tatsächlich vorkommen. Die Aufgabe der Modelle: anhand eines solchen Diagrammbildes den zugrunde liegenden Code zu rekonstruieren, der die Visualisierung erzeugt. Die Bewertung erfolgt anhand der visuellen Übereinstimmung zwischen generiertem und originalem Diagramm.

Getestet wurden 14 führende Large Language Models mit Bildverarbeitungsfähigkeiten – darunter sowohl proprietäre Modelle großer Anbieter als auch Open-Source-Alternativen.

Deutliche Leistungseinbrüche bei steigender Komplexität

Die Ergebnisse zeigen ein klares Muster:

Selbst die leistungsstärksten proprietären Modelle verlieren bei komplexen Diagrammen im Vergleich zu einfacheren Tests nahezu die Hälfte ihrer Leistungsfähigkeit.

Je komplexer das Ausgangsdiagramm, desto stärker bricht die Modellleistung ein. Während aktuelle Spitzenmodelle bei einfacheren Diagrammtypen noch solide Ergebnisse erzielen, verlieren sie bei mehrachsigen, datenreichen oder ungewöhnlich gestalteten Visualisierungen erheblich an Präzision. Besonders problematisch sind:

Komplexe statistische Plots
Verschachtelte Layouts
Diagramme mit unkonventioneller Gestaltung

Besonders auffällig ist die Diskrepanz zwischen Standard-Benchmarks und dem realistischen Datensatz: Modelle, die auf vereinfachten Tests noch nah beieinanderliegen, zeigen bei RealChart2Code deutlichere Unterschiede – ein Hinweis auf eine bislang unterschätzte Varianz in der tatsächlichen Leistungsfähigkeit.

Open-Source-Modelle mit erheblichem Rückstand

Zwischen proprietären und Open-Source-Modellen klafft eine spürbare Lücke. Die besten kommerziellen Systeme schneiden zwar ebenfalls nicht fehlerfrei ab, übertreffen ihre quelloffenen Pendants jedoch konsistent.

Für Unternehmen, die aus Datenschutz- oder Kostengründen auf Open-Source-Alternativen setzen, bedeutet das: Bei anspruchsvollen Visualisierungsaufgaben sind aktuell erhebliche Qualitätseinbußen einzukalkulieren.

Warum Diagrammverständnis für Unternehmen relevant ist

Die Fähigkeit, Diagramme zu interpretieren und in Code zu überführen, ist keine akademische Randaufgabe. In der Praxis betrifft sie unter anderem:

Automatisierte Berichtsanalysen
Extraktion von Kennzahlen aus Präsentationen und Fremddokumenten
Reproduktion von Visualisierungen im Rahmen von Datenanalyse-Workflows

Allesamt Szenarien, die in datengetriebenen Unternehmen regelmäßig auftreten. KI-gestützte Workflows, die in diesem Bereich eingesetzt werden, stoßen offenbar schneller an Grenzen als bislang angenommen.

Einordnung für deutsche Unternehmen

Für Entscheider, die KI-Modelle im Bereich Datenanalyse, Reporting oder Business Intelligence einsetzen oder evaluieren, liefert RealChart2Code eine wichtige Orientierung:

Benchmarks auf Basis vereinfachter Testdaten bilden die tatsächliche Leistung in produktiven Umgebungen oft nur unzureichend ab.

Vor dem Einsatz multimodaler Modelle für diagrammbezogene Aufgaben empfiehlt sich daher eine Evaluierung anhand eigener, repräsentativer Datensätze. Die Ergebnisse legen zudem nahe, dass im Bereich Visualisierungsverständnis noch erheblicher Entwicklungsbedarf besteht – unabhängig davon, welcher Anbieter gerade die aktuellen Ranglisten anführt.

Quelle: The Decoder