Ein groß angelegter Praxistest der Financial Times brachte ein ernüchterndes Ergebnis: Die KI-Modelle von Google, OpenAI, Anthropic und xAI scheitern beim Vorhersagen von Premier-League-Spielen – und können nicht einmal einfache statistische Basismodelle übertreffen.
KI-Modelle als Sportwetten-Analysten: Praxistest offenbart deutliche Grenzen
Testszenario: Wettmarkt als Benchmark
Der von der Financial Times durchgeführte Praxistest nutzte Sportwetten als Messinstrument für die Vorhersagekompetenz aktueller KI-Systeme. Der Ansatz ist methodisch naheliegend: Wettmärkte aggregieren bereits eine enorme Menge an Expertenwissen, historischen Daten und Wahrscheinlichkeitseinschätzungen.
Wer als KI-Modell hier systematisch besser abschneidet als der Markt, würde damit eine echte prädiktive Überlegenheit beweisen.
Dazu wurden die Modelle gebeten, Spielausgänge in der Premier League zu prognostizieren – einer der meistanalysierten Sportligen der Welt.
Das Ergebnis war eindeutig: Keines der Systeme konnte den Wettmarkt schlagen. Die Modelle lagen mit ihren Vorhersagen nicht nur unterhalb professioneller Quoten-Anbieter, sondern zum Teil auch unterhalb statistisch einfacher Basismodelle. Grok von Elon Musks xAI lieferte dabei die schwächste Gesamtperformance.
Warum LLMs bei Prognosen strukturell an Grenzen stoßen
Das Ergebnis überrascht Fachleute wenig. Large Language Models sind darauf ausgelegt, sprachliche Muster zu erkennen und kohärente Texte zu generieren – nicht darauf, stochastische Ereignisse in komplexen, dynamischen Systemen vorherzusagen. Fußballergebnisse hängen von Faktoren ab, die für aktuelle KI-Architekturen schwer zugänglich sind:
- Tagesform einzelner Spieler
- Taktische Anpassungen in Echtzeit
- Platzverweise und Wetterbedingungen
- Psychologische Drucksituationen
Hinzu kommt das Trainingsdaten-Problem: Die Wissensgrundlage der Modelle ist auf einen bestimmten Zeitpunkt eingefroren. Selbst wenn ein Modell über umfangreiche historische Fußballdaten verfügt, fehlen ihm aktuelle Informationen zu Verletzungen, Kaderwechseln oder Form-Entwicklungen – genau jene Variablen, die kurzfristige Prognosen entscheidend beeinflussen.
Konfidenz ohne Kalibrierung
Ein weiteres Problem, das der Test indirekt sichtbar macht, ist die mangelnde Kalibrierung von Unsicherheitsaussagen.
KI-Modelle neigen dazu, Prognosen mit einer Bestimmtheit zu formulieren, die ihre tatsächliche Vorhersagegenauigkeit nicht widerspiegelt.
Im Wettkontext ist das kostspielig. In Unternehmensanwendungen kann dasselbe Muster – scheinbar fundierte Aussagen ohne adäquate Unsicherheitsmargen – zu Fehlentscheidungen führen, die schwer zu erkennen sind.
Grok fiel dabei besonders auf, weil das Modell offenbar häufiger als andere Systeme auf statistische Außenseiter setzte, ohne diese Einschätzung ausreichend zu begründen oder zu qualifizieren.
Einordnung für Entscheider
Für Unternehmen, die KI-Systeme für prädiktive Aufgaben einsetzen – etwa in der Absatzplanung, Risikoeinschätzung oder Marktanalyse – liefert dieser Test eine klare Erinnerung:
Die sprachliche Kompetenz eines Large Language Models ist kein verlässlicher Indikator für seine Prognosekompetenz in numerisch-stochastischen Domänen.
Wer KI-Vorhersagen in geschäftskritische Prozesse integriert, sollte diese systematisch gegen statistische Basismodelle benchmarken und Mechanismen zur Unsicherheitsquantifizierung einfordern – anstatt sich auf die bloße Formulierungssicherheit der Ausgaben zu verlassen.