Large Language Models lösen mehrstündige Programmierprobleme und knacken anspruchsvolle mathematische Aufgaben – scheitern jedoch regelmäßig an Fragen, die ein Grundschüler mühelos beantworten würde. Dieses scheinbare Paradoxon ist kein Zufall, sondern Ausdruck einer grundlegenden strukturellen Eigenschaft aktueller KI-Architekturen.
KI-Modelle: Stark bei komplexen Aufgaben, schwach bei einfachen Fragen
Das Messbarkeits-Problem
Der Kern des Phänomens liegt in der Art, wie KI-Modelle trainiert werden. Beim sogenannten Reinforcement Learning – der Methode, die hinter leistungsstarken Reasoning-Modellen steht – erhält ein Modell Belohnungssignale für korrekte Antworten. Damit dieses Verfahren funktioniert, muss Korrektheit eindeutig messbar sein.
Genau hier liegt die entscheidende Asymmetrie:
- Formale Aufgaben wie Wettbewerbs-Programmierung oder mathematische Gleichungen lassen sich automatisch und objektiv überprüfen.
- Alltagssprachliche Fragen – etwa Einschätzungen zu sozialen Situationen oder Empfehlungen mit gesundem Menschenverstand – entziehen sich hingegen jeder automatisierten Bewertung.
Andrej Karpathys Erklärungsrahmen
Andrej Karpathy, Mitgründer von OpenAI und früherer Tesla-KI-Chef, hat diesen Zusammenhang prägnant beschrieben:
„Der Fortschritt aktueller KI-Systeme konzentriert sich auf Bereiche, in denen Belohnungssignale klar definiert und skalierbar sind – vor allem formale Domänen wie Code, Logik und Mathematik.”
Alltagswissen hingegen – das, was Menschen durch gelebte Erfahrung, soziale Interaktion und körperliche Wahrnehmung erwerben – lässt sich kaum in Trainingssignale übersetzen. Sprachmodelle lernen aus Text. Was nicht systematisch in Textform dokumentiert ist, bleibt für sie weitgehend unzugänglich.
Strukturelle Grenzen, keine Kinderkrankheiten
Es wäre ein Missverständnis, diese Schwächen als bloße Kinderkrankheiten zu betrachten, die mit mehr Rechenleistung oder größeren Datensätzen verschwinden. Die Diskrepanz zwischen formaler Stärke und alltagspraktischer Schwäche ist strukturell bedingt.
Modelle, die ausschließlich auf verifizierbaren Aufgaben optimiert wurden, entwickeln keine allgemeine Urteilsfähigkeit – sie werden in ihrem Stärkebereich präziser, ohne die Lücken außerhalb dieses Bereichs automatisch zu schließen.
Das führt zu einem KI-Kompetenzprofil, das sich fundamental vom menschlichen unterscheidet:
- Stärken: außergewöhnliche Leistung in abgegrenzten, formal definierten Domänen
- Schwächen: erhebliche Defizite dort, wo implizites Wissen, Kontextverständnis und Alltagslogik gefragt sind
Einordnung für deutsche Unternehmen
Für Unternehmen, die KI-Systeme in ihre Prozesse integrieren, ergibt sich daraus eine klare Handlungsempfehlung:
| Geeignet für KI | Weiterhin beim Menschen |
|---|---|
| Code-Generierung | Soziale Feinfühligkeit |
| Dokumentenanalyse | Erfahrungswissen |
| Strukturierte Datenauswertung | Alltagsurteil & Ethik |
Wer die Grenzen von KI-Systemen kennt, kann sie effektiv einsetzen – und vermeidet kostspielige Fehlannahmen über deren tatsächliche Leistungsfähigkeit.
Quelle: The Decoder