Eine neue Studie im Fachjournal Nature erschüttert das Vertrauen in KI-basierte Risikoprognosen: Dutzende Modelle zur Vorhersage von Krankheiten wie Diabetes oder Schlaganfall basieren demnach auf methodisch fragwürdigen Daten – und könnten bereits heute in der Patientenversorgung im Einsatz sein.
KI-Modelle zur Krankheitsvorhersage: Studie belegt systematische Datenmängel
Fehlerhafte Grundlage für weitreichende Prognosen
Die betroffenen Modelle sind darauf ausgelegt, das individuelle Risiko für Erkrankungen wie Diabetes oder Schlaganfall zu berechnen. Solche Prognosetools gelten im Gesundheitswesen als vielversprechende Möglichkeit, Hochrisikopatienten frühzeitig zu identifizieren und präventiv zu behandeln. Die Untersuchung legt nun jedoch offen, dass die Datenbasis eines erheblichen Teils dieser Modelle methodisch problematisch ist.
Konkret steht die Qualität und Herkunft der Trainingsdaten im Mittelpunkt der Kritik. Werden Machine-Learning-Modelle auf fehlerhaften, unvollständigen oder nicht repräsentativen Datensätzen trainiert, können sie systematische Fehler produzieren, die in der klinischen Anwendung nicht ohne Weiteres erkennbar sind.
Besonders heikel: Solche Modelle können nach außen valide wirken, während sie intern auf verzerrten Mustern basieren.
Lücken in der Validierungspraxis
Ein zentrales Problem liegt darin, dass viele dieser Modelle keine ausreichende externe Validierung durchlaufen haben. Während interne Tests auf denselben oder ähnlichen Datensätzen häufig gute Ergebnisse liefern, versagen Modelle beim Einsatz an anderen Patientenpopulationen oder in anderen klinischen Umgebungen mitunter deutlich. Dieses sogenannte „Overfitting”-Problem ist in der KI-Forschung bekannt, wird in der medizinischen Anwendung aber offenbar noch nicht konsequent adressiert.
Die Autoren der Studie weisen zudem darauf hin, dass die Datenbankquellen, auf denen viele Modelle basieren, selbst Fehler oder Unvollständigkeiten aufweisen. In einigen Fällen handelt es sich um öffentlich verfügbare Datenbanken, deren Limitationen in der wissenschaftlichen Literatur zwar bekannt sind, die aber dennoch unkritisch als Trainingsgrundlage verwendet wurden.
Regulatorischer Druck wächst
Der Befund fällt in eine Phase, in der Regulierungsbehörden weltweit die Zulassung von KI-gestützten Medizinprodukten stärker unter die Lupe nehmen. In der Europäischen Union gelten seit 2024 mit dem AI Act und der überarbeiteten Medical Device Regulation (MDR) verschärfte Anforderungen an Transparenz, Dokumentation und klinische Evidenz. Für Hochrisiko-KI-Systeme im Medizinbereich sind umfassende Konformitätsbewertungen vorgeschrieben – doch die praktische Durchsetzung dieser Standards steht noch am Anfang.
„Zulassungsverfahren müssen stärker auf die Qualität der Trainingsdaten abzielen – nicht nur auf die Performance-Metriken der Modelle.”
— Fachleute aus dem Bereich Digital Health
Eine hohe Genauigkeit auf einem Testdatensatz sagt wenig darüber aus, wie zuverlässig ein Modell unter realen Bedingungen arbeitet.
Einordnung für deutsche Unternehmen und Kliniken
Für deutsche Gesundheitseinrichtungen und Health-Tech-Anbieter ergibt sich aus dieser Studie ein klarer Handlungsbedarf:
- Herkunft und Qualität der Trainingsdaten sorgfältig dokumentieren
- Externe Validierung an klinisch relevanten, möglichst diversifizierten Datensätzen einplanen
- Regulatorische Anforderungen durch AI Act und MDR als verbindlichen Rahmen verstehen
Angesichts der zunehmenden regulatorischen Anforderungen ist eine belastbare Datenstrategie nicht nur eine Frage der wissenschaftlichen Sorgfalt, sondern auch der Rechtssicherheit.
Quelle: Nature – AI disease-prediction models trained on flawed data