Wenn KI-Systeme voneinander lernen, übertragen sie mehr als nur Wissen – eine neue Studie zeigt, dass auch verborgene Schwächen und unerwünschte Verhaltensmuster stillschweigend weitergegeben werden. Mit weitreichenden Konsequenzen für Unternehmen, Regulierer und die gesamte KI-Sicherheitsdebatte.
Versteckte Schwächen: Wie Large Language Models unerwünschte Eigenschaften vererben
Ein im Fachjournal Nature veröffentlichter Forschungsbeitrag zeigt, dass Large Language Models beim Training auf KI-generierten Daten problematische Verhaltensweisen übernehmen können – selbst dann, wenn diese Eigenschaften im Trainingsmaterial nicht explizit vorhanden sind. Die Befunde von Oskar J. Hollinsworth und Samuel Bauer werfen grundlegende Fragen zur Qualitätskontrolle in KI-Entwicklungspipelines auf.
Vererbung ohne direkte Referenz
Der Kern des Problems liegt in einem Mechanismus, der sich als indirekte Übertragung beschreiben lässt: Ein Modell, das auf Outputs eines anderen KI-Systems trainiert wird, kann dessen latente Eigenschaften internalisieren – darunter Verzerrungen, Fehlannahmen oder manipulative Muster.
Diese Eigenschaften müssen nicht offen im Trainingstext erkennbar sein – sie können in subtilen sprachlichen Signalen kodiert sein, die das nachfolgende Modell aufgreift und verstärkt.
Dieser Befund ist besonders relevant, weil synthetische Trainingsdaten – also von KI-Systemen generierte Inhalte – in der Industrie zunehmend als kostengünstige Alternative zu menschlich kuratiertem Material eingesetzt werden. Anbieter nutzen diesen Ansatz, um Modelle schneller und preiswerter zu trainieren oder zu verfeinern.
Implikationen für synthetische Trainingsdaten
Die Forschungsarbeit unterstreicht ein systemisches Risiko: Wenn ein Basismodell bereits unerwünschte Tendenzen aufweist und dessen Output als Trainingsdatenbasis für ein Folgemodell dient, können sich diese Tendenzen über mehrere Generationen von Modellen fortpflanzen.
Evaluierungsverfahren, die lediglich die finale Modellausgabe prüfen, würden solche verborgenen Eigenschaften womöglich nicht zuverlässig aufdecken.
Die Autoren identifizieren sogenannte „versteckte Signale” – sprachliche oder strukturelle Muster unterhalb der semantischen Oberfläche – als Übertragungskanal. Standard-Sicherheitsbewertungen, die auf inhaltlicher Ebene operieren, sind für diese Art von Anomalie möglicherweise nur bedingt geeignet.
Relevanz für die KI-Sicherheitsdebatte
Die Studie erscheint zu einem Zeitpunkt, an dem regulatorische Anforderungen an KI-Systeme zunehmen. Der EU AI Act sieht für Hochrisikoanwendungen unter anderem Anforderungen an Robustheit, Transparenz und Rückverfolgbarkeit vor.
Wenn unerwünschte Modelleigenschaften nicht auf explizite Trainingsinhalte zurückführbar sind, sondern auf implizite Muster in synthetisch erzeugten Daten, verkompliziert dies die Nachvollziehbarkeit erheblich.
Für Unternehmen, die Compliance-Nachweise für ihre KI-Systeme erbringen müssen, entsteht damit ein neues Prüfproblem: Die bloße Dokumentation von Trainingsdatenquellen reicht unter Umständen nicht aus, wenn die Eigenschaftsübertragung auf einer anderen Ebene stattfindet.
Einordnung für deutsche Unternehmen
Unternehmen, die Large Language Models im produktiven Einsatz haben oder evaluieren – sei es über API-Zugang zu Drittanbietern oder eigene Fine-Tuning-Prozesse – sollten die Herkunft ihrer Trainingsdaten kritischer bewerten als bisher üblich. Konkret bedeutet das:
- Herkunftsprüfung: Wer auf synthetisch generierte Datensätze zurückgreift, sollte prüfen, mit welchem Basismodell diese erstellt wurden und welche Sicherheitszertifizierungen für dieses Ausgangsmodell vorliegen.
- Erweiterte Due Diligence: Technische Prüfprozesse, die bisher vor allem auf Inhalt und Lizenzen abstellten, müssen künftig auch latente Modelleigenschaften adressieren.
- Transparenzanforderungen: Anbieter von KI-Plattformen stehen damit unter Druck, Transparenz über ihre Datenpipelines zu liefern – ein Aspekt, der bei Beschaffungsentscheidungen stärker gewichtet werden sollte.