Wenn KI-Systeme andere KI-Systeme trainieren, entstehen unsichtbare Fehlerquellen: Eine aktuelle Studie im Fachjournal Nature zeigt, wie sich Verzerrungen still und systematisch durch ganze Modellgenerationen fortpflanzen – mit weitreichenden Folgen für Unternehmen, Regulierung und die Verlässlichkeit moderner KI-Anwendungen.
KI-Modelle übertragen versteckte Verzerrungen beim Training anderer Systeme
Wer künstliche Intelligenz nutzt, um neue KI-Modelle zu trainieren, spart Zeit und Kosten – trägt dabei aber unbeabsichtigt Fehler und Verzerrungen weiter, die sich im Nachhinein kaum nachverfolgen lassen. Darauf weist eine aktuelle Analyse hin, die in Nature erschienen ist und die Praxis des sogenannten Model-to-Model-Trainings kritisch beleuchtet.
Günstiger Ansatz mit Nebenwirkungen
Das Training großer KI-Modelle ist ressourcenintensiv. Als Alternative greifen Unternehmen und Forschungseinrichtungen zunehmend darauf zurück, bestehende Modelle als Lehrinstanz für neue Systeme einzusetzen – etwa indem synthetische Trainingsdaten generiert oder Bewertungsaufgaben automatisiert werden. Dieser Ansatz ist schneller und deutlich kostengünstiger als das Training mit menschlich kuratierten Datensätzen.
Die Methode hat jedoch eine systematische Schwachstelle: Die Ausgangssysteme bringen eigene Verzerrungen und Fehlannahmen mit, die sie beim Training der Folgemodelle unbewusst weitergeben.
Vererbte Fehler, die unsichtbar bleiben
Das Kernproblem liegt in der mangelnden Transparenz dieser Übertragung. Verzerrungen, die ein Ausgangsmodell in seinen Antworten aufweist – etwa bestimmte sprachliche Muster, inhaltliche Gewichtungen oder kulturell geprägte Annahmen – werden nicht als solche gekennzeichnet. Sie fließen schlicht in die Trainingsdaten ein und werden vom Folgemodell als valide Information interpretiert.
Je mehr Generationen von Modellen auf diese Weise entstehen, desto stärker können sich solche Fehler akkumulieren und verstärken, ohne dass eine klare Ursachenzuordnung noch möglich ist.
„Subliminal Transmission”: Fachleute bezeichnen diesen Vorgang als verdeckte Weitergabe von Eigenschaften, die weder vom Entwickler noch vom späteren Nutzer ohne gezielte Prüfung erkannt wird.
Das betrifft nicht nur inhaltliche Fehler, sondern auch ethisch relevante Muster: stereotypisches Denken, einseitige Quellengewichtung oder Tendenzen bei der Einschätzung gesellschaftlicher Sachverhalte.
Kein Einzelfall, sondern strukturelles Problem
Die Problematik ist nicht auf bestimmte Modelltypen beschränkt. Large Language Models, Bildgenerierungssysteme und Klassifikationsmodelle sind gleichermaßen betroffen, sobald sie in Trainingspipelines als Datenquelle oder Bewertungsinstanz eingesetzt werden.
Besonders kritisch ist der Einsatz sogenannter „Teacher Models” im Bereich Reinforcement Learning from Human Feedback (RLHF), wo die Qualitätsbewertung von Ausgaben nicht mehr durch Menschen, sondern durch andere Modelle erfolgt.
Da viele Unternehmen auf vortrainierte Basismodelle externer Anbieter aufsetzen, ist die vollständige Nachvollziehbarkeit der Trainingskette in der Praxis selten gewährleistet.
Wer ein Modell über eine API lizenziert und darauf eigene Anpassungen aufbaut, erhält in der Regel keine vollständige Dokumentation der verwendeten Trainingsquellen und -methoden.
Einordnung für deutsche Unternehmen
Für Unternehmen in Deutschland, die KI-Systeme im regulierten Umfeld einsetzen – etwa in der Personalentscheidung, im Finanzbereich oder im Gesundheitswesen –, hat diese Erkenntnis unmittelbare Relevanz.
Der EU AI Act verpflichtet Anbieter und Betreiber von Hochrisikosystemen zur Dokumentation von Trainingsdaten und zur Risikoanalyse. Wer auf extern vorgefertigte Modelle setzt und diese ohne gründliche Prüfung weitertrainiert, riskiert Konformitätsprobleme, die erst bei einer Prüfung oder einem Schadensfall sichtbar werden.
Eine systematische Evaluation auf Bias und unerwünschte Verhaltensweisen sollte nicht als optionaler Qualitätsschritt, sondern als fester Bestandteil jeder KI-Entwicklungspipeline behandelt werden.