Generative KI und Urheberrecht: Wem gehören die Trainingsdaten?

Millionen urheberrechtlich geschützte Werke wurden ohne Zustimmung ihrer Urheber zum Training kommerzieller KI-Modelle genutzt. Die juristische und ethische Aufarbeitung dieser Praxis hat gerade erst begonnen – und sie wird die Kreativwirtschaft, die Tech-Branche und die Rechtssysteme weltweit noch lange beschäftigen.

Generative KI und Urheberrecht: Wem gehören die Trainingsdaten?

Die Debatte um das geistige Eigentum an KI-Trainingsdaten erreicht eine neue Qualität. Illustratorinnen, Schriftstellerinnen und bildende Künstler werfen großen KI-Unternehmen vor, ihr Werk ohne Erlaubnis und ohne Vergütung für das Training kommerzieller Modelle genutzt zu haben. Der Guardian hat diese Perspektive jüngst prominent aufgegriffen – und die darin enthaltenen Fragen betreffen längst nicht mehr nur die Kreativbranche.

Ein Konflikt mit strukturellen Wurzeln

Generative KI-Systeme wie Bild- oder Textgeneratoren werden auf enormen Datensätzen trainiert, die in vielen Fällen urheberrechtlich geschützte Werke enthalten. Unternehmen wie OpenAI, Stability AI oder Midjourney haben Milliarden von Bildern, Texten und anderen Inhalten aus dem Internet gecrawlt – häufig ohne explizite Zustimmung der Urheber. Die rechtliche Grundlage dafür ist in vielen Jurisdiktionen ungeklärt oder wird gerade erst durch Gerichte definiert.

In den USA laufen mehrere Sammelklagen von Künstlern gegen KI-Anbieter. In Europa bietet der Urheberrechtsrahmen durch die DSM-Richtlinie einen gewissen Schutz: Rechteinhaber können dem Text- und Data-Mining für kommerzielle Zwecke aktiv widersprechen – ein sogenannter Opt-out-Vorbehalt. Ob dieser in der Praxis greift und wie er durchgesetzt werden kann, bleibt jedoch weitgehend offen.

Die Perspektive der Kreativen

„KI-Modelle imitieren Stile, reproduzieren Strukturen und konkurrieren direkt auf Märkten, die zuvor von menschlichen Urhebern bedient wurden – ohne dass diese an der Wertschöpfung beteiligt werden.”
— Molly Crabapple, Künstlerin und Autorin (The Guardian)

Der Vorwurf lautet nicht Plagiat im klassischen Sinne, sondern systemischer Entzug von Lebensgrundlagen ganzer Berufsgruppen. Besonders betroffen sind:

Illustratoren und bildende Künstler
Übersetzer und Texter
Stockfoto-Anbieter wie Getty Images, die bereits rechtliche Schritte eingeleitet haben

Andere Betroffene setzen auf technische Gegenmaßnahmen – etwa Werkzeuge, die Bilder so verändern, dass KI-Modelle aus ihnen weniger effektiv lernen können.

Offene Rechtslage, wachsende Regulierungsdichte

Der EU AI Act adressiert Transparenzpflichten für General-Purpose-AI-Modelle: Anbieter sollen künftig offenlegen, welche urheberrechtlich geschützten Inhalte sie für das Training verwendet haben. Diese Regelung tritt schrittweise in Kraft und könnte die Verhandlungsposition von Rechteinhabern gegenüber KI-Unternehmen erheblich stärken.

Gleichzeitig zeichnen sich erste Lizenzmodelle ab. Unternehmen wie Adobe oder Shutterstock haben begonnen, Urhebern für die Nutzung ihrer Werke als Trainingsdaten Vergütungen anzubieten.

Ob sich solche Modelle als Industriestandard durchsetzen, hängt maßgeblich davon ab, wie die Gerichte in laufenden Verfahren entscheiden.

Einordnung für deutsche Unternehmen

Für Unternehmen in Deutschland, die generative KI-Tools einsetzen oder selbst entwickeln, ergeben sich aus dieser Debatte konkrete Handlungsbedarfe:

Was jetzt zu tun ist

Trainingsdaten prüfen: Auf welchen Daten basieren die eingesetzten Modelle?
Compliance-Nachweise einfordern: Können Anbieter entsprechende Lizenzierungen belegen?
Vendor Due Diligence anpassen: Die Herkunft von Trainingsdaten wird zu einem festen Prüfkriterium bei der Anbieterbewertung.

Wer diesen Aspekt heute ignoriert, riskiert morgen rechtliche und reputationsbezogene Konsequenzen.

Mit zunehmender Regulierungsdichte durch den EU AI Act dürfte die Frage nach der Herkunft von Trainingsdaten zu einem Pflichtbestandteil jedes KI-Beschaffungsprozesses werden.

Quelle: The Guardian – „Is AI the greatest art heist in history?”