Anthropic untersucht unbefugten Zugriff auf intern gesperrtes KI-Sicherheitsmodell

Ein intern entwickeltes KI-Modell für Sicherheitsforschung, das regulären Nutzern strikt gesperrt sein sollte, steht im Mittelpunkt eines Sicherheitsvorfalls bei Anthropic – und wirft grundlegende Fragen über den Umgang mit sogenannten Dual-Use-Modellen in der KI-Branche auf.

Anthropic untersucht unbefugten Zugriff auf intern gesperrtes KI-Sicherheitsmodell

Anthropic, der US-amerikanische KI-Entwickler hinter dem Sprachmodell Claude, hat Ermittlungen eingeleitet, nachdem Berichte über einen nicht autorisierten Zugriff auf ein intern entwickeltes Modell mit dem Codenamen „Mythos” aufgetaucht sind. Das berichtet The Guardian unter Berufung auf Insiderinformationen. Besondere Brisanz erhält der Vorfall dadurch, dass Mythos offenbar explizit für die Erforschung von Cyberangriffsmethoden entwickelt wurde und regulären Nutzern nicht zugänglich sein sollte.

Was ist Mythos – und warum ist der Zugriff problematisch?

Bei Mythos handelt es sich dem Bericht zufolge um ein Large Language Model, das Anthropic intern für Sicherheitsforschung einsetzt. Solche Modelle, häufig als „Red-Team-Tools” bezeichnet, werden genutzt, um potenzielle Schwachstellen in KI-Systemen oder digitalen Infrastrukturen systematisch zu identifizieren. Sie sind in der Regel streng zugangsbeschränkt, weil sie per Design in der Lage sind, sicherheitskritische Informationen zu generieren – etwa Hinweise auf Exploits oder Angriffsvektoren in Computersystemen.

Gerät ein solches Modell in falsche Hände oder wird unbefugt abgerufen, könnten die erzeugten Inhalte missbraucht werden, um reale Cyberangriffe vorzubereiten oder durchzuführen.

Genau darin liegt das Problem: Der Nutzen dieser Werkzeuge für die Verteidigung ist unbestritten – ihr Missbrauchspotenzial jedoch ebenso.

Ermittlungsstand und Reaktion von Anthropic

Anthropic hat den Vorfall bislang nicht öffentlich kommentiert. Dem Guardian zufolge laufen interne Untersuchungen, um Umfang und Art des möglichen Zugriffs zu klären. Unklar ist derzeit, ob es sich um eine externe Sicherheitslücke, eine interne Fehlkonfiguration oder einen absichtlichen Regelverstoß handelt. Ebenso offen bleibt, ob und welche Informationen aus Mythos tatsächlich abgerufen wurden.

Das Unternehmen gehört zu den wenigen KI-Labors, die öffentlich einen strikten Safety-First-Ansatz propagieren. Gründer Dario Amodei und Mitgründerin Daniela Amodei haben Anthropic explizit als Gegenentwurf zu weniger regulierten Wettbewerbern positioniert.

Umso größer ist das Reputationsrisiko, wenn ausgerechnet intern entwickelte Hochrisiko-Modelle zum Gegenstand eines Sicherheitsvorfalls werden.

Strukturelles Problem: Dual-Use in der KI-Forschung

Der Fall illustriert ein grundsätzliches Dilemma in der modernen KI-Sicherheitsforschung: Modelle, die entwickelt werden, um Schwachstellen zu erkennen und zu schließen, besitzen zwangsläufig denselben Wissensstand wie potenzielle Angreifer. Die Forschungsgemeinschaft diskutiert seit Jahren, wie dieser sogenannte Dual-Use-Charakter von Sicherheits-KI regulatorisch eingehegt werden kann – bislang ohne abschließende Antworten.

Auf EU-Ebene adressiert der AI Act zwar bestimmte Hochrisikoanwendungen, spezifische Anforderungen für intern eingesetzte Sicherheitsforschungsmodelle sind jedoch noch nicht detailliert ausgearbeitet. Für Unternehmen, die selbst mit KI-basierten Sicherheitstools arbeiten, fehlt damit ein klarer regulatorischer Rahmen.

Einordnung für deutsche Unternehmen

Für deutsche IT- und Sicherheitsverantwortliche unterstreicht der Vorfall, dass auch bei renommierten KI-Anbietern interne Governance-Strukturen versagen können. Konkret empfehlen sich folgende Maßnahmen:

Zugriffskontrollkonzepte regelmäßig überprüfen und dokumentieren
Vendor-Risk-Prozesse für KI-Drittanbieter etablieren und aktualisieren
Im Bereich KI-gestützter Penetrationstests und Red-Teaming-Anwendungen klare Rollentrennung sicherstellen
Protokollierung des Modellzugriffs als festen Bestandteil der Sicherheitsarchitektur verankern

Klare Rollentrennung und lückenlose Protokollierung des Modellzugriffs sind kein optionales Feature – sie sind Teil einer soliden Sicherheitsarchitektur.

Quelle: The Guardian – Anthropic investigates report of rogue access to hack-enabling Mythos AI