Claude: KI-Modell führt erstmals autonome Netzwerkangriffe durch

Anthropics neuestes KI-Modell hat in behördlichen Tests erstmals eine vollständige Angriffskette auf ein Unternehmensnetzwerk autonom abgeschlossen – ein Befund, der die Bedrohungslage für Unternehmen konkret verändert und das Dual-Use-Dilemma moderner KI-Systeme in ein neues Stadium hebt.

Claude Mythos: KI-Modell führt erstmals autonome Netzwerkangriffe durch

Das britische AI Security Institute hat Anthropics neuestes Modell Claude Mythos Preview auf seine offensiven Cybersicherheitsfähigkeiten untersucht. Ergebnis: Das Large Language Model konnte eine vollständige Angriffssimulation auf ein Unternehmensnetzwerk autonom abschließen – ein Vorgang, der in dieser Form bislang nicht dokumentiert war. Die Ergebnisse werfen konkrete Fragen für die Unternehmenssicherheit auf.

Behördlicher Test mit klarem Befund

Das AI Security Institute (AISI), eine dem britischen Staat unterstellte Behörde, führte die Evaluation im Rahmen seines laufenden Programms zur Einschätzung von KI-Risiken durch. Getestet wurde Claude Mythos Preview – eine Vorabversion des aktuell leistungsstärksten Modells von Anthropic.

Das Ergebnis ist eindeutig: Das Modell war in der Lage, einen simulierten Unternehmensangriff von der Erkundungsphase bis zur Kompromittierung eigenständig durchzuführen, ohne dass ein menschlicher Operator jeden Schritt vorgeben musste.

Damit unterscheidet sich dieser Befund qualitativ von früheren Tests, bei denen KI-Systeme lediglich einzelne Teilschritte eines Angriffs unterstützen konnten.

Die Fähigkeit zur vollständigen, autonomen Durchführung einer Angriffskette – auch als „end-to-end compromise” bezeichnet – galt bislang als eine Hürde, die aktuelle Modelle nicht überwinden konnten.

Einschränkungen und Kontext

Die Bewertung enthält jedoch wichtige Einschränkungen, die eine nüchterne Einordnung erfordern:

Die Tests fanden in kontrollierten Simulationsumgebungen statt, nicht in realen Unternehmensnetzwerken.
Die Komplexität produktiver IT-Infrastrukturen, individuelle Sicherheitsarchitekturen und aktive Abwehrmaßnahmen dürften in der Praxis deutlich höhere Anforderungen stellen als ein standardisiertes Testsetup.
Anthropic hat das Modell mit Sicherheitsmechanismen ausgestattet, die den Einsatz für offensive Zwecke einschränken sollen.

Das Unternehmen betont, dass Claude Mythos explizit darauf ausgelegt ist, solche Anfragen abzulehnen. Wie belastbar diese Einschränkungen gegenüber gezieltem Prompt Engineering oder modifizierten Modellversionen sind, bleibt eine offene Frage.

Dual-Use als strukturelles Problem

Der Fall veranschaulicht das grundsätzliche Spannungsfeld bei Cybersicherheitsfähigkeiten in Large Language Models:

Die gleichen Kompetenzen, die ein Modell für defensive Aufgaben qualifizieren, sind prinzipiell auch für Angriffe nutzbar.

Dieses Dual-Use-Dilemma ist nicht neu, gewinnt aber durch die gestiegene Autonomie aktueller Modelle an praktischer Bedeutung. Sicherheitsforschende weisen seit Jahren darauf hin, dass die Einstiegshürde für Angreifer sinkt, wenn KI-Werkzeuge komplexe Angriffsmuster automatisieren können. Bisher fehlte dafür der empirische Nachweis unter kontrollierten Bedingungen – den liefert das AISI nun erstmals in dieser Form.

Einordnung für deutsche Unternehmen

Für IT- und Sicherheitsverantwortliche in deutschen Unternehmen unterstreichen die Ergebnisse, dass KI-gestützte Bedrohungsszenarien keine theoretische Zukunftsperspektive mehr sind. Konkrete Handlungsempfehlungen:

Was Unternehmen jetzt prüfen sollten

Penetrationstests und Red-Team-Übungen sollten künftig KI-gestützte Angriffsvektoren explizit berücksichtigen.
Dieselben Modelle lassen sich für die defensive Seite nutzen: automatisierte Schwachstellenanalyse, schnellere Incident Response und die Entlastung knapper Security-Teams.

Welche Seite den größeren Nutzen aus diesen Fähigkeiten zieht, hängt maßgeblich davon ab, wie schnell Unternehmen ihre Schutzmaßnahmen anpassen.

Quelle: The Decoder – KI-Cybersecurity: Anthropics Claude Mythos kann autonom Unternehmensnetzwerke hacken