Anthropics KI-Sicherheitslücken lassen sich mit handelsüblichen Modellen reproduzieren

Sicherheitsforscher haben nachgewiesen, dass kritische KI-Schwachstellen aus Anthropics interner Forschung mit handelsüblichen Modellen für unter 30 US-Dollar reproduzierbar sind – ein Befund, der die gesamte Branche aufhorchen lassen sollte.

Anthropics KI-Sicherheitslücken lassen sich mit handelsüblichen Modellen reproduzieren

Sicherheitsforscher des Unternehmens Vidoc Security haben nachgewiesen, dass sich die alarmierenden Schwachstellen aus Anthropics „Mythos”-Forschung mit öffentlich verfügbaren Large Language Models nachbilden lassen – für weniger als 30 US-Dollar pro Scan. Die Erkenntnisse stellen die bisherige Annahme in Frage, dass solche Angriffsvektoren primär ein Problem spezialisierter Spitzenmodelle seien.

Hintergrund: Das Mythos-Framework

Anthropic hatte mit dem internen Forschungsprojekt „Mythos” dokumentiert, unter welchen Bedingungen KI-Modelle dazu gebracht werden können, sicherheitsrelevante Informationen preiszugeben oder schädliche Inhalte zu generieren. Die ursprünglichen Befunde galten als Beleg für die Risiken, die speziell von leistungsfähigen Frontier-Modellen ausgehen – also jenen Systemen, die an der technologischen Spitze operieren.

„Was bislang als Problem der Spitzenforschung galt, ist längst in der kommerziellen Realität angekommen.”

Reproduktion mit GPT-5.4 und Claude Opus 4.6

Die Forscher von Vidoc Security nutzten eine Open-Source-Testumgebung und setzten dabei auf GPT-5.4 sowie Claude Opus 4.6 – beides Modelle, die regulär über kommerzielle APIs zugänglich sind. Innerhalb dieses Rahmens gelang es dem Team, die wesentlichen Angriffsmuster aus dem Mythos-Projekt nachzubilden. Die vergleichsweise niedrigen Kosten pro Durchlauf unterstreichen, dass der Aufwand für solche Angriffe erheblich gesunken ist.

Implikationen für die Sicherheitsforschung

Der Befund hat mehrere weitreichende Konsequenzen:

Replizierbarkeit: Schwachstellen aus kontrollierten Forschungsumgebungen sind mit verbreiteten kommerziellen Modellen nachbildbar.
Niedrige Einstiegshürde: Die geringe finanzielle Barriere senkt die Zugangsschwelle für potenzielle Angreifer drastisch.
Demokratisierung der Testmethoden: Sophistizierte Angriffswerkzeuge sind nicht länger auf gut finanzierte Forschungslabore beschränkt.

Vidoc Security betont, die Ergebnisse verantwortungsbewusst offengelegt zu haben. Ziel sei es, Unternehmen und Anbieter für die praktische Ausnutzbarkeit dieser Schwachstellen zu sensibilisieren – nicht, Angriffswerkzeuge bereitzustellen.

Schwachstellen sind kein abstraktes Problem mehr

Wer KI-Modelle in Geschäftsprozessen einsetzt, muss damit rechnen, dass dieselben Angriffsmuster auch gegen eigene Deployments angewendet werden können.

Bislang stuften viele Unternehmen das Risiko aus KI-spezifischen Sicherheitslücken als theoretisch oder auf Hochrisikoumgebungen begrenzt ein. Die neue Untersuchung widerlegt diese Einschätzung. Anwendungsfelder wie Kundenservice, interne Wissensabfragen oder die Verarbeitung sensibler Dokumente sind potenziell ebenso angreifbar.

Einordnung für deutsche Unternehmen

Für Unternehmen im deutschsprachigen Raum, die Large Language Models in produktiven Systemen betreiben, ergibt sich daraus konkreter Handlungsbedarf:

Red-Teaming und Adversarial Testing gehören zur regulären Sicherheitspraxis – nicht mehr zum optionalen Zusatz.
Der EU AI Act sieht für Hochrisiko-KI-Anwendungen explizite Robustheitsnachweise vor – diese Befunde erhöhen den Druck zur Umsetzung.
Sicherheitsteams sollten prüfen, ob bestehende Testverfahren auch modellspezifische Angriffsvektoren abdecken.
Anbieter sollten aktiv nach deren aktuellen Mitigationsmaßnahmen für die beschriebenen Schwachstellenklassen befragt werden.

Quelle: Decrypt AI