Anthropics Claude Mythos: UK-Sicherheitsinstitut identifiziert erhebliche Cybersicherheitsrisiken

Das britische AI Safety Institute hat Anthropics neuestes Modell Claude Mythos auf potenzielle Sicherheitsrisiken untersucht – mit beunruhigenden Ergebnissen. Die Befunde entfachen eine grundsätzliche Debatte darüber, wo die Grenze zwischen nützlicher KI-Fähigkeit und gefährlichem Missbrauchspotenzial verläuft.

Anthropics Claude Mythos: UK-Sicherheitsinstitut sieht erhebliches Cybersicherheitsrisiko

Testresultate des UK AI Safety Institute

Das britische AI Safety Institute, das unter dem Department for Science, Innovation and Technology operiert, gehört zu den wenigen unabhängigen Institutionen weltweit, die Zugang zu KI-Modellen vor deren öffentlicher Veröffentlichung erhalten. Bei der Evaluation von Claude Mythos stellten die Tester fest, dass das Modell in sicherheitsrelevanten Bereichen Fähigkeiten zeigt, die über frühere Generationen von Sprachmodellen hinausgehen.

Konkret soll das Modell in der Lage sein, bei der Identifikation und potenziellen Ausnutzung von Sicherheitslücken zu assistieren – ein Befund, der in der Fachöffentlichkeit intensiv diskutiert wird.

Die genauen Testparameter und vollständigen Ergebnisse wurden nicht veröffentlicht, was eine unabhängige Überprüfung der Schlussfolgerungen erheblich erschwert.

Das Institut arbeitet nach einem Modell, bei dem Sicherheitsbewertungen vor der Markteinführung stattfinden und Ergebnisse nur selektiv kommuniziert werden.

Anthropics eigener Ansatz zur Risikobewertung

Anthropic selbst hat ein internes Framework zur Risikobewertung entwickelt: die sogenannte Responsible Scaling Policy. Darin werden Modelle nach ihrem potenziellen Schadenspotenzial in verschiedene Kategorien eingestuft. Das Unternehmen argumentiert, dass die in Claude Mythos eingesetzten Sicherheitsmechanismen – darunter verstärktes Constitutional AI Training – die identifizierten Risiken ausreichend adressieren.

Kritiker hingegen weisen darauf hin, dass solche unternehmensinternen Bewertungen strukturell begrenzt sind:

„Anbieter haben wirtschaftliche Interessen an der Markteinführung ihrer Modelle – das schränkt die Aussagekraft selbst durchgeführter Sicherheitsbewertungen zwangsläufig ein.”

Die Frage, wer letztlich über ausreichende Sicherheit entscheidet, bleibt im aktuellen regulatorischen Umfeld weitgehend ungeklärt.

Einordnung: Reales Risiko oder Alarmismus?

Die Debatte um Claude Mythos spiegelt ein grundsätzlicheres Problem der KI-Sicherheitsforschung wider: die Schwierigkeit, objektive Maßstäbe für „gefährliche Fähigkeiten” zu definieren. Dass ein leistungsfähiges Sprachmodell bei technischen Fragestellungen präzisere Antworten liefert als seine Vorgänger, ist per se kein Beleg für eine neue Bedrohungskategorie – gleichzeitig wäre es analytisch verfehlt, signifikante Leistungssprünge in sensiblen Bereichen ohne weitere Untersuchung abzutun.

Sicherheitsforscher unterscheiden dabei zwischen zwei zentralen Konzepten:

Uplift-Potential – ob ein Modell einem Angreifer tatsächlich neue Fähigkeiten verschafft, die ohne KI nicht erreichbar wären
Effizienzsteigerung – bloße Beschleunigung bei ohnehin zugänglichem Wissen

Die vorliegenden Berichte deuten darauf hin, dass das Institut beim Uplift-Potential von Claude Mythos konkrete Bedenken formuliert hat – ohne dabei eine abschließende Bewertung vorzunehmen.

Relevanz für deutsche Unternehmen

Für IT-Sicherheitsverantwortliche in deutschen Unternehmen ergibt sich aus diesem Befund eine praktische Konsequenz: Leistungsfähige Sprachmodelle können zunehmend auch von Angreifern eingesetzt werden, um Angriffsvektoren systematischer zu erkunden oder Phishing-Kampagnen zu verfeinern.

Die entscheidende Frage lautet nicht mehr ob KI-gestützte Cyberangriffe stattfinden, sondern wie schnell die Qualität dieser Angriffe steigt. Unternehmen sollten:

Bedrohungsmodelle um KI-spezifische Szenarien erweitern
Sicherheitsaudits entsprechend aktualisieren
Entwicklungen rund um unabhängige Modell-Evaluierungen aktiv verfolgen

Dies gilt unabhängig davon, wie die abschließende Bewertung von Claude Mythos durch unabhängige Stellen letztlich ausfallen wird.

Quelle: Decrypt AI