Anthropics zurückgehaltenes Cybersecurity-Modell: Unabhängige Tests zweifeln an dessen Einzigartigkeit

Anthropic hält sein Cybersecurity-Modell Claude Mythos unter Verschluss – mit dem Argument, es sei zu gefährlich für die Öffentlichkeit. Doch unabhängige Tests legen nahe, dass die demonstrierten Fähigkeiten womöglich gar nicht so einzigartig sind, wie das Unternehmen behauptet. Ein Fall, der grundlegende Fragen zur Glaubwürdigkeit von KI-Sicherheitseinstufungen aufwirft.

Anthropics zurückgehaltenes Cybersecurity-Modell: Unabhängige Tests stellen Einzigartigkeit infrage

Zurückhalten mit Begründung

Anthropic hatte Claude Mythos im vergangenen Jahr als spezialisiertes Modell für Cybersecurity-Anwendungen vorgestellt – es jedoch nicht öffentlich zugänglich gemacht. Die offizielle Begründung: Das Modell verfüge über Fähigkeiten zur automatisierten Schwachstellenanalyse, die ein zu hohes Missbrauchspotenzial mit sich brächten. Stattdessen soll der Zugang nur für geprüfte Sicherheitsforscher und Unternehmen mit nachgewiesenem Bedarf möglich sein.

Diese Entscheidung positionierte Claude Mythos als eines der wenigen KI-Modelle, das explizit aufgrund seiner Fähigkeiten vom Markt ferngehalten wird.


Was die Tests zeigen

Unabhängige Sicherheitsforscher haben die in Anthropics Demos gezeigten Aufgaben mit anderen, frei verfügbaren Modellen nachgestellt – darunter kleinere Open-Source-Large Language Models. Das Ergebnis ist ernüchternd:

Die demonstrierten Schwachstellenanalysen ließen sich in wesentlichen Teilen replizieren – mit Modellen, die ohne besondere Zugangsschranken verfügbar sind.

Das bedeutet nicht zwingend, dass Claude Mythos keine überlegenen Fähigkeiten besitzt. Die Tests decken nur die öffentlich gezeigten Demos ab, nicht das volle Leistungsspektrum des Modells. Dennoch stellen die Ergebnisse die zentrale Prämisse infrage, auf der Anthropic die Zugangsbeschränkung begründet hat.


Selektive Zurückhaltung als Strategie

Der Fall wirft grundsätzliche Fragen zu einem Muster auf, das in der KI-Branche zunehmend zu beobachten ist: Unternehmen begründen die Nicht-Veröffentlichung von Modellen mit Sicherheitsargumenten, ohne dass externe Stellen die Validität dieser Einschätzungen überprüfen können.

Kritiker sprechen von einem Mechanismus, der Sicherheitsrhetorik mit Geschäftsinteressen verbindet – etwa der kontrollierten Monetarisierung spezialisierter Modelle über geprüfte Unternehmenskunden.

Anthropic selbst betont, dass die Einschätzung auf internen Evaluierungen beruhe und dass die gezeigten Demos nur einen Ausschnitt der Modellkapazitäten darstellten. Eine unabhängige Überprüfung der vollständigen Fähigkeiten ist definitionsgemäß nicht möglich, solange das Modell nicht zugänglich ist.


Methodische Grenzen der Debatte

Die Untersuchungen haben klare methodische Einschränkungen: Wer nur öffentliche Demos repliziert, kann keine Aussage über die Gesamtleistung eines Modells treffen. Gleichzeitig gilt:

Wenn die sicherheitskritischen Beispiele, mit denen Anthropic die Zugangsbeschränkung öffentlich rechtfertigt, von kleineren Modellen reproduzierbar sind, schwächt das die Begründungslogik erheblich.

Für die breitere Debatte um KI-Sicherheitseinstufungen – ein Bereich, in dem es bislang kaum standardisierte externe Prüfverfahren gibt – ist der Fall dennoch aufschlussreich. Er zeigt, wie schwer es ist, unternehmensinterne Gefährlichkeitsbewertungen von außen einzuordnen.


Einordnung für deutsche Unternehmen

Für Sicherheitsverantwortliche und IT-Entscheider in deutschen Unternehmen hat dieser Fall praktische Relevanz:

Die Annahme, dass proprietäre, zurückgehaltene Modelle automatisch leistungsfähiger oder gefährlicher sind als frei verfügbare Alternativen, lässt sich nicht pauschal aufrechterhalten. Konkret bedeutet das:

  • Unabhängige Benchmarks einfordern statt Unternehmensaussagen blind vertrauen
  • Sicherheitsargumente ohne externe Verifizierbarkeit mit angemessener Skepsis behandeln
  • Die regulatorische Dimension im Blick behalten: Die Debatte um Claude Mythos dürfte die Diskussion über Anforderungen an KI-Gefährlichkeitsbewertungen in der EU weiter befeuern

Quelle: The Decoder – Anthropics zu gefährliche Cybersecurity-KI Claude Mythos könnte sich als Mythos erweisen

Scroll to Top