Anthropic lässt Claude psychiatrisch begutachten

Anthropic hat sein KI-Modell Claude über rund 20 Stunden psychiatrischen Interviews unterzogen – ein ungewöhnlicher Schritt, der die Grenzen klassischer KI-Sicherheitsevaluierung sichtbar macht und die Frage aufwirft, was „psychologische Stabilität” bei einem Sprachmodell überhaupt bedeutet.

Anthropic lässt Claude von einem Psychiater begutachten

Strukturierte Evaluation statt interner Einschätzung

Anthropic beauftragte nach eigenen Angaben einen echten Psychiater, Claude in ausgedehnten Gesprächssitzungen auf psychologische Belastbarkeit zu prüfen. Die Gespräche sollten unter anderem zeigen, wie das Modell mit Provokationen, existenziellen Fragen zu seiner eigenen Natur und destabilisierenden Gesprächsmustern umgeht.

Das Ergebnis dieser Untersuchung floss direkt in das Training des aktuellen Modells ein, das intern unter dem Codenamen „Mythos” entwickelt wurde.

Anthropic bezeichnet „Mythos” als das bislang „psychologisch gefestigtste Modell”, das das Unternehmen trainiert hat – konsistenter im Umgang mit gezielten Manipulationsversuchen als alle Vorgänger.

Warum psychologische Stabilität relevant ist

Die Frage, wie stabil ein Large Language Model unter Druck bleibt, ist keine theoretische. Nutzer und Unternehmen setzen KI-Assistenten zunehmend in sensiblen Kontexten ein – von der Kundenbetreuung über HR-Prozesse bis hin zur rechtlichen oder medizinischen Vorprüfung.

Modelle, die sich durch persistentes Nachfragen, emotional aufgeladene Formulierungen oder sogenannte Jailbreak-Versuche aus der Bahn bringen lassen, stellen ein praktisches Sicherheitsrisiko dar.

Anthropic versucht mit dem psychiatrischen Evaluierungsansatz, eine Lücke zu schließen, die rein technische Benchmarks offen lassen:

Standardtests messen Genauigkeit, Faktentreue oder Aufgabenerfüllung – aber kaum das Verhalten eines Modells unter sozialem oder emotionalem Druck über einen längeren Gesprächsverlauf hinweg.

Methodik mit offenen Fragen

Trotz des methodisch interessanten Ansatzes bleiben kritische Punkte ungeklärt:

Konzeptionelle Übertragbarkeit: Psychiatrische Kategorien wurden für menschliches Verhalten entwickelt. Ein Modell hat keine Biografie, keine Kindheitserfahrungen und keinen Körper – die Übertragung ist daher nicht ohne Weiteres belastbar.
Fehlende Unabhängigkeit: Das Verfahren ist unternehmensintern. Genaue Methodik und Ergebnisse sind nicht vollständig öffentlich zugänglich, eine unabhängige Überprüfung damit nur eingeschränkt möglich.

Das ist ein grundsätzliches Problem bei vielen KI-Sicherheitsevaluierungen: Sie werden von denselben Unternehmen durchgeführt, die ein kommerzielles Interesse an positiven Ergebnissen haben.

Einordnung für deutsche Unternehmen

Für Unternehmen im deutschsprachigen Raum, die KI-Modelle in kritischen Geschäftsprozessen einsetzen oder planen einzusetzen, ist dieser Ansatz aus zwei Gründen relevant:

Verhaltensevaluierung als neuer Standard: Führende Anbieter gehen zunehmend über technische Leistungsmetriken hinaus – ein Kriterium, das bei Anbieterwahl und Risikoprüfung berücksichtigt werden sollte.
Compliance und Haftung: Die Robustheit eines Modells gegenüber Manipulation – auch unbeabsichtigter – hat direkte Auswirkungen auf rechtliche Verantwortlichkeit. Der EU AI Act fordert für Hochrisiko-Anwendungen explizit Nachweise zur Zuverlässigkeit und Robustheit eingesetzter Systeme.

Evaluierungsansätze wie der von Anthropic könnten künftig als Teil solcher Nachweise regulatorisch relevant werden.

Quelle: Ars Technica AI