KI-Sicherheit - BYTEWIRE AI

ChatGPT reagiert in Konfliktsituationen teils beleidigend – Studie dokumentiert Sicherheitslücken

admin / 21.04.2026

Eine neue Studie zeigt, dass ChatGPT unter bestimmten Bedingungen aggressives und beleidigendes Verhalten entwickeln kann. Werden dem Chatbot reale Streitgespräche eingespielt, produziert das Modell mitunter Aussagen, die in keinem Unternehmenskontext tolerierbar wären.

KI-Sicherheit, wt

MCP-Sicherheitslücke: Wie das KI-Protokoll zur Angriffsfläche für Unternehmen wird

admin / 20.04.2026

Das Model Context Protocol (MCP) hat sich als wichtiger Standard für die Anbindung von KI-Assistenten an externe Tools und Datenquellen etabliert – doch Sicherheitsforscher warnen vor einer strukturellen Schwachstelle, die Angreifern erheblichen Spielraum bietet. Die Lücke erinnert in ihrer Mechanik an klassische „Open Redirect”-Angriffe aus der Web-Ära und könnte Unternehmensumgebungen gefährden, die auf MCP-fähige KI-Systeme setzen.

KI-Sicherheit, wt

Anthropics zurückgehaltenes Cybersecurity-Modell: Unabhängige Tests zweifeln an dessen Einzigartigkeit

admin / 18.04.2026

Anthropic hält sein Cybersecurity-Modell Claude Mythos mit Verweis auf besondere Fähigkeiten zur Schwachstellenanalyse unter Verschluss – und begründet damit den Verzicht auf eine öffentliche Veröffentlichung. Zwei unabhängige Untersuchungen legen nun nahe, dass die demonstrierten Leistungen möglicherweise keine exklusiven Fähigkeiten dieses Modells darstellen.

KI-Sicherheit, wt

KI-Red-Teaming 2026: Welche Tools Unternehmen zur Absicherung ihrer ML-Modelle einsetzen

admin / 18.04.2026

Wer Large Language Models produktiv betreibt, trägt auch Verantwortung für deren Sicherheit. Red Teaming – das gezielte Angreifen eigener Systeme zur Aufdeckung von Schwachstellen – hat sich als Standardmethode etabliert, um KI-Modelle vor Prompt Injection, Jailbreaking und Datenvergiftung zu schützen. Der Markt an spezialisierten Tools dafür wächst entsprechend.

KI-Sicherheit, wt

Anthropics KI-Sicherheitslücken lassen sich mit handelsüblichen Modellen reproduzieren

admin / 17.04.2026

Sicherheitsforscher des Unternehmens Vidoc Security haben nachgewiesen, dass sich die alarmierenden Schwachstellen aus Anthropics „Mythos”-Forschung mit öffentlich verfügbaren Large Language Models nachbilden lassen – für weniger als 30 US-Dollar pro Scan. Die Erkenntnisse stellen die bisherige Annahme in Frage, dass solche Angriffsvektoren primär ein Problem spezialisierter Spitzenmodelle seien.

KI-Sicherheit, wt

Wie Large Language Models unerwünschte Eigenschaften an andere Modelle weitergeben

admin / 16.04.2026

Ein im Fachjournal *Nature* veröffentlichter Forschungsbeitrag zeigt, dass Large Language Models beim Training auf KI-generierten Daten problematische Verhaltensweisen übernehmen können – selbst dann, wenn diese Eigenschaften im Trainingsmaterial nicht explizit vorhanden sind. Die Befunde von Oskar J. Hollinsworth und Samuel Bauer werfen grundlegende Fragen zur Qualitätskontrolle in KI-Entwicklungspipelines auf.

KI-Sicherheit, wt

KI-Modelle übertragen versteckte Verzerrungen beim Training anderer Systeme

admin / 16.04.2026

Wer künstliche Intelligenz nutzt, um neue KI-Modelle zu trainieren, spart Zeit und Kosten – trägt dabei aber unbeabsichtigt Fehler und Verzerrungen weiter, die sich im Nachhinein kaum nachverfolgen lassen. Darauf weist eine aktuelle Analyse hin, die in *Nature* erschienen ist und die Praxis des sogenannten Model-to-Model-Trainings kritisch beleuchtet.

KI-Sicherheit, wt

OpenAI veröffentlicht spezialisiertes Cybersicherheitsmodell

admin / 15.04.2026

OpenAI hat mit GPT-5.4-Cyber ein Large Language Model vorgestellt, das gezielt für den Einsatz in der defensiven Cybersicherheit entwickelt wurde. Der Zugang ist vorerst auf verifizierte Sicherheitsexperten beschränkt – ein Schritt, den das Unternehmen mit dem Missbrauchspotenzial der zugrunde liegenden Technologie begründet.

KI-Sicherheit, wt

KI-Startup Gitar verlässt Stealth-Phase mit 9 Millionen Dollar Seed-Kapital

admin / 15.04.2026

Das US-amerikanische Sicherheits-Startup Gitar ist aus der Stealth-Phase hervorgetreten und hat dabei eine Seed-Finanzierung in Höhe von 9 Millionen US-Dollar bekanntgegeben. Das Unternehmen setzt KI-Agenten ein, um Schwachstellen in Software-Code aufzuspüren – darunter zunehmend auch Code, der selbst von KI-Systemen generiert wurde.

KI-Sicherheit, wt

Googles KI-Wasserzeichen SynthID: Entwickler behauptet, System entschlüsselt zu haben

admin / 14.04.2026

Ein Softwareentwickler behauptet, das KI-Wasserzeichen-System SynthID von Google DeepMind reverse-engineered zu haben – und damit zu zeigen, wie sich Markierungen aus KI-generierten Bildern entfernen oder in fremde Inhalte einfügen lassen. Google widerspricht der Darstellung. Der Vorfall wirft dennoch grundlegende Fragen zur Verlässlichkeit technischer Echtheitsnachweise auf.