OpenAI veröffentlicht Open-Source-Tool zur Filterung sensibler Daten vor der KI-Verarbeitung

OpenAI hat ein quelloffenes Sprachmodell veröffentlicht, das personenbezogene Daten lokal filtert, bevor sie an Cloud-KI-Dienste übermittelt werden – ein potenzieller Wendepunkt für datenschutzkonforme KI-Nutzung in Unternehmen.

OpenAI veröffentlicht Open-Source-Tool zur Filterung sensibler Daten vor der KI-Verarbeitung

OpenAI hat ein kleines, frei verfügbares Sprachmodell veröffentlicht, das personenbezogene und vertrauliche Daten aus Texten entfernt, bevor diese an einen KI-Dienst wie ChatGPT übermittelt werden. Das Tool läuft lokal auf dem eigenen Rechner und soll eine zusätzliche Schutzschicht zwischen Nutzer und Cloud-KI schaffen.

Funktionsweise: Lokale Vorfilterung vor der Cloud

Das Modell erkennt und maskiert sogenannte Personally Identifiable Information (PII) – darunter Namen, Adressen, Passwörter und Kontonummern – direkt auf dem Gerät des Nutzers. Erst nach dieser lokalen Bereinigung wird der Text an den jeweiligen KI-Dienst weitergeleitet.

Da die Verarbeitung vollständig lokal stattfindet, verlassen die Originaldaten zu keinem Zeitpunkt das eigene System.

OpenAI stellt das Modell als Open-Source-Projekt bereit, was bedeutet, dass Unternehmen den Quellcode einsehen, anpassen und in eigene Workflows integrieren können. Das Modell ist bewusst kompakt gehalten, um auch auf handelsüblicher Hardware ohne spezialisierte GPU-Infrastruktur betrieben werden zu können.

Warum das für Unternehmen relevant ist

Der Einsatz von Large Language Models in Geschäftsprozessen scheitert in vielen Organisationen nicht an technischen, sondern an rechtlichen und Compliance-bezogenen Hürden. Insbesondere unter der DSGVO ist die Übermittlung personenbezogener Daten an externe Cloud-Dienste ohne geeignete Rechtsgrundlage oder entsprechende Vertragswerke problematisch. Ein vorgelagertes Filtermodell, das PII vor der Übertragung entfernt, könnte diesen Engpass in bestimmten Anwendungsfällen entschärfen.

Allerdings ist Vorsicht geboten:

Eine automatisierte Maskierung ersetzt keine rechtliche Prüfung.

Die Qualität der Erkennung hängt von der Trainingsdatenbasis und der Konfiguration des Modells ab – Fehler bei der Erkennung, etwa durch ungewöhnliche Schreibweisen oder branchenspezifische Datenformate, sind nicht auszuschließen. Unternehmen, die das Tool produktiv einsetzen wollen, sollten die Erkennungsrate vorab systematisch testen.

Open Source als strategisches Signal

Die Entscheidung, das Tool als Open-Source-Projekt zu veröffentlichen, ist bemerkenswert. OpenAI positioniert sich damit in einem Bereich, der zunehmend von Regulatoren und Unternehmenskunden beobachtet wird: dem verantwortungsvollen Umgang mit Nutzerdaten.

Gleichzeitig senkt ein frei verfügbares, lokal betreibbares Tool die Einstiegshürde für kleinere Unternehmen, die bislang keine eigenen Datenschutzlösungen für den KI-Einsatz implementiert haben. Die Veröffentlichung fügt sich in einen breiteren Trend ein: Mehrere Anbieter arbeiten daran, KI-Anwendungen mit datenschutzorientierten Vorverarbeitungsschichten auszustatten, um den Bedenken von Compliance-Teams und Datenschutzbehörden entgegenzukommen.

Einordnung für deutsche Unternehmen

Für Unternehmen im deutschsprachigen Raum, die unter dem Druck stehen, KI-Produktivitätswerkzeuge DSGVO-konform einzusetzen, stellt das Tool einen prüfenswerten Ansatz dar. Es eignet sich als technische Schutzmaßnahme im Sinne von Artikel 25 DSGVO (Privacy by Design), ersetzt jedoch weder eine Datenschutz-Folgenabschätzung noch klare interne Richtlinien zum KI-Einsatz.

Rechts- und IT-Abteilungen sollten das Modell gemeinsam evaluieren – idealerweise eingebettet in eine umfassendere KI-Governance-Strategie.

Quelle: Decrypt AI