jens.marketing
Compliance & SicherheitTool-Test

OpenAI Privacy Filter: PII-Maskierung für DSGVO-konforme KI-Workflows

Jens Polomski6 min Lesezeit
Was es macht

OpenAI bringt mit Privacy Filter ein Open-Weight-Modell, das PII direkt auf deinem Laptop erkennt und maskiert — bevor Lead-Daten, Support-Tickets oder Workshop-Notizen überhaupt zu ChatGPT, Claude oder Gemini wandern. Das ist mehr als ein Tool — das ist ein DSGVO-Hebel.

Direkt zum Tool Externer Link · ggf. Affiliate
Kategorie · Compliance & SicherheitTag · KI-ToolQuelle · jens.marketing
Im Detail

Wenn du in einem deutschen Marketing-Team arbeitest, kennst du das Spiel: Du willst eine Excel mit 800 Lead-Datensätzen schnell von Claude clustern lassen, die HubSpot-Tickets vom letzten Quartal von ChatGPT zusammenfassen lassen, oder die Mitschrift aus dem Workshop letzte Woche durch ein LLM jagen. Und dann zuckst du. Weil da Klarnamen, Telefonnummern, IBAN-Schnipsel und Mail-Adressen drin stehen — und seit dem 2. Februar 2025 der EU-AI-Act greift, seit Mai 2018 die DSGVO sowieso.

OpenAI hat am 22. April 2026 ein Werkzeug veröffentlicht, das genau dieses Reibungs-Problem adressiert: den Privacy Filter — ein Open-Weight-Modell, das persönlich identifizierbare Informationen in unstrukturiertem Text erkennt und maskiert, bevor der Text überhaupt das eigene Gerät verlässt. Apache 2.0, läuft auf einem normalen Laptop, kostet nichts. Das ist ungewöhnlich für OpenAI — und es ist genau das Setup, das DACH-B2B-Teams seit Jahren wollten.

Was Privacy Filter konkret macht

Privacy Filter ist ein 1,5-Milliarden-Parameter-Modell mit Sparse-Mixture-of-Experts-Architektur — von diesen 1,5B sind aber nur 50M Parameter pro Inferenz aktiv (128 Experten, Top-4-Routing). Heißt im Klartext: Das Ding läuft auf einem MacBook, theoretisch sogar im Browser via WebAssembly. Du brauchst keine GPU-Cluster, kein Azure-Abo, keinen API-Call zu OpenAI — die Gewichte liegen auf Hugging Face, du lädst sie runter, du fährst los.

Erkannt werden acht PII-Kategorien: account_number (Kontonummern, IBANs), private_address, private_email, private_person (Klarnamen), private_phone, private_url, private_date (Geburtsdaten etc.) und secret (Passwörter, Tokens, API-Keys). Die Detection ist kontextsensitiv — das Modell erkennt also den Unterschied zwischen "Müller GmbH" als Firmenname und "Hans Müller" als Person, oder zwischen einer öffentlichen Support-Mail und einer privaten Adresse.

Auf dem PII-Masking-300k-Benchmark liefert Privacy Filter einen F1-Score von 96 % (94 % Precision, 98 % Recall). In der bereinigten Benchmark-Version, die Annotations-Fehler korrigiert, sind es 97,4 %. Das Kontextfenster liegt bei 128.000 Tokens in einem einzigen Pass — du kannst also einen 200-Seiten-Salesforce-Export am Stück durchschicken, ohne ihn zu chunken. Statt simpler Token-Klassifizierung läuft die Inferenz über Constrained Viterbi Decoding mit BIOES-Schema und sechs anpassbaren Transition-Bias-Parametern. Auf Deutsch: Du kannst Precision und Recall zur Laufzeit verschieben, ohne nachzutrainieren — bei rechtlich heiklen Workloads drehst du auf Recall-Maximum, bei UX-orientierten Pipelines auf Precision.

Drei Marketing-Use-Cases die wirklich relevant sind

1. Lead-Daten anonymisieren vor dem LLM-Call. Du hast einen CSV-Export aus HubSpot mit 1.200 MQLs aus dem Q1-Webinar. Du willst Claude oder ChatGPT bitten, daraus Persona-Cluster, Branchenmuster und Outreach-Ansätze zu ziehen. Klassisches DSGVO-Problem: Klarnamen, Firmen-Mails und Telefonnummern bei OpenAI oder Anthropic in den USA. Workflow neu: Excel → Privacy Filter lokal → masked CSV ([PERSON_1], [EMAIL_1], [COMPANY_1]) → ans LLM → Erkenntnisse zurück → Mapping über die Token-IDs zurück auf die echten Datensätze. Für Auftragsverarbeitung nach Art. 28 DSGVO entfällt damit der heikelste Teil: Es werden gar keine personenbezogenen Daten mehr an den Auftragsverarbeiter übertragen.

2. Support-Tickets bereinigen vor KI-Analyse. Zendesk- oder Freshdesk-Export der letzten 90 Tage, du willst Themen-Cluster, Sentiment-Verläufe und Eskalations-Trigger. In jedem Ticket: Kunden-Name, Bestellnummer, Telefonnummer, manchmal IBAN bei Refund-Cases. Privacy Filter läuft als Pre-Processing-Step in deinem n8n- oder Make-Workflow — Webhook rein, maskierter Text raus, dann erst zu Gemini oder Claude. Die Bestellnummern bleiben als Token erhalten, du kannst die Cluster später wieder rückübersetzen, ohne dass der Volltext jemals US-Server gesehen hat.

3. Workshop-Notizen pseudonymisieren. Wer wie ich regelmäßig KI-Workshops in Konzernen hält, sammelt am Ende eines Tages 30+ Seiten Whiteboard-Fotos, Otter-Transkripte, Slack-Auszüge. Da stehen Namen von Mitarbeitenden, Gehaltszahlen, interne Projekt-Codenamen. Wenn du daraus eine Zusammenfassung mit ChatGPT bauen willst — oder schlimmer, ein internes Wissens-Repository — musst du das pseudonymisieren. Privacy Filter macht das in einem Pass über alle Dateien. Für die EU-AI-Act-Schulungspflicht ist das nebenbei ein dokumentierbarer technischer Schutz — du kannst gegenüber Datenschutzbeauftragten, Betriebsrat und Auditoren belegen, dass personenbezogene Trainings-Inputs technisch maskiert werden.

Wo Privacy Filter nicht reicht

So gut das Modell ist, es ist kein DSGVO-Allheilmittel. Drei Limits, die du kennen solltest:

Deutsche Spezifika sind unterrepräsentiert. Steuer-IDs (11-stellig), Sozialversicherungsnummern, Krankenkassen-IK-Nummern, Personalnummern aus SAP-HR — das Trainings-Set ist primär englischsprachig. Die generischen Kategorien (account_number, secret) fangen vieles, aber wenn du im HR-Marketing oder im Healthcare-Vertrieb unterwegs bist, brauchst du Domänen-Fine-Tuning. OpenAI gibt an, dass Fine-Tuning auf wenigen Tausend Beispielen den F1-Score von 54 % auf 96 % auf domänenspezifischen Tasks hebt — das ist gut, aber es ist Aufwand.

Kontextsensitive PII bleibt schwierig. Wenn in einem Ticket steht "Der Kunde von der Bonner Filiale, Sie wissen schon, der mit dem Mercedes" — dann ist das nach DSGVO identifizierbar (Art. 4 Nr. 1), für Privacy Filter aber unsichtbar. Quasi-Identifier, indirekte Personenbezüge und Kombinations-Risiken (k-Anonymität) sind außerhalb des Scope.

Maskierung ist nicht Anonymisierung. Wenn du Token wie [PERSON_1] zurück auf echte Datensätze mappen kannst, ist das Pseudonymisierung im Sinne von Art. 4 Nr. 5 DSGVO — nicht Anonymisierung. Du brauchst trotzdem AVV, TOMs, Löschkonzept und Rechtsgrundlage. Privacy Filter senkt das Risiko-Niveau, er entkoppelt dich nicht von der Verordnung.

Alternativen im Vergleich

Microsoft Presidio ist das Open-Source-Schwergewicht: kostenlos, Python-SDK, Self-Hosted, deckt mehr Datentypen ab (auch Bilder, strukturierte Daten). Schwächer bei kontextsensitivem Text, weil regelbasiert plus klassisches NER — Privacy Filter schlägt es deutlich bei freier Prosa wie Tickets und Mails.

AWS Comprehend PII kostet 0,0001 $ pro 100 Zeichen, läuft als Managed API. Heißt: Dein Text geht zu AWS-Servern. Für US-Workloads okay, für DACH-DSGVO-Compliance ist das ein Auftragsverarbeitungs-Verhältnis mit Drittland-Implikationen — gerade nach dem Schrems-II-Urteil unangenehm. Sprachen: Englisch, Spanisch. Deutsch wird über Translate-Vorstufe gemacht, was die Genauigkeit drückt.

Google Cloud DLP ist umfangreicher, deckt strukturierte Daten und Bilder mit ab, hat tausend Konfigurationsschrauben. Nachteile: SaaS-only, Pricing nicht trivial, und auch hier verlässt der Text die EU-Grenze (außer bei expliziten EU-Region-Pinnings, die zusätzliche Konfiguration brauchen).

Privacy Filters Killer-Feature im DACH-Kontext: Lokale Ausführung + Apache 2.0 + 96 % F1. Diese Kombination gab es vorher nicht in der Form. Presidio kommt am nächsten — wer maximale Genauigkeit auf freiem Text will, nimmt Privacy Filter, wer maximale Datentyp-Abdeckung will, nimmt Presidio. Beides parallel ist ein valider Ansatz.

Setup & Pricing

Pricing: 0 €. Apache-2.0-Lizenz, kommerzielle Nutzung erlaubt, keine Per-Call-Kosten. Du zahlst nur die Hardware, auf der es läuft — und die ist minimal. Ein MacBook Pro M2 reicht, ein dedizierter Server mit 16 GB RAM auch.

Setup in der Praxis: pip install transformers, Modell von Hugging Face ziehen (openai/privacy-filter), in eine Python-Function packen, als FastAPI-Endpoint exposen oder direkt in deinen n8n-Code-Node bauen. Wer mit Make.com oder Zapier arbeitet, hostet sich am besten einen kleinen Endpoint auf einem Hetzner Cloud Server (ab 4,50 €/Monat) — DSGVO-konform in Falkenstein, latenzarm, in 30 Minuten aufgesetzt. Latenz pro Anfrage liegt bei wenigen hundert Millisekunden für typische Marketing-Texte; du kannst mit dem 128k-Kontextfenster auch große Dokumente am Stück verarbeiten.

Fazit für Marketing-Verantwortliche

Privacy Filter ist eines der wenigen KI-Releases 2026, das kein Hype-Problem hat. Es löst eine konkrete, teure, regelmäßig auftretende Friktion: den Konflikt zwischen "wir wollen LLMs nutzen" und "wir dürfen keine personenbezogenen Daten an US-Anbieter geben". Wer in DACH-B2B-Marketing arbeitet, sollte das Tool diese Woche in einer Testpipeline durchspielen — Lead-Export anonymisieren, einmal durch Claude oder ChatGPT jagen, Resultate zurück-mappen.

Drei Empfehlungen: (1) Wenn du einen DSB im Haus hast, leg ihm das Tool inklusive Modell-Card vor — das ist konkretes Material für eure TOMs. (2) Baue Privacy Filter als Pre-Processing-Step in alle Workflows ein, in denen Texte mit Kundenbezug an externe LLMs gehen. (3) Plane Domänen-Fine-Tuning für eure Spezifika ein, wenn ihr mit Personalakten, Health-Daten oder Finanzdaten arbeitet — der Weg von 54 % auf 96 % F1 mit wenigen tausend Beispielen ist nachweislich machbar.

Praxis statt Hype: Hier ist es endlich beides.

Verwandt

Mehr Tool-Tests in deinem Posteingang

Sonntags filtere ich, was diese Woche zählt.

Über 45.000 Marketer:innen lesen den KI-Newsletter. Kein Hype, keine Affiliate-Kaskade — nur Tools, die ich selbst angefasst habe.

Newsletter abonnieren