Fähigkeit

Sensible Inhalte bleiben auf dem Bildschirm lesbar, werden im Screenshot aber unlesbar

Wenn jemand mit reiner Anzeigeberechtigung ein Foto des Bildschirms macht, verlässt das Bild Ihre Organisation als Pixel — und heutige KIs können aus diesen Pixeln innerhalb von Sekunden Text extrahieren. ZeroLeak ordnet diese Pixel so an, dass die Person vor dem Bildschirm den Inhalt bequem liest, das Bild aber bedeutungslose Ausgaben erzeugt, wenn es einer OCR-Engine oder einem KI-Bildmodell übergeben wird.

Die meisten Organisationen halten bekannte Datenausgangswege wie Kopieren-Einfügen, Dateidownload und E-Mail-Weiterleitung bereits unter Kontrolle. Es bleibt ein einziger Weg, der nicht geschlossen werden kann: der Screenshot. Ein Foto, das ein Benutzer mit dem Telefon in der Hand aufnimmt, die Screenshot-Taste des Betriebssystems, eine mit einem zweiten Gerät durchgeführte Bildschirmaufnahme — nichts davon sehen herkömmliche Werkzeuge zur Verhinderung von Datenverlust (DLP). Hinzu kommt: Informationen aus diesem entstandenen Bild zu extrahieren erfordert nicht mehr wie früher menschliche Arbeit: Modelle wie GPT-4V und Claude Vision betrachten ein Foto und rekonstruieren Tabellen-, Formular- und Vertragstext innerhalb weniger Sekunden. ZeroLeak schließt diesen Weg im Pixel selbst.

8 Schichten

Techniken auf Pixelebene, die auf jede serverseitig gerenderte Seite angewendet werden

KI-Bildmodelle

Die rotierende Kachelsegmentierung wurde speziell für diese Modelle konzipiert

Serverseitiges Rendering

Der Browser des Benutzers erhält kein HTML, kein JavaScript und kein DOM — nur einen Pixelstream

Der Weg, den klassisches DLP nicht schließen kann: der Screenshot

Jede gut verwaltete Organisation kontrolliert die bekannten Datenausgangswege bereits. Kopieren-Einfügen wird überwacht, Dateidownloads werden protokolliert, E-Mails werden gescannt, das Drucken wird eingeschränkt. Diese Kontrollen stoppen die große Mehrheit versehentlicher Datenoffenlegungen.

Es bleibt ein einziger Weg, den keine von ihnen sehen kann: der Screenshot. Ein Benutzer mit reiner Anzeigeberechtigung macht ein Foto des Bildschirms — mit dem Telefon in der Hand, mit dem Screenshot-Kürzel des Betriebssystems oder mit einer auf einem separaten Gerät durchgeführten Bildschirmaufnahme. Das Bild verlässt die Organisation als Pixel. Das Pixel ist weder ein Kopieren-Einfügen-Ereignis noch ein Dateidownload noch eine E-Mail — keines der vorhandenen Werkzeuge erkennt es als Datenausgang.

Was mit diesem Bild getan werden kann, hat sich in den letzten Jahren dramatisch verändert. Klassische OCR-Engines (wie Tesseract, AWS Textract) können aus einem Bild Text in Produktionsqualität extrahieren. Moderne KI-Bildmodelle — wie GPT-4V, Claude Vision, Gemini — gehen noch weiter: Sie betrachten das Bild ganzheitlich und leiten Tabellenstruktur, Vertragsabschnitte und Formularfelder ab, lesen manchmal sogar mehr als ein gut geschulter Mensch.

Die für dieses Problem häufig empfohlenen Abwehrmaßnahmen — sichtbares Wasserzeichen, nicht kopierbares DOM, Bildschirmaufnahmeerkennung, Zwischenablagekontrolle über Mobile Device Management — beruhen auf Annahmen, die nicht mehr haltbar sind. Ein sichtbares Wasserzeichen verhindert nicht das Lesen des umliegenden Textes. Ein nicht kopierbares DOM stoppt nicht die Kamera des Mobiltelefons. Die Bildschirmaufnahmeerkennung sieht keine mit einem separaten Gerät durchgeführte Aufnahme.

Der einzige Ort, der diesen Weg wirklich schließt, ist das auf dem Bildschirm angezeigte Pixel selbst — Sie ordnen das, was auf dem Bildschirm des Benutzers erscheint, so an, dass aus dem aufgenommenen Bild kein sinnvoller Text extrahiert werden kann.

Wie ZeroLeak den Screenshot-Weg schließt

ZeroLeak führt die geschützte Webanwendung in einem Browser auf dem Server aus und leitet die gerenderten Frames durch Eingriffe auf Pixelebene, bevor sie den Benutzer erreichen. Der Browser des Benutzers empfängt einen Pixelstream — kein HTML, kein DOM, kein JavaScript — was bedeutet, dass die einzige Möglichkeit, Inhalt zu extrahieren, darin besteht, das Abgebildete zu fotografieren. Dieses Bild ist jedoch konstruktionsbedingt für OCR und KI-Bildmodelle unlesbar.

Die Anwendung läuft nicht im Browser des Benutzers, sondern innerhalb von ZeroLeak

ZeroLeak öffnet die geschützte Webanwendung auf dem eigenen Server, innerhalb eines Headless-Browsers. Der Browser des Benutzers erhält weder das HTML noch das JavaScript noch das DOM der Seite — nur den Pixelstream der gerenderten Fassung dieser Seite. Stellen Sie es sich vor wie das Ansehen eines Videos: Klick- und Tastatureingaben werden nach hinten an den Browser auf dem Server zurückgesendet; das von dort zurückkommende neue Bild streamt zum Benutzer.

Acht verschiedene Veränderungen auf Pixelebene täuschen OCR-Engines

Jede serverseitig gerenderte Seite durchläuft acht unabhängige Eingriffe auf Pixelebene, bevor sie an den Benutzer gesendet wird. Rauschen, das so klein ist, dass das Auge des Benutzers es nicht bemerkt, an Zeichenkanten platzierte feine Linien, die Trennung der Farbkanäle und ähnliche Techniken werden gemeinsam angewendet. Jede Technik zielt auf eine andere Phase der OCR-Engines ab; übereinandergelegt stoppt die eine Schicht, was die andere durchlässt.

Eine separate Schutzschicht zielt speziell auf heutige KI-Bildmodelle ab

Modelle wie GPT-4V, Claude Vision, Gemini betrachten ein Bild ganzheitlich — sie lesen nicht nur Buchstabe für Buchstabe, sondern versuchen, das Layout, die Überschriften und die Tabellen der Seite zu erfassen. Deshalb genügt ein Eingriff auf Pixelebene allein auf Buchstabenebene nicht. ZeroLeak teilt das Bild in kleine Kacheln, die mit einer für den Benutzer nicht wahrnehmbaren Geschwindigkeit rotieren, und pixeliert jede Kachel mit einem unabhängigen Muster. Das menschliche Sehsystem verschmilzt die rotierenden Kacheln zu einem stabilen und lesbaren Bild; das KI-Bildmodell kann selbst aus einer einzelnen Kachel keinen stabilen Text oder kein stabiles Layout erfassen.

Als eine einzige Richtlinie zusammen mit forensischem Wasserzeichen und Textverschlüsselung konfigurierbar

Der Anti-OCR-Schutz arbeitet in derselben Konfiguration wie die anderen Bildschirmschichtschutzfunktionen von ZeroLeak. Die Seite kann eine verborgene Benutzerkennung tragen, die selbst nach Zuschneiden oder Neuskalieren eine Spur hinterlässt (forensisches Wasserzeichen); und das DOM-Äquivalent des sichtbaren Textes kann beim Kopieren eine bedeutungslose Ausgabe liefern (Textverschlüsselung). Jede Schicht wird pro geschütztem Service unabhängig ein- und ausgeschaltet — die Kombination wird je nach Anwendungsfall gewählt.

Acht verschiedene Pixeleingriffe, die auf jede Seite angewendet werden

Die folgenden acht Techniken werden auf jede serverseitig gerenderte Seite angewendet, bevor sie an den Benutzer gesendet wird. Jede zielt auf eine andere Schwachstelle von OCR-Engines und KI-Bildmodellen ab. Übereinandergelegt ist die Gesamtfläche, die ein Angreifer überwinden muss, um aus dem aufgenommenen Bild Text zu extrahieren, weit größer als die Wirkung der einzelnen Techniken.

Zufälliges Pixelrauschen, das das menschliche Auge nicht bemerkt

Jedes Pixel erfährt in einem sehr kleinen Bereich eine zufällige Helligkeitsänderung. Der Mensch nimmt dies als leichte Textur wahr, die das Lesen nicht beeinträchtigt; die sauberen, konsistenten Pixelgrenzen jedoch, die OCR-Engines zur Unterscheidung von Textkanten und Buchstabenformen suchen, sind nicht mehr vorhanden.

Störung in dem Frequenzband, in dem OCR nach Buchstabenkanten sucht

Klassische und moderne OCR-Engines suchen Buchstabenkanten und Linienstärken im Bild in einem bestimmten räumlichen Frequenzband. Auf dieses Band gerichtet wird eine feine Frequenzstörung angewendet. Die Gesamtstruktur des Bildes erscheint dem menschlichen Leser klar, das Kantenerkennungsmodul der OCR findet jedoch keine zuverlässige Kante.

Derselbe Buchstabe erscheint im roten, grünen und blauen Kanal unterschiedlich

Die Textverarbeitung wird zwischen den Farbkanälen mit kleinen Unterschieden jeweils anders angewendet; dasselbe Zeichen wird im roten, grünen und blauen Kanal unterschiedlich gerendert. Das menschliche Auge verschmilzt die drei Kanäle und sieht ein einziges lesbares Zeichen. Die meisten OCR-Engines wandeln das Bild zunächst in Graustufen um — dabei verlieren sie die kanalübergreifende Buchstabeninformation, die sie benötigen.

Eine an den Buchstabengrenzen platzierte feine Linienauflage

Wo ein Buchstabe endet und der nächste beginnt, ist eine kritische Phase für das korrekte Funktionieren der OCR. Dem Bild der Seite werden an diesen Zwischenbuchstabengrenzen sehr feine Linien hinzugefügt, die dem Benutzer wie eine Hintergrundtextur erscheinen. Das menschliche Auge hält die Linien für Hintergrund und überspringt sie; die OCR hingegen trennt zwei Buchstaben als einen oder einen Buchstaben als zwei und zerlegt den Text falsch.

Subpixel-Verschiebung jedes Buchstabens in einem mit dem Auge nicht erkennbaren Maß

Jeder Buchstabe wird um ein für den Menschen nicht wahrnehmbares Maß — unterhalb der Pixelskala — verschoben. Das Leseerlebnis ändert sich nicht. Da die Grundlinienposition und die Korpusausrichtung, die OCR-Engines zur Identifizierung von Buchstaben verwenden, gestört werden, sinkt die Erkennungsgenauigkeit.

Begrenztes Pixelmischen innerhalb jedes Buchstabens

Innerhalb des eigenen Bereichs jedes Buchstabens wird eine begrenzte Pixelverschiebung angewendet. Auf Leseentfernung erscheint der Buchstabe dem Auge gleich. Die Statistiken auf Pixelebene jedoch, die OCR-Engines bei der Bestimmung verwenden, ob ein Buchstabe ein 'A' oder ein 'R' ist, werden gestört.

Im Texthintergrund platzierte Störmuster geringer Intensität

In Nicht-Textbereichen werden besondere Muster platziert, die das menschliche Auge fast gar nicht bemerkt. Diese Muster täuschen die Phase, in der die OCR zunächst die Textbereiche findet und dann liest — der Kontrast zwischen Text und Hintergrund sinkt in der Wahrnehmung der OCR, die Engine kann nicht bestimmen, wo der Text beginnt.

Berechneter Eingriff, der auf die interne Struktur von OCR- und KI-Modellen abzielt

Es wird ein repräsentatives OCR- oder KI-Bildmodell genommen, und über die interne Arbeitsweise (Gradient) dieses Modells werden berechnete Pixeländerungen angewendet. Das Ergebnis wirkt auch auf andere Modelle derselben Familie. Auf die oberen sieben Techniken aufgesetzt, ist die Gesamtwirkung größer als die Summe der einzelnen Techniken.

Eine separate Schicht für moderne KI-Bildmodelle — rotierende Kachelsegmentierung

KI-Bildmodelle (GPT-4V, Claude Vision, Gemini und ähnliche) betrachten ein Bild anders als OCR. Statt Buchstabe für Buchstabe zu lesen, betrachten sie die Seite ganzheitlich und versuchen, Layout, Tabelle und Formular zu rekonstruieren. Die obigen acht Techniken stoppen klassische OCR zuverlässig, machen diese ganzheitlichen Leser jedoch nicht völlig wirkungslos. Die rotierende Kachelsegmentierung ist die für diese Leser konzipierte Schicht.

Das Bild wird in kleine Kacheln geteilt, jede Kachel mit einem eigenen Muster pixeliert

Jedes serverseitig gerenderte Bild wird in ein unsichtbares Raster (in der Regel 3×3) geteilt. Jede Kachel wird mit einem unabhängigen Pixelierungsmuster und einer unabhängigen Musterphase angewendet. Zwischen zwei benachbarten Kacheln gibt es keine gemeinsame Struktur.

Die Muster rotieren mit einer für den Menschen nicht wahrnehmbaren Geschwindigkeit

Das Pixelierungsmuster rotiert zwischen den Kacheln schneller, als das menschliche Sehsystem es wahrnehmen kann, aber mit einer Geschwindigkeit, bei der das Auge noch ein stabiles Bild bilden kann. Der Benutzer liest die Seite normal. Ein KI-Bildmodell, das eine einzelne Kachel oder eine kurze Kachelsequenz betrachtet, kann jedoch keinen stabilen Text oder keine stabile Layoutstruktur erfassen.

Jede Kachel ist unabhängig — eine Kachel zu lösen hilft der anderen nicht

Die Kacheln teilen weder Muster noch Phase miteinander. Selbst wenn ein KI-Modell das Pixelierungsmuster einer Kachel löst, kann es diese Information nicht auf benachbarte Kacheln anwenden. Um das gesamte Bild zu lösen, muss jede Kachel einzeln gelöst werden; das bedeutet einen Arbeitsaufwand, der direkt proportional zur Kachelanzahl ist.

Arbeitet als zusätzliche Schicht über den acht Pixeltechniken

Die rotierende Kachelsegmentierung ist keine eigenständig arbeitende Abwehr — sie wird über die obige Pixelschicht aus acht Techniken gelegt. Selbst wenn ein KI-Modell die obere Schicht teilweise überwindet, liegt darunter noch eine Schicht aus acht Techniken, die auf die Buchstabenebene abzielt. Der Angreifer muss in demselben Bild zwei verschiedene Schutzarten überwinden.

Kachelanzahl, Rotationsgeschwindigkeit und Intensität werden für jeden geschützten Service separat konfiguriert

Rasterdichte, Rotationsgeschwindigkeit, Musterintensität und Rastergeometrie werden für jeden geschützten Webservice separat festgelegt. Für hochsensible Inhalte (Rechtsakten, Finanzberichte) wird der Schutz verschärft; für alltägliche Inhalte reichen die Grundeinstellungen.

Arbeitet dort, wo sichtbares Wasserzeichen und DOM-basierte Schutzmaßnahmen gebrochen werden können

Halbtransparente Wasserzeichen und nicht kopierbare DOM-Elemente können durch Zuschneiden oder Filtern überwunden werden — darunter liegt noch ein sauberes Bild. Die rotierende Kachelsegmentierung hingegen verändert die eigentlichen Pixel des Inhalts, es gibt darunter kein verborgenes 'sauberes' Bild.

Wo es einen Unterschied macht

Patientendaten-Bildschirme für Klinikpersonal

Klinikmitarbeiter müssen Patientendaten dienstlich auf dem Bildschirm sehen, aber diese Daten dürfen die Organisation nicht verlassen. Mit ZeroLeak bleiben die Daten innerhalb der Sitzung lesbar, aus einem aufgenommenen Screenshot lässt sich jedoch keine sinnvolle Information extrahieren. Steht im Einklang mit dem Grundsatz der minimalen Offenlegung von HIPAA für Rollen mit reiner Anzeigeberechtigung.

Finanzberichte, Verträge und Datenraumdokumente

Inhalte, die gelesen werden müssen, aber auf niemandes Telefon gelangen sollen — Finanzberichte, Vertragstexte, Due-Diligence-Akten. Wenn Anti-OCR und rotierende Kachelsegmentierung gemeinsam angewendet werden, lässt sich das Dokument bequem auf dem Bildschirm lesen, das aufgenommene Bild wird jedoch unbrauchbar.

Behörden- und Geheimdienst-Betriebskonsolen

Klassifizierte Inhalte, die Analysten sehen müssen, aber nicht nach außen gelangen dürfen. Die Veränderung auf Pixelebene schließt den Exfiltrationsweg über den Screenshot an derselben Grenze wie die Zugriffsrichtlinie.

Auftragnehmer- und Drittanbieterzugriff

Externe Benutzer, die kurzzeitig Berechtigung für ein Kundenpanel, eine Prüfoberfläche oder eine Recherchekonsole erhalten. Der Benutzer liest den Inhalt; selbst wenn er einen Screenshot aufnimmt, kann er den Inhalt nicht in eine andere Umgebung übertragen.

Forschungs- und Studiendatenräume

Forscher müssen Studiendaten, Patientenakten und Laborergebnisse einsehen. Die Offenlegungsgrenze verbietet meist das Hinaustragen. Anti-OCR wandelt diese verbotene Grenze von einer Richtlinie in eine technische Kontrolle um.

Insider-Risk-Programme im KI-Zeitalter

Mitarbeiterrisikoprogramme können nicht mehr davon ausgehen, dass ein aufgenommener Screenshot harmlos ist. Für jede Person, die KI in der Tasche hat, ist jeder auf dem Bildschirm sichtbare Inhalt ein potenzieller Exfiltrationsvektor. Anti-OCR und rotierende Kachelsegmentierung bringen dieses Risiko auf das Niveau der reinen Menschenumgebungen der Vor-KI-Ära zurück.

Häufig gestellte Fragen

Beeinträchtigen die Anti-OCR-Techniken das menschliche Lesen?

Nein. Die Eingriffsintensität jeder Technik ist so eingestellt, dass sie unterhalb der Schwelle bleibt, die das menschliche Sehsystem wahrnehmen kann. Das zufällige Rauschen ist sehr klein, die Subpixel-Verschiebung liegt unter der menschlichen Wahrnehmungsschwelle, die Rotationsgeschwindigkeit der Kachelsegmentierung liegt über der Flimmerverschmelzungsschwelle des Auges. Der Benutzer liest die Seite normal; OCR-Engines und KI-Bildmodelle hingegen sehen eine gestörte Eingabe.

Funktioniert es gegen Modelle wie GPT-4V, Claude Vision, Gemini Pro Vision?

Die acht Pixeltechniken stoppen klassische OCR-Engines (Tesseract, AWS Textract, Google Cloud Vision, Azure Computer Vision) zuverlässig. Da KI-Bildmodelle das Bild ganzheitlich betrachten, sind sie gegenüber Techniken allein auf Buchstabenebene widerstandsfähiger — deshalb wurde die rotierende Kachelsegmentierung als separate Schicht konzipiert. Die Kachelsegmentierung stört die Layout-Rekonstruktion, auf die sich diese Modelle verlassen; da darunter noch die Pixelschicht aus acht Techniken liegt, muss selbst ein Modell, das die obere Schicht teilweise überwindet, zusätzlich die darunterliegende überwinden.

Bleibt die Seite weiterhin interaktiv — Klicken, Scrollen, Formular?

Ja. Während ZeroLeak einen Pixelstream an den Browser sendet, nimmt es die Benutzereingaben zurück an. Mausklicks, Tastatureingaben, Scroll-Ereignisse und Formularübermittlungen fließen zurück an den Headless-Browser auf dem Server und werden dort in der geschützten Anwendung ausgeführt. Das Benutzererlebnis ist wie in einem normalen Browser-Tab; das Einzige, was sich ändert, ist, wo Rendering und DOM leben.

Kann ein hartnäckiger Angreifer ein spezielles OCR-Modell auf den Pixeleingriff von ZeroLeak trainieren?

Damit der Angreifer dies tun kann, müsste er einen großen Datensatz sammeln, der gestörte und originale Bilder einander zuordnet. Die Eingriffsparameter ändern sich im Laufe der Zeit, die Zeichengrenzlinien sind TR7-spezifisch und werden in keiner öffentlichen OCR-Pipeline erzeugt, und die Kachelunabhängigkeit der Kachelsegmentierung treibt die Größe des Trainingssatzes weit über die der Schicht aus acht Techniken hinaus. In der Praxis erfordert der Aufbau eines solchen Gegenmodells ständigen Zugriff auf den geschützten Service und ein Budget, das mit dem der verteidigenden Seite vergleichbar ist — es ist keine leicht zu überwindende Schwelle.

Ist auch der Text geschützt, den der Benutzer in Formularfelder eingibt?

Ja. Das Rendering der Formularfelder erfolgt ebenfalls im Browser auf dem Server; der Benutzer sieht die pixelierte Fassung des Feldes, und dieselben Anti-OCR-Techniken werden angewendet. Auch aus dem Screenshot eines halb ausgefüllten Formulars lässt sich kein sinnvoller Text extrahieren.

Wie steht dieser Schutz in Beziehung zu forensischem Wasserzeichen und Textverschlüsselung?

Anti-OCR macht den Screenshot unlesbar. Das forensische Wasserzeichen macht den Screenshot nachverfolgbar — selbst nach Zuschneiden und Neuskalieren zeigt die in die Pixel eingebettete Spurkennung dem Operator, welche Sitzung das Leck erzeugt hat. Die Textverschlüsselung wiederum zielt auf den Kopieren-Einfügen-Weg ab: Die Textzeichen im DOM werden durch visuell äquivalente andere Zeichen ersetzt, sodass die Schrift auf dem Bildschirm für das Auge richtig lesbar ist, beim Kopieren aber eine bedeutungslose Ausgabe ergibt. Jede Schicht ist unabhängig; die meisten Installationen nutzen alle drei gemeinsam.

Welche Auswirkung hat es auf die Leistung?

Die Pixeleingriffe und die Kachelsegmentierung werden innerhalb der Server-Rendering-Pipeline angewendet. Die Latenzkosten sind sehr gering — auf gewöhnlicher Hardware einige Millisekunden pro Frame — und über Rendering-Instanzen hinweg parallelisierbar. Die Kapazität skaliert mit der Rendering-Infrastruktur und steht nicht in direktem Verhältnis zur Benutzerzahl, da die Arbeit dort erledigt wird, wo das Rendering ohnehin stattfindet.

Muss der Benutzer einen speziellen Browser oder ein Plugin installieren?

Nein. Der Benutzer verbindet sich von jedem standardmäßigen Browser aus mit der geschützten URL. Der Pixelstream wird mit standardmäßigen Webtechnologien übertragen; auf Benutzerseite gibt es keinen lokalen Client, kein Plugin und kein eigenes Protokoll.

Schließen Sie den Leckpfad über den Screenshot

Sehen Sie die Anti-OCR-Pixelschicht und die rotierende Kachelsegmentierung von ZeroLeak in einer Live-Demo. Wir übergeben dieselbe Seite an Tesseract, AWS Textract, GPT-4V und Claude Vision und zeigen, was am anderen Ende herauskommt.