Jede gut verwaltete Organisation kontrolliert die bekannten Datenausgangswege bereits. Kopieren-Einfügen wird überwacht, Dateidownloads werden protokolliert, E-Mails werden gescannt, das Drucken wird eingeschränkt. Diese Kontrollen stoppen die große Mehrheit versehentlicher Datenoffenlegungen.
Es bleibt ein einziger Weg, den keine von ihnen sehen kann: der Screenshot. Ein Benutzer mit reiner Anzeigeberechtigung macht ein Foto des Bildschirms — mit dem Telefon in der Hand, mit dem Screenshot-Kürzel des Betriebssystems oder mit einer auf einem separaten Gerät durchgeführten Bildschirmaufnahme. Das Bild verlässt die Organisation als Pixel. Das Pixel ist weder ein Kopieren-Einfügen-Ereignis noch ein Dateidownload noch eine E-Mail — keines der vorhandenen Werkzeuge erkennt es als Datenausgang.
Was mit diesem Bild getan werden kann, hat sich in den letzten Jahren dramatisch verändert. Klassische OCR-Engines (wie Tesseract, AWS Textract) können aus einem Bild Text in Produktionsqualität extrahieren. Moderne KI-Bildmodelle — wie GPT-4V, Claude Vision, Gemini — gehen noch weiter: Sie betrachten das Bild ganzheitlich und leiten Tabellenstruktur, Vertragsabschnitte und Formularfelder ab, lesen manchmal sogar mehr als ein gut geschulter Mensch.
Die für dieses Problem häufig empfohlenen Abwehrmaßnahmen — sichtbares Wasserzeichen, nicht kopierbares DOM, Bildschirmaufnahmeerkennung, Zwischenablagekontrolle über Mobile Device Management — beruhen auf Annahmen, die nicht mehr haltbar sind. Ein sichtbares Wasserzeichen verhindert nicht das Lesen des umliegenden Textes. Ein nicht kopierbares DOM stoppt nicht die Kamera des Mobiltelefons. Die Bildschirmaufnahmeerkennung sieht keine mit einem separaten Gerät durchgeführte Aufnahme.
Der einzige Ort, der diesen Weg wirklich schließt, ist das auf dem Bildschirm angezeigte Pixel selbst — Sie ordnen das, was auf dem Bildschirm des Benutzers erscheint, so an, dass aus dem aufgenommenen Bild kein sinnvoller Text extrahiert werden kann.
ZeroLeak führt die geschützte Webanwendung in einem Browser auf dem Server aus und leitet die gerenderten Frames durch Eingriffe auf Pixelebene, bevor sie den Benutzer erreichen. Der Browser des Benutzers empfängt einen Pixelstream — kein HTML, kein DOM, kein JavaScript — was bedeutet, dass die einzige Möglichkeit, Inhalt zu extrahieren, darin besteht, das Abgebildete zu fotografieren. Dieses Bild ist jedoch konstruktionsbedingt für OCR und KI-Bildmodelle unlesbar.
ZeroLeak öffnet die geschützte Webanwendung auf dem eigenen Server, innerhalb eines Headless-Browsers. Der Browser des Benutzers erhält weder das HTML noch das JavaScript noch das DOM der Seite — nur den Pixelstream der gerenderten Fassung dieser Seite. Stellen Sie es sich vor wie das Ansehen eines Videos: Klick- und Tastatureingaben werden nach hinten an den Browser auf dem Server zurückgesendet; das von dort zurückkommende neue Bild streamt zum Benutzer.
Jede serverseitig gerenderte Seite durchläuft acht unabhängige Eingriffe auf Pixelebene, bevor sie an den Benutzer gesendet wird. Rauschen, das so klein ist, dass das Auge des Benutzers es nicht bemerkt, an Zeichenkanten platzierte feine Linien, die Trennung der Farbkanäle und ähnliche Techniken werden gemeinsam angewendet. Jede Technik zielt auf eine andere Phase der OCR-Engines ab; übereinandergelegt stoppt die eine Schicht, was die andere durchlässt.
Modelle wie GPT-4V, Claude Vision, Gemini betrachten ein Bild ganzheitlich — sie lesen nicht nur Buchstabe für Buchstabe, sondern versuchen, das Layout, die Überschriften und die Tabellen der Seite zu erfassen. Deshalb genügt ein Eingriff auf Pixelebene allein auf Buchstabenebene nicht. ZeroLeak teilt das Bild in kleine Kacheln, die mit einer für den Benutzer nicht wahrnehmbaren Geschwindigkeit rotieren, und pixeliert jede Kachel mit einem unabhängigen Muster. Das menschliche Sehsystem verschmilzt die rotierenden Kacheln zu einem stabilen und lesbaren Bild; das KI-Bildmodell kann selbst aus einer einzelnen Kachel keinen stabilen Text oder kein stabiles Layout erfassen.
Der Anti-OCR-Schutz arbeitet in derselben Konfiguration wie die anderen Bildschirmschichtschutzfunktionen von ZeroLeak. Die Seite kann eine verborgene Benutzerkennung tragen, die selbst nach Zuschneiden oder Neuskalieren eine Spur hinterlässt (forensisches Wasserzeichen); und das DOM-Äquivalent des sichtbaren Textes kann beim Kopieren eine bedeutungslose Ausgabe liefern (Textverschlüsselung). Jede Schicht wird pro geschütztem Service unabhängig ein- und ausgeschaltet — die Kombination wird je nach Anwendungsfall gewählt.
Die folgenden acht Techniken werden auf jede serverseitig gerenderte Seite angewendet, bevor sie an den Benutzer gesendet wird. Jede zielt auf eine andere Schwachstelle von OCR-Engines und KI-Bildmodellen ab. Übereinandergelegt ist die Gesamtfläche, die ein Angreifer überwinden muss, um aus dem aufgenommenen Bild Text zu extrahieren, weit größer als die Wirkung der einzelnen Techniken.
Jedes Pixel erfährt in einem sehr kleinen Bereich eine zufällige Helligkeitsänderung. Der Mensch nimmt dies als leichte Textur wahr, die das Lesen nicht beeinträchtigt; die sauberen, konsistenten Pixelgrenzen jedoch, die OCR-Engines zur Unterscheidung von Textkanten und Buchstabenformen suchen, sind nicht mehr vorhanden.
Klassische und moderne OCR-Engines suchen Buchstabenkanten und Linienstärken im Bild in einem bestimmten räumlichen Frequenzband. Auf dieses Band gerichtet wird eine feine Frequenzstörung angewendet. Die Gesamtstruktur des Bildes erscheint dem menschlichen Leser klar, das Kantenerkennungsmodul der OCR findet jedoch keine zuverlässige Kante.
Die Textverarbeitung wird zwischen den Farbkanälen mit kleinen Unterschieden jeweils anders angewendet; dasselbe Zeichen wird im roten, grünen und blauen Kanal unterschiedlich gerendert. Das menschliche Auge verschmilzt die drei Kanäle und sieht ein einziges lesbares Zeichen. Die meisten OCR-Engines wandeln das Bild zunächst in Graustufen um — dabei verlieren sie die kanalübergreifende Buchstabeninformation, die sie benötigen.
Wo ein Buchstabe endet und der nächste beginnt, ist eine kritische Phase für das korrekte Funktionieren der OCR. Dem Bild der Seite werden an diesen Zwischenbuchstabengrenzen sehr feine Linien hinzugefügt, die dem Benutzer wie eine Hintergrundtextur erscheinen. Das menschliche Auge hält die Linien für Hintergrund und überspringt sie; die OCR hingegen trennt zwei Buchstaben als einen oder einen Buchstaben als zwei und zerlegt den Text falsch.
Jeder Buchstabe wird um ein für den Menschen nicht wahrnehmbares Maß — unterhalb der Pixelskala — verschoben. Das Leseerlebnis ändert sich nicht. Da die Grundlinienposition und die Korpusausrichtung, die OCR-Engines zur Identifizierung von Buchstaben verwenden, gestört werden, sinkt die Erkennungsgenauigkeit.
Innerhalb des eigenen Bereichs jedes Buchstabens wird eine begrenzte Pixelverschiebung angewendet. Auf Leseentfernung erscheint der Buchstabe dem Auge gleich. Die Statistiken auf Pixelebene jedoch, die OCR-Engines bei der Bestimmung verwenden, ob ein Buchstabe ein 'A' oder ein 'R' ist, werden gestört.
In Nicht-Textbereichen werden besondere Muster platziert, die das menschliche Auge fast gar nicht bemerkt. Diese Muster täuschen die Phase, in der die OCR zunächst die Textbereiche findet und dann liest — der Kontrast zwischen Text und Hintergrund sinkt in der Wahrnehmung der OCR, die Engine kann nicht bestimmen, wo der Text beginnt.
Es wird ein repräsentatives OCR- oder KI-Bildmodell genommen, und über die interne Arbeitsweise (Gradient) dieses Modells werden berechnete Pixeländerungen angewendet. Das Ergebnis wirkt auch auf andere Modelle derselben Familie. Auf die oberen sieben Techniken aufgesetzt, ist die Gesamtwirkung größer als die Summe der einzelnen Techniken.
KI-Bildmodelle (GPT-4V, Claude Vision, Gemini und ähnliche) betrachten ein Bild anders als OCR. Statt Buchstabe für Buchstabe zu lesen, betrachten sie die Seite ganzheitlich und versuchen, Layout, Tabelle und Formular zu rekonstruieren. Die obigen acht Techniken stoppen klassische OCR zuverlässig, machen diese ganzheitlichen Leser jedoch nicht völlig wirkungslos. Die rotierende Kachelsegmentierung ist die für diese Leser konzipierte Schicht.
Jedes serverseitig gerenderte Bild wird in ein unsichtbares Raster (in der Regel 3×3) geteilt. Jede Kachel wird mit einem unabhängigen Pixelierungsmuster und einer unabhängigen Musterphase angewendet. Zwischen zwei benachbarten Kacheln gibt es keine gemeinsame Struktur.
Das Pixelierungsmuster rotiert zwischen den Kacheln schneller, als das menschliche Sehsystem es wahrnehmen kann, aber mit einer Geschwindigkeit, bei der das Auge noch ein stabiles Bild bilden kann. Der Benutzer liest die Seite normal. Ein KI-Bildmodell, das eine einzelne Kachel oder eine kurze Kachelsequenz betrachtet, kann jedoch keinen stabilen Text oder keine stabile Layoutstruktur erfassen.
Die Kacheln teilen weder Muster noch Phase miteinander. Selbst wenn ein KI-Modell das Pixelierungsmuster einer Kachel löst, kann es diese Information nicht auf benachbarte Kacheln anwenden. Um das gesamte Bild zu lösen, muss jede Kachel einzeln gelöst werden; das bedeutet einen Arbeitsaufwand, der direkt proportional zur Kachelanzahl ist.
Die rotierende Kachelsegmentierung ist keine eigenständig arbeitende Abwehr — sie wird über die obige Pixelschicht aus acht Techniken gelegt. Selbst wenn ein KI-Modell die obere Schicht teilweise überwindet, liegt darunter noch eine Schicht aus acht Techniken, die auf die Buchstabenebene abzielt. Der Angreifer muss in demselben Bild zwei verschiedene Schutzarten überwinden.
Rasterdichte, Rotationsgeschwindigkeit, Musterintensität und Rastergeometrie werden für jeden geschützten Webservice separat festgelegt. Für hochsensible Inhalte (Rechtsakten, Finanzberichte) wird der Schutz verschärft; für alltägliche Inhalte reichen die Grundeinstellungen.
Halbtransparente Wasserzeichen und nicht kopierbare DOM-Elemente können durch Zuschneiden oder Filtern überwunden werden — darunter liegt noch ein sauberes Bild. Die rotierende Kachelsegmentierung hingegen verändert die eigentlichen Pixel des Inhalts, es gibt darunter kein verborgenes 'sauberes' Bild.
Klinikmitarbeiter müssen Patientendaten dienstlich auf dem Bildschirm sehen, aber diese Daten dürfen die Organisation nicht verlassen. Mit ZeroLeak bleiben die Daten innerhalb der Sitzung lesbar, aus einem aufgenommenen Screenshot lässt sich jedoch keine sinnvolle Information extrahieren. Steht im Einklang mit dem Grundsatz der minimalen Offenlegung von HIPAA für Rollen mit reiner Anzeigeberechtigung.
Inhalte, die gelesen werden müssen, aber auf niemandes Telefon gelangen sollen — Finanzberichte, Vertragstexte, Due-Diligence-Akten. Wenn Anti-OCR und rotierende Kachelsegmentierung gemeinsam angewendet werden, lässt sich das Dokument bequem auf dem Bildschirm lesen, das aufgenommene Bild wird jedoch unbrauchbar.
Klassifizierte Inhalte, die Analysten sehen müssen, aber nicht nach außen gelangen dürfen. Die Veränderung auf Pixelebene schließt den Exfiltrationsweg über den Screenshot an derselben Grenze wie die Zugriffsrichtlinie.
Externe Benutzer, die kurzzeitig Berechtigung für ein Kundenpanel, eine Prüfoberfläche oder eine Recherchekonsole erhalten. Der Benutzer liest den Inhalt; selbst wenn er einen Screenshot aufnimmt, kann er den Inhalt nicht in eine andere Umgebung übertragen.
Forscher müssen Studiendaten, Patientenakten und Laborergebnisse einsehen. Die Offenlegungsgrenze verbietet meist das Hinaustragen. Anti-OCR wandelt diese verbotene Grenze von einer Richtlinie in eine technische Kontrolle um.
Mitarbeiterrisikoprogramme können nicht mehr davon ausgehen, dass ein aufgenommener Screenshot harmlos ist. Für jede Person, die KI in der Tasche hat, ist jeder auf dem Bildschirm sichtbare Inhalt ein potenzieller Exfiltrationsvektor. Anti-OCR und rotierende Kachelsegmentierung bringen dieses Risiko auf das Niveau der reinen Menschenumgebungen der Vor-KI-Ära zurück.
Sehen Sie die Anti-OCR-Pixelschicht und die rotierende Kachelsegmentierung von ZeroLeak in einer Live-Demo. Wir übergeben dieselbe Seite an Tesseract, AWS Textract, GPT-4V und Claude Vision und zeigen, was am anderen Ende herauskommt.