Capacidad

El contenido sensible permanece legible en pantalla, pero se vuelve ilegible en una captura de pantalla

Cuando alguien con permiso solo de visualización toma una foto de la pantalla, la imagen sale de su organización como píxeles — y las IA de hoy pueden extraer texto de esos píxeles en segundos. ZeroLeak ordena esos píxeles de tal forma que la persona frente a la pantalla lee el contenido cómodamente, pero la imagen produce una salida sin sentido cuando se entrega a un motor OCR o a un modelo de visión de IA.

La mayoría de las organizaciones ya mantienen bajo control las vías de salida de datos conocidas como copiar-pegar, descarga de archivos o reenvío de correo. Queda una única vía que no se puede cerrar: la captura de pantalla. Una foto tomada con el teléfono que tiene en la mano, la tecla de captura de pantalla del sistema operativo, una grabación de pantalla hecha con un segundo dispositivo — las herramientas tradicionales de prevención de fuga de datos (DLP) no ven ninguna de ellas. Además, extraer información de esa imagen resultante ya no requiere esfuerzo humano como antes: modelos como GPT-4V o Claude Vision miran una foto y reconstruyen el texto de una tabla, un formulario o un contrato en pocos segundos. ZeroLeak cierra esta vía en el propio píxel.

8 capas

Técnicas a nivel de píxel aplicadas a cada página renderizada en el servidor

Modelos de visión de IA

La segmentación de bloques rotatorios se diseñó específicamente para estos modelos

Render en servidor

El navegador del usuario no recibe HTML, JavaScript ni DOM — solo un flujo de píxeles

La vía que el DLP tradicional no puede cerrar: la captura de pantalla

Toda organización bien gestionada ya controla las vías de salida de datos conocidas. Se monitorea el copiar-pegar, la descarga de archivos queda registrada, los correos se escanean, la impresión se restringe. Estos controles detienen la gran mayoría de las exposiciones accidentales de datos.

Queda una única vía que ninguno de ellos ve: la captura de pantalla. Un usuario con permiso solo de visualización toma una foto de la pantalla — con el teléfono que tiene en la mano, con el atajo de captura de pantalla del sistema operativo, o con una grabación de pantalla hecha con un dispositivo aparte. La imagen sale de la organización como píxeles. El píxel no es un evento de copiar-pegar, ni una descarga de archivo, ni un correo — ninguna de las herramientas existentes lo percibe como una salida de datos.

Lo que se puede hacer con esa imagen ha cambiado drásticamente en los últimos años. Los motores OCR clásicos (como Tesseract, AWS Textract) pueden extraer texto de calidad de producción de una imagen. Los modelos de visión de IA modernos — como GPT-4V, Claude Vision, Gemini — van aún más lejos: miran la imagen de forma holística e infieren la estructura de la tabla, las secciones del contrato, los campos del formulario, a veces leyendo más que incluso una persona bien entrenada.

Las defensas que se proponen con frecuencia para este problema — marcas de agua visibles, DOM no copiable, detección de grabación de pantalla, control del portapapeles desde la gestión de dispositivos móviles — se apoyan en supuestos que ya no se sostienen. Una marca de agua visible no impide leer el texto que la rodea. Un DOM no copiable no detiene la cámara del teléfono móvil. La detección de grabación de pantalla no ve una grabación hecha con un dispositivo aparte.

El único lugar que realmente cierra esta vía es el propio píxel mostrado en pantalla — usted ordena lo que aparece en la pantalla del usuario de tal forma que no se pueda extraer texto significativo de la imagen capturada.

Cómo ZeroLeak cierra la vía de la captura de pantalla

ZeroLeak ejecuta la aplicación web protegida en un navegador del servidor y pasa los fotogramas renderizados por intervenciones a nivel de píxel antes de que lleguen al usuario. El navegador del usuario recibe un flujo de píxeles — no HTML, DOM ni JavaScript — de modo que la única forma de extraer contenido es fotografiar lo que está en pantalla. Y esa imagen es, por diseño, ilegible para los modelos OCR y de visión de IA.

La aplicación corre dentro de ZeroLeak, no en el navegador del usuario

ZeroLeak abre la aplicación web protegida en su propio servidor, dentro de un navegador headless. El navegador del usuario nunca recibe el HTML, el JavaScript ni el DOM de la página — solo recibe el flujo de píxeles de la versión renderizada de esa página. Puede pensarlo como ver un video: las entradas de clic y teclado se envían hacia atrás, al navegador del servidor; la nueva imagen que regresa de él fluye hacia el usuario.

Ocho modificaciones distintas a nivel de píxel engañan a los motores OCR

Cada página renderizada en el servidor pasa por ocho intervenciones de píxel independientes antes de enviarse al usuario. Ruido demasiado pequeño para que el ojo del usuario lo note, líneas finas colocadas en los bordes de los caracteres, separación de los canales de color y técnicas similares se aplican en conjunto. Cada técnica apunta a una etapa diferente de los motores OCR; superpuestas, la capa que un motor supera la detiene otra.

Hay una capa de protección aparte que apunta específicamente a los modelos de visión de IA de hoy

Modelos como GPT-4V, Claude Vision, Gemini miran una imagen de forma holística — no leen letra por letra, sino que intentan extraer el diseño de la página, los encabezados, las tablas. Por eso, la intervención de píxel a nivel de letra por sí sola no basta. ZeroLeak divide la imagen en pequeños bloques que rotan a una velocidad que el usuario no puede percibir y pixela cada bloque con un patrón independiente. El sistema visual humano fusiona los bloques rotatorios y forma una imagen estable y legible; el modelo de visión de IA no logra capturar un texto o diseño estable ni siquiera de un solo bloque.

Se puede configurar como una única política junto con las protecciones de marca de agua forense y cifrado de texto

La protección anti-OCR funciona dentro de la misma configuración que las demás protecciones de capa de pantalla de ZeroLeak. La página puede portar una identidad de usuario oculta que deje rastro incluso si se recorta o reescala (marca de agua forense); y el equivalente en el DOM del texto visible puede producir una salida sin sentido al copiarse (cifrado de texto). Cada capa se activa y desactiva de forma independiente por servicio protegido — se elige la combinación según el caso de uso.

Ocho intervenciones de píxel distintas aplicadas a cada página

Las ocho técnicas siguientes se aplican a cada página renderizada en el servidor antes de enviarse al usuario. Cada una apunta a un punto débil diferente de los motores OCR y los modelos de visión de IA. Superpuestas, la superficie total que un atacante debe vencer para extraer texto de la imagen que capture es mucho mayor que el efecto de las técnicas individuales.

Ruido de píxel aleatorio que el ojo humano no percibe

Cada píxel sufre una variación de brillo aleatoria en un rango muy pequeño. El humano lo percibe como una textura leve que no afecta la lectura; pero los bordes de píxel limpios y consistentes que los motores OCR observan para distinguir los bordes del texto y las formas de las letras ya no están ahí.

Distorsión aplicada a la banda de frecuencia donde el OCR busca los bordes de las letras

Los motores OCR clásicos y modernos buscan los bordes de las letras y los grosores de línea de la imagen en una banda de frecuencia espacial determinada. Apuntando a esta banda se aplica una distorsión de frecuencia fina. La estructura general de la imagen se ve nítida para el lector humano, pero el módulo de detección de bordes del OCR no encuentra un borde fiable.

La misma letra se ve diferente en los canales rojo, verde y azul

El procesamiento del texto se aplica de forma distinta con pequeñas diferencias entre los canales de color; el mismo carácter se renderiza diferente en los canales rojo, verde y azul. El ojo humano fusiona los tres canales y ve un único carácter legible. La mayoría de los motores OCR convierte primero la imagen a escala de grises — en ese proceso pierde la información de la letra entre canales que necesita.

Una cubierta de líneas finas colocada en los límites de las letras

Dónde termina una letra y dónde empieza la siguiente es una etapa crítica para el funcionamiento correcto del OCR. A la imagen de la página se le añaden líneas muy finas que coinciden con estos límites entre letras y que al usuario le parecen textura de fondo. El ojo humano confunde las líneas con el fondo y las omite; el OCR, en cambio, separa dos letras como una o una letra como dos, y fragmenta el texto de forma incorrecta.

Cada letra desplazada una cantidad sub-píxel imperceptible a la vista

Cada letra se desplaza una cantidad tan pequeña — por debajo de la escala del píxel — que el humano no puede percibirla. La experiencia de lectura no cambia. Como se altera la posición de la línea base y la alineación del cuerpo que los motores OCR usan para identificar las letras, la precisión de reconocimiento disminuye.

Mezcla limitada de píxeles dentro de cada letra

Se aplica un desplazamiento limitado de píxeles dentro del propio espacio de cada letra. A distancia de lectura, la letra se ve igual a la vista. Pero se alteran las estadísticas a nivel de píxel que los motores OCR usan para determinar si una letra es una 'A' o una 'R'.

Patrones de intervención de baja intensidad colocados en el fondo del texto

En las regiones sin texto se colocan patrones especiales que el ojo humano apenas percibe. Estos patrones engañan la etapa en la que el OCR primero localiza las regiones de texto y luego las lee — el contraste entre el texto y el fondo disminuye en la percepción del OCR, y el motor no logra determinar dónde empieza el texto.

Intervención calculada apuntando a la propia estructura interna de los modelos OCR e IA

Se toma un modelo representativo de OCR o de visión de IA y se aplican modificaciones de píxel calculadas a partir de la propia estructura de funcionamiento interno (gradiente) de ese modelo. El resultado afecta también a otros modelos de la misma familia. Añadida sobre las siete técnicas anteriores, el efecto total es mayor que la suma de las técnicas individuales.

Una capa aparte para los modelos de visión de IA modernos — segmentación de bloques rotatorios

Los modelos de visión de IA (GPT-4V, Claude Vision, Gemini y similares) miran una imagen de forma diferente al OCR. En lugar de leer letra por letra, miran la página de forma holística e intentan reconstruir el diseño, la tabla, el formulario. Las ocho técnicas anteriores detienen de forma fiable el OCR clásico, pero no neutralizan por completo a estos lectores holísticos. La segmentación de bloques rotatorios es la capa diseñada para estos lectores.

La imagen se divide en pequeños bloques, cada bloque se pixela con un patrón distinto

Cada imagen renderizada en el servidor se divide en una cuadrícula invisible (normalmente 3×3). Cada bloque se aplica con un patrón de pixelado independiente y una fase de patrón independiente. No hay estructura común entre dos bloques vecinos.

Los patrones rotan a una velocidad que el humano no puede percibir

El patrón de pixelado rota entre bloques a una velocidad mayor de la que el sistema visual humano puede percibir, pero a una velocidad en la que el ojo aún puede formar una imagen estable. El usuario lee la página con normalidad. El modelo de visión de IA que mira un único bloque o una secuencia corta de bloques no logra capturar una estructura de texto o diseño estable.

Cada bloque es independiente — resolver un bloque no ayuda con otro

Los bloques no comparten patrón ni fase entre sí. Aunque un modelo de IA resuelva el patrón de pixelado de un bloque, no puede aplicar esa información a los bloques vecinos. Para resolver la imagen completa hay que resolver cada bloque por separado; eso supone una carga de trabajo directamente proporcional al número de bloques.

Funciona como una capa adicional sobre las ocho técnicas de píxel

La segmentación de bloques rotatorios no es una defensa que funcione sola — se añade sobre la capa de píxel de las ocho técnicas anteriores. Aunque un modelo de IA supere parcialmente la capa superior, debajo todavía hay una capa de ocho técnicas que apunta al nivel de letra. El atacante tiene que vencer dos tipos de protección distintos en la misma imagen.

El número de bloques, la velocidad de rotación y la intensidad se configuran por separado para cada servicio protegido

La densidad de la cuadrícula, la velocidad de rotación, la intensidad del patrón y la geometría de la cuadrícula se definen por separado para cada servicio web protegido. Para contenido de alta sensibilidad (expedientes legales, estados financieros) la protección se endurece; para contenido cotidiano basta con los ajustes básicos.

Funciona donde las marcas de agua visibles y las protecciones basadas en el DOM pueden romperse

Las marcas de agua semitransparentes y los elementos del DOM no copiables pueden superarse recortando o filtrando — debajo todavía hay una imagen limpia. La segmentación de bloques rotatorios, en cambio, altera los píxeles reales del contenido; debajo no hay ninguna imagen 'limpia' oculta.

Dónde marca la diferencia

Pantallas de datos de pacientes para el personal clínico

El personal clínico debe ver los datos de los pacientes en pantalla por exigencia de su labor, pero esos datos no deben salir de la organización. Con ZeroLeak los datos permanecen legibles durante la sesión, mientras que de una captura de pantalla tomada no se puede extraer información significativa. Para los roles con permiso solo de visualización, esto se alinea con el principio de divulgación mínima de HIPAA.

Informes financieros, contratos y documentos de data room

Contenido que debe leerse pero que no se quiere que termine en el teléfono de nadie — estados financieros, textos de contratos, expedientes de due diligence. Cuando el anti-OCR y la segmentación de bloques rotatorios se aplican juntos, el documento se lee con comodidad en pantalla, mientras que la imagen capturada queda inservible.

Consolas de operaciones del sector público y de inteligencia

Contenido clasificado que los analistas necesitan ver pero que no debe salir. La modificación a nivel de píxel cierra la vía de filtración por captura de pantalla en el mismo límite que la política de acceso.

Acceso de contratistas y terceros

Usuarios externos que obtienen autorización temporal a un panel de cliente, una interfaz de auditoría o una consola de investigación. El usuario lee el contenido; aunque tome una captura de pantalla, no podrá llevar el contenido a otro entorno.

Data rooms de investigación y de estudios clínicos

Los investigadores deben ver los datos del estudio, los registros de pacientes, los resultados de laboratorio. El límite de divulgación a menudo prohíbe llevarlos fuera. El anti-OCR convierte ese límite prohibido de una política en un control técnico.

Programas de riesgo interno en la era de la IA

Los programas de riesgo del empleado ya no pueden suponer que una captura de pantalla tomada es inofensiva. Para cualquier persona con IA en el bolsillo, cada contenido que aparece en pantalla es un vector potencial de exfiltración. El anti-OCR y la segmentación de bloques rotatorios devuelven ese riesgo al nivel de los entornos exclusivamente humanos de la era previa a la IA.

Preguntas frecuentes

¿Las técnicas anti-OCR afectan la lectura humana?

No. La intensidad de intervención de cada técnica está ajustada para mantenerse por debajo del umbral que el sistema visual humano puede percibir. El ruido aleatorio es muy pequeño, el desplazamiento sub-píxel está por debajo del umbral de percepción humano, la velocidad de rotación de la segmentación de bloques está por encima del umbral de fusión de parpadeo del ojo. El usuario lee la página con normalidad; los motores OCR y los modelos de visión de IA, en cambio, ven una entrada distorsionada.

¿Funciona contra modelos como GPT-4V, Claude Vision, Gemini Pro Vision?

Las ocho técnicas de píxel detienen de forma fiable los motores OCR clásicos (Tesseract, AWS Textract, Google Cloud Vision, Azure Computer Vision). Como los modelos de visión de IA miran la imagen de forma holística, son más resistentes a las técnicas exclusivamente a nivel de letra — por eso la segmentación de bloques rotatorios se diseñó como una capa aparte. La segmentación de bloques rompe la reconstrucción de diseño en la que estos modelos confían; como debajo todavía está la capa de píxel de las ocho técnicas, incluso un modelo que supere parcialmente la capa superior tiene que vencer además la de abajo.

¿La página sigue siendo interactiva — clic, scroll, formularios?

Sí. Mientras ZeroLeak envía el flujo de píxeles al navegador, acepta de vuelta las entradas del usuario. Los clics del ratón, las entradas de teclado, los eventos de scroll y los envíos de formularios fluyen de vuelta al navegador headless del servidor y se ejecutan allí en la aplicación protegida. La experiencia del usuario es como la de una pestaña de navegador normal; lo único que cambia es dónde viven el render y el DOM.

¿Puede un atacante decidido entrenar un modelo OCR específico contra la intervención de píxel de ZeroLeak?

Para que el atacante pueda hacerlo necesitaría reunir un gran conjunto de datos que empareje imágenes distorsionadas y originales. Los parámetros de intervención cambian con el tiempo, las líneas de límite de carácter son propias de TR7 y no se generan en ningún pipeline OCR público, y la independencia de cada bloque de la segmentación eleva el tamaño del conjunto de entrenamiento muy por encima de la capa de ocho técnicas. En la práctica, construir un contramodelo así requiere acceso continuo al servicio protegido y un presupuesto similar al del lado defensor — no es un umbral que se supere con facilidad.

¿El texto que el usuario escribe en los campos de formulario también está protegido?

Sí. El render de los campos de formulario también se hace en el navegador del servidor; el usuario ve la versión pixelada del campo y se aplican las mismas técnicas anti-OCR. Tampoco se puede extraer texto significativo de la captura de pantalla de un formulario a medio escribir.

¿Cómo se relaciona esta protección con la marca de agua forense y el cifrado de texto?

El anti-OCR hace que la captura de pantalla sea ilegible. La marca de agua forense hace que la captura de pantalla sea rastreable — incluso tras recortar y reescalar, el rastro de identidad incrustado en los píxeles muestra al operador qué sesión produjo la fuga. El cifrado de texto, en cambio, apunta a la vía de copiar-pegar: los caracteres de texto del DOM se reemplazan por caracteres distintos visualmente equivalentes, de modo que el texto en pantalla se lee correctamente a la vista pero produce una salida sin sentido al copiarse. Cada capa es independiente; la mayoría de las instalaciones usan las tres juntas.

¿Cuál es el impacto en el rendimiento?

Las intervenciones de píxel y la segmentación de bloques se aplican dentro del pipeline de render del servidor. El coste de latencia es muy pequeño — unos pocos milisegundos por fotograma en hardware corriente — y se puede paralelizar entre instancias de render. La capacidad escala con la infraestructura de render, no está directamente relacionada con el número de usuarios, porque el trabajo se hace donde el render ya se realiza.

¿El usuario necesita instalar un navegador o una extensión especial?

No. El usuario se conecta a la URL protegida desde cualquier navegador estándar. El flujo de píxeles se transmite con tecnologías web estándar; del lado del usuario no hay cliente local, extensión ni protocolo propio.

Cierre la vía de fuga por captura de pantalla

Vea la capa de píxel anti-OCR y la segmentación de bloques rotatorios de ZeroLeak en una demo en vivo. Entregamos la misma página a Tesseract, AWS Textract, GPT-4V y Claude Vision, y le mostramos lo que sale por el otro extremo.