Capacidad

Hot Config Reload (Zero-Downtime)

Cambie la configuración. Mantenga las conexiones. Donde sea posible, cada cambio se aplica mediante soft reload; donde sea inevitable, un fallback de hard restart controlado toma el relevo.

TR7 Hot Config Reload tiene como objetivo aplicar cambios de configuración a los servicios que sirven tráfico sin interrumpir las sesiones activas. Las reglas, certificados, pools de backend, comprobaciones de salud, perfiles WAAP, políticas de rate-limit y configuraciones de caché se encuentran entre los cambios que pueden activarse mientras el tráfico activo continúa fluyendo. TR7 aplica el soft reload a través de un canal de gestión independiente por pool. Cada cambio se analiza primero: los campos que pueden aplicarse en tiempo de ejecución pasan por soft reload, mientras que los campos de creationConfig — tipo de servicio, VIP, puerto, CPU, memoria o namespace — desencadenan un hard restart controlado. La secuencia de reload sigue un modelo de fallback soft → hard. Si el soft reload falla, el sistema se recupera mediante hard restart. Los operadores pueden ver por qué cualquier cambio dado requirió un reload o un restart a través de la salida de restartReasons. El resultado: TR7 saca los cambios de configuración del modelo de "reiniciar el servicio y desconectar usuarios" y los convierte en un flujo de reload por pool, transparente en cuanto a motivos, controlado y orientado a las operaciones.

Sesiones caídas durante un soft reload

5 min

Timeout máximo del trabajo para una operación de edición de pool

~12

Categorías de campos de configuración aplicables mediante soft reload

Cuando un cambio de configuración corta el tráfico activo, cada actualización de reglas se convierte en una ventana de mantenimiento.

Los cambios de configuración en la capa de balanceo de carga y seguridad son inevitables. Se añaden nuevos backends, se actualizan reglas WAAP, se renuevan certificados, se ajustan comprobaciones de salud, se endurecen políticas de rate-limit, o se escriben nuevas reglas de bloqueo en mitad de un ataque. Si cada cambio requiere un reinicio del servicio, incluso las pequeñas tareas operacionales se convierten en interrupciones de sesión de usuario.

El modelo clásico de reinicio es especialmente problemático para las conexiones TCP y de larga duración. Las sesiones de usuario activas pueden cortarse, las transferencias de archivos pueden quedar incompletas, los clientes de API pueden recibir errores, y un cambio de regla del firewall puede causar un fallo de acceso momentáneo. Como resultado, los equipos empiezan a diferir los cambios necesarios, y la agilidad de seguridad y operacional sufre.

El problema es más agudo en los conjuntos de reglas WAAP y de seguridad. Esperar una ventana de mantenimiento para aplicar una actualización de reglas mientras se observa activamente un nuevo patrón de ataque no es una posición aceptable. De la misma manera, operaciones rutinarias como la renovación de certificados o la expansión del pool de backends no deberían afectar innecesariamente al tráfico activo.

El modelo correcto es distinguir entre tipos de cambios. Los cambios que pueden aplicarse en tiempo de ejecución — reglas, certificados, comprobaciones de salud, listas de backends y perfiles de seguridad — deben pasar por soft reload. Solo los cambios que afectan a los parámetros de creación del servicio — VIP, puerto, namespace, límites de recursos o tipo de servicio — deben requerir un reinicio controlado.

TR7 Hot Config Reload hace esta distinción: soft reload por pool, fallback hard automático, visibilidad del motivo de reinicio y flujo de operación paralelo aplican cambios de configuración minimizando el impacto en el tráfico activo.

Nuestro enfoque

TR7 diseña el reload de configuración no como una única operación de reinicio uniforme, sino como un flujo de operación por capas que decide según el tipo de cambio.

El canal de gestión del pool aplica comandos de reload en vivo de forma independiente

Cada pool puede recibir un reload a través de su propio canal de gestión. Este modelo asegura que un cambio en un pool se aplique sin afectar a otros pools.

El soft reload se intenta primero; el fallback de restart se ejecuta si falla

TR7 usa por defecto la ruta de soft reload que preserva las conexiones activas. Si el soft reload falla o el cambio requiere un hard restart, el sistema cambia a una ruta de restart controlada.

El análisis de motivos de reinicio da al operador visibilidad sobre el porqué

El análisis del diff de configuración determina qué campos requieren un reload y cuáles requieren un restart. Los operadores pueden ver de antemano si un cambio puede aplicarse en vivo o implica una modificación de creationConfig que exige un restart.

Las operaciones de ADC y log se ejecutan en paralelo para reducir el tiempo total de edición

Las operaciones de contenedor de balanceo de carga y log pueden ejecutarse en paralelo cuando son independientes. Esto evita que el tiempo de edición del pool se alargue por esperas secuenciales innecesarias.

Capacidades

Hot Config Reload combina reload por pool, análisis del tipo de cambio, fallback, drain de conexiones y operaciones paralelas en un único flujo de gestión.

El soft reload aplica cambios de configuración preservando las conexiones activas

El soft reload activa la nueva configuración para los cambios elegibles mientras permite que las conexiones existentes se completen naturalmente. El worker antiguo entra en modo drain y continúa sirviendo sesiones activas hasta que se cierran. Las nuevas conexiones son manejadas por la configuración actualizada. Este enfoque elimina la necesidad de vincular los cambios de reglas y certificados a una ventana de mantenimiento.

El smart reload intenta primero la ruta soft y recurre al hard restart en caso de fallo

TR7 usa por defecto la ruta de soft reload. Si ocurre un error durante el soft reload, el sistema se recupera mediante fallback de hard restart. Este modelo ofrece a los operadores un único flujo seguro: reload sin downtime donde sea posible, restart de manera controlada donde sea necesario. Los intentos de reload fallidos no resultan en un estado de configuración parcialmente aplicada e indeterminada.

La opción forceHard proporciona restart explícito para cambios de configuración de creación

Algunos cambios no pueden aplicarse mediante live reload porque modifican los parámetros de creación del servicio. Los campos como tipo de servicio, límite de CPU, límite de memoria, VIP, puerto, namespace de red, imagen o versión binaria requieren un hard restart. En estos casos, el comportamiento forceHard hace que el restart sea explícito e intencional. Los operadores pueden planificar el impacto del cambio de antemano.

Los registros de motivo de reinicio hacen visible el impacto de los cambios de configuración

Para cada campo de configuración, el motivo por el que un cambio requiere un reload o restart puede mantenerse en la lista de restartReasons. Esta visibilidad responde a la pregunta "¿por qué este cambio necesita un restart?" para el equipo de operaciones. Hace que la toma de decisiones sea más clara, particularmente durante los procesos de gestión de cambios y aprobación de mantenimiento. El impacto del cambio deja de ser una caja negra.

El reload independiente por pool se ejecuta sin afectar a otros servicios

Cada pool se maneja con su propia estructura de tiempo de ejecución y canal de gestión. Mientras un perfil WAAP, certificado o lista de backends cambia en un pool, otros pools continúan ejecutándose sin interrupción. Este aislamiento reduce el radio de explosión de los cambios en plataformas grandes. El equipo de operaciones recarga solo el servicio relevante, no todo el appliance.

Las operaciones del contenedor de log se gestionan independientemente de la capa de balanceo de carga

Las configuraciones de transporte de log o contenedor de log pueden manejarse separadamente del contenedor de balanceo de carga. Los cambios en el lado del log por lo tanto no afectan innecesariamente a la capa de enrutamiento de tráfico. De igual manera, un reload en el lado del tráfico no fuerza la interrupción del pipeline de log. Esta separación proporciona una gestión de cambios más controlada en toda la plataforma.

La ejecución paralela reduce el tiempo total de edición

Si un cambio afecta tanto al lado del balanceo de carga como al de log, las operaciones elegibles pueden ejecutarse en paralelo. Se reduce la espera secuencial y se acorta el tiempo total del trabajo. Esto importa especialmente con configuraciones grandes o actualizaciones que afectan a múltiples subcomponentes. La ventana de operación se usa de forma más eficiente.

El drain de conexiones durante el soft reload reduce el riesgo de caídas de sesión

Cuando se aplica un soft reload, el worker antiguo no se mata inmediatamente — se permite que las conexiones existentes se cierren naturalmente. El tráfico nuevo se dirige a la configuración actualizada mientras el tráfico existente completa su cierre natural. Esto es crítico para las conexiones TCP de larga duración y las sesiones de usuario activas. El objetivo es evitar producir resets TCP o desconexiones abruptas en el momento del cambio.

El reload automático basado en contador de errores proporciona autocorrección

Cuando se supera un umbral de error específico en las estadísticas del pool, puede activarse un reload automático. Este comportamiento ayuda a que los problemas de tiempo de ejecución transitorios se recuperen sin esperar intervención manual. Para los operadores, esto significa una señal automática de mejora de salud para el servicio. Las causas recurrentes de reload deben seguir evaluándose a través del monitoreo y el análisis de causa raíz.

Los cambios de WAAP y Lua pueden incluirse en el alcance del soft reload

Las actualizaciones de perfil WAAP, listas blancas, conjuntos de reglas y scripts Lua pueden tratarse como cambios recargables en vivo. Esto permite actualizaciones rápidas de política de seguridad durante un ataque y activa nueva lógica sin interrumpir el tráfico de la aplicación. Los cambios en el conjunto de reglas no están vinculados a un reinicio completo de la plataforma. Este enfoque aumenta la agilidad de las operaciones de seguridad.

Profundidad operacional

El hot config reload opera junto con la ruta de gestión del pool, el comportamiento del comando, el timeout, la lógica de reintento y la clasificación de qué campos cuentan como cambios soft o hard.

Socket de gestión del pool

Cada pool tiene un socket de gestión dedicado. El comando de reload se envía al canal de gestión del pool relevante. Esta estructura es la base del comportamiento de reload independiente por pool.

Comando de reload

El soft reload se activa mediante un comando de reload enviado al canal de gestión. Si el comando tiene éxito, la nueva configuración se activa y las conexiones existentes están protegidas por el comportamiento de drain. En caso de fallo, el smart reload puede aplicar un fallback de hard restart.

Modelo de nomenclatura de contenedores

Los nombres de contenedores de pool siguen un patrón consistente vinculado al poolId. Esta estructura asegura que las operaciones de reload, restart, limpieza de logs y comprobación de salud se apliquen al contenedor correcto. La automatización de operaciones se beneficia de esta nomenclatura determinista.

Comportamiento de reintento soft

En el modelo predeterminado, el soft reload se intenta una vez. Si ocurre una excepción o fallo de reload, el sistema cambia a la ruta de hard restart. Este enfoque evita alargar el tiempo de operación reintentando repetidamente un reload fallido.

Límite de timeout del trabajo

El timeout total para un trabajo de edición de pool puede mantenerse en 5 minutos. Esto cubre el alcance completo de limpieza de logs, reload y restart si es necesario. Los trabajos de larga duración no permanecen abiertos en un estado indeterminado en la pantalla de operaciones.

Duraciones de espera

Los valores predeterminados de waitBefore y waitAfter pueden ejecutarse optimizados en 0. Esto elimina las esperas fijas innecesarias. El tiempo de espera real está determinado por el estado de la operación y la respuesta del sistema.

Cuándo usarlo

Publicar una nueva versión de regla WAAP sin cortar el tráfico activo

Un nuevo conjunto de reglas WAAP o una actualización basada en OWASP puede incluirse en el alcance del soft reload. Las sesiones de usuario existentes se preservan mientras la nueva lógica de seguridad entra en vigor para las solicitudes entrantes. No hay necesidad de esperar una ventana de mantenimiento durante un ataque activo.

Renovar un certificado sin desconectar las conexiones existentes

Cuando se actualiza un certificado próximo a expirar, el cambio de lbCertificates puede aplicarse mediante soft reload. Las nuevas conexiones TLS usan el certificado actualizado. Las conexiones existentes se cierran naturalmente mediante el comportamiento de drain.

Expandir el pool de backend tras el autoscaling

Los nuevos nodos de backend pueden añadirse a la lista de lbBackends. Tras el soft reload, las nuevas conexiones se benefician del pool expandido. La capacidad aumenta sin afectar a otros pools o las conexiones existentes.

Endurecer rápidamente la política de rate-limit durante un ataque

Un nuevo perfil de DDoS o rate-limit puede aplicarse como un cambio de configuración en vivo. La política entra en vigor en las solicitudes entrantes en poco tiempo. El equipo de operaciones responde al ataque sin crear downtime adicional por un reinicio.

Preguntas frecuentes

¿Qué cambios de configuración pasan por soft reload y cuáles requieren un restart?

Los campos de tiempo de ejecución — reglas (lbRules), listas de backend (lbBackends), comprobaciones de salud (lbHealthChecks), certificados (lbCertificates), perfiles de rate-limit/DDoS, perfiles WAAP y listas blancas, caché, compresión, sesión y configuraciones de timeout — están dentro del alcance del soft reload. Los campos que afectan a los parámetros de creación del servicio — tipo de servicio, límites de CPU/memoria, VIP/puerto, namespace de red o versión binaria — se clasifican como cambios de creationConfig y desencadenan un hard restart controlado.

¿Qué sucede si el soft reload falla?

Se activa la lógica de smart reload: si el soft reload falla, el sistema toma automáticamente la ruta de fallback de hard restart. Este modelo evita que un intento de reload fallido deje el servicio en un estado de configuración indeterminada o parcialmente aplicada. Los operadores trabajan a través de un único flujo seguro en todo momento.

¿Qué sucede con las sesiones activas durante un soft reload?

El worker antiguo no se termina inmediatamente. El comportamiento de drain de conexiones permite que las conexiones existentes se cierren naturalmente. Las nuevas conexiones se dirigen a la configuración actualizada mientras las conexiones existentes completan su cierre natural. Esto importa para las conexiones TCP de larga duración y las sesiones de usuario activas.

¿Recargar un pool afecta a otros pools?

No. Cada pool se maneja de forma independiente con su propio canal de gestión y estructura de tiempo de ejecución. Un cambio en un pool afecta solo a ese pool. Este aislamiento reduce el radio de explosión de los cambios en plataformas grandes y permite al equipo de operaciones trabajar de forma dirigida.

¿Cómo puede un operador ver por qué un cambio requiere un restart?

El análisis del diff de configuración registra qué campos pueden aplicarse mediante soft reload y cuáles requieren un hard restart debido a un cambio de creationConfig en la lista de restartReasons. Los operadores pueden revisar esta lista para entender el impacto y el motivo de un cambio antes de aplicarlo. El impacto del cambio deja de ser una caja negra.

¿Un cambio en el conjunto de reglas WAAP requiere una ventana de mantenimiento?

No. Las actualizaciones de perfil WAAP, listas blancas y conjuntos de reglas están dentro del alcance del soft reload. Las sesiones de usuario existentes se preservan mientras la nueva lógica de seguridad se aplica a las solicitudes entrantes. Incluso durante un ataque activo, una actualización de reglas no necesita esperar una ventana de mantenimiento.

Los cambios de configuración no deberían requerir una ventana de mantenimiento

Aplique reglas WAAP, certificados, pools de backend y políticas de rate-limit sin desconectar sesiones activas. Déjenos guiarle por una configuración en vivo en su propio entorno.