Capacidad

Telemetría de Servidor e Inteligencia de Enrutamiento

El mismo agente que opera en los clientes opera también en los servidores; la decisión de routing se toma a partir del estado de recursos en vivo, no del probe de protocolo.

Los ADC clásicos intentan entender la salud del servidor con probes de protocolo: '¿está abierto el puerto?', '¿devuelve HTTP 200?', quizá '¿coincide el contenido de una página?'. Estas respuestas dicen 'el servidor responde' pero no dicen 'el servidor está sano'. Un servidor cuyo disco está al 95% lleno, cuya RAM ha caído en swap o cuyo proceso crítico está en un ciclo de reinicio puede seguir devolviendo 200 OK al probe. TR7 ETM derriba este muro. El mismo agente que opera en los clientes opera también en los servidores de la organización. La carga de CPU, la presión de memoria, la saturación de IO de disco, el uso de swap, la salud de los procesos abiertos, las métricas de la aplicación, la validez de los certificados y el drift de configuración fluyen en tiempo real al ADC. La decisión de load balancing supera la pregunta '¿responde?' y responde a la pregunta '¿cuál es el servidor más sano en este momento?'. Sobre un appliance ADC de clase empresarial, un único flujo de información del cliente al servidor — este complemento es el sello distintivo de TR7.

Segundos

Intervalo de recopilación de métricas

Único

El mismo agente para cliente y servidor

En vivo

Puntuación de salud vinculada a la decisión de routing del ADC

Un servidor que devuelve 200 OK no está sano; un servicio enfermo todavía puede responder a un probe de protocolo externo.

La salud del backend se monitorea siempre desde la capa de protocolo en el mundo clásico del load balancing. El ADC envía una solicitud HTTP al servidor, recibe 200 OK, añade el servidor al pool. O hace un probe TCP, si el puerto está abierto lo considera sano. Incluso quizá hace una validación de contenido: '¿está esta palabra en la respuesta?'

Este enfoque mira desde la cáscara exterior; no mira desde dentro. No ve que la ocupación de disco del servidor ha llegado al 98%, que la RAM ha caído en swap y el rendimiento se ha desplomado, que el ciclo de GC se ha alargado, que se ha llenado el límite de conexiones de la base de datos. El servidor sigue devolviendo HTTP 200 — pero el usuario sufre una espera de segundos para su solicitud.

Peor aún: el probe de protocolo se considera local, no reporta el estado propio del servidor. El ADC solo ve lo que ve el probe. La presión de recursos acumulada en el servidor o el ciclo de reinicio de un proceso crítico no afectan la decisión de routing.

ETM Telemetría de Servidor cierra esta brecha. El agente en el servidor transmite continuamente su propio estado interno al ADC. La decisión de routing se toma no a partir del probe de protocolo externo, sino a partir de datos en vivo provenientes de dentro.

Nuestro enfoque

TR7 ETM modela la salud del servidor como una entrada viva de la capa de routing del ADC. Este enfoque combina la seguridad del cliente y la observability del servidor en la misma plataforma.

CPU, RAM, IO y swap fluyen en vivo directamente desde el servidor

El agente en el servidor mide en tiempo real la carga de CPU, el uso de memoria, la presión de swap, la saturación de IO de disco y el throughput de las interfaces de red. Los datos se transmiten al ADC a intervalos periódicos — del orden de segundos; la decisión de routing se alimenta de estos datos actualizados.

La señal de salud a nivel de aplicación se combina con las métricas

Se monitorean la salud de los procesos críticos de la aplicación, los ciclos de reinicio, el tiempo de garbage collection, el número de descriptores de archivo abiertos, el estado del thread pool y las métricas específicas de la aplicación (p. ej. límite de conexiones de base de datos). Si la aplicación no está sana, el tráfico no va a ese servidor.

La decisión de routing del ADC se adapta en vivo según la puntuación de recursos

El algoritmo de load balancing del ADC puede operar según la puntuación de salud proveniente de la telemetría de ETM. Un servidor con CPU alta recibe menos tráfico, un servidor con saturación de IO se saca de las nuevas conexiones, un servidor que ha caído en swap se limpia automáticamente del pool.

El mismo agente, dos extremos, una sola visión

El mismo agente ETM usado para la seguridad del cliente opera también en los servidores. El equipo de operaciones usa un único agente, una única capa de gestión y un único modelo de telemetría. No queda necesidad de desplegar una herramienta separada para la observability del backend.

Capacidades

La telemetría de servidor no es solo observability; es la fuente de datos en vivo de la decisión de routing del ADC.

Se monitorean la carga de CPU, el load average por núcleo y el estado térmico

El número de CPU, el promedio de carga continuo, el porcentaje de uso instantáneo y el estado térmico se miden en tiempo real. La anomalía en la carga por núcleo o la caída de rendimiento por throttle térmico se reflejan en la decisión de routing.

Se siguen el uso de memoria, la presión de swap y el riesgo de OOM

Se monitorean la memoria total y disponible, el uso de swap, la tasa de page fault y la actividad del OOM killer. Un servidor que ha caído en swap puede pasar automáticamente a un pool de baja prioridad; un servidor cuyo riesgo de OOM se hace evidente puede retirarse del tráfico.

Saturación de disco, tiempo de espera de IO y salud del sistema de archivos

Se monitorean la tasa de ocupación de disco, el tiempo de espera de IO, el número de IOPS, el número de solicitudes en cola y los recuentos de errores SMART. Cuando se supera el umbral de ocupación de disco o la saturación de IO es alta, el servidor se retira del tráfico.

Salud de procesos, estado de los servicios en ejecución y ciclo de reinicio

Se monitorean si los procesos críticos definidos están en ejecución, la última hora de reinicio y el número de ciclos de restart. Una aplicación que se reinicia continuamente se retira del tráfico; el pool se marca para la intervención del operador.

Métricas de la aplicación (límite de conexiones de base de datos, queue depth, tiempo de GC)

Las métricas específicas de la aplicación en el servidor — métricas del runtime de la aplicación (tiempo de GC, latencia del event loop), saturación del límite de conexiones de base de datos, profundidad de cola — pueden extraerse a través del agente. El ADC puede incluir estas métricas en la decisión de routing.

Throughput de interfaces de red, tasa de errores y número de conexiones

Se monitorean el throughput de las interfaces de red del servidor, la tasa de pérdida de paquetes, el número de retransmisiones y el número de conexiones TCP activas. Un servidor con saturación de red se marca automáticamente con un peso bajo.

Validez de certificados TLS e integridad de archivos críticos

Se monitorean el periodo de validez de los certificados TLS en el servidor, la integridad de hash de los archivos de configuración críticos y los cambios en los almacenes de certificados. Un certificado próximo a expirar genera tanto una alerta al operador como puede incluirse en la política de routing.

Detección de configuration drift y cambios de configuración

La desviación del servidor respecto a su baseline de configuración se captura al instante. Un cambio de configuración no autorizado, una cuenta de usuario inesperada o el inicio de un nuevo servicio llega a ETM como un evento. Esta señal se refleja tanto en las decisiones de seguridad como de operación.

La puntuación de salud se alimenta en vivo al algoritmo del ADC

La telemetría de ETM puede convertirse en una puntuación de salud de 0 a 100 por servidor. El algoritmo de load balancing del ADC (round-robin, least-conn, weighted least-conn) puede usar esta puntuación como peso. Un servidor cuya puntuación baja recibe menos tráfico; un servidor que cae por debajo del umbral sale del pool.

La predictive degradation señala el problema futuro a partir de la métrica antigua

Señales como la velocidad de aumento de la ocupación de disco, la tendencia de consumo de memoria y la frecuencia de restart pueden interpretarse de forma predictive. Aunque el servidor aún no haya fallado, el tráfico se retira de forma suave de un servidor cuya probabilidad de fallar en poco tiempo aumenta.

Profundidad operativa

La telemetría de servidor es la fuente de datos en vivo de la inteligencia de routing del ADC — incluidas integración, escalabilidad y auditoría.

Integración en vivo con el ADC

La telemetría fluye periódicamente al plano de control del ADC. El algoritmo de load balancing puede operar según la puntuación de ETM; las decisiones de routing especiales pueden dispararse según los eventos de ETM. El operador puede vincular las métricas de ETM al lenguaje de política sin escribir ningún custom script.

Combinación con el probe de salud

El probe de salud activo basado en protocolo (HTTP, TCP, Oracle) sigue funcionando; la telemetría de ETM añade una capa de 'visión interna' junto a este probe. La decisión de routing evalúa ambas fuentes en conjunto: '¿responde?' (probe de protocolo) + '¿está sano?' (ETM).

Configuración de periodo y metric scope

Qué métricas se recopilan con qué periodo puede configurarse según el rol del servidor. Para un servidor web pueden priorizarse CPU/RAM/IO, para un servidor de base de datos el límite de conexiones y la query latency, para un servidor de aplicaciones el GC y el thread pool.

Huella reducida y sensibilidad al rendimiento

El agente en el servidor está diseñado para un uso mínimo de recursos. Opera sin causar pérdida de rendimiento incluso en backends de alto throughput. La intensidad de recopilación de métricas es configurable.

Integración SIEM y de plataformas de observability

La telemetría puede transferirse a las plataformas corporativas de monitoreo y observability. Cuando se desea usar el stack de observability estándar de la organización en lugar de la propia interfaz de gestión de ETM, se proporciona el flujo de datos.

Escalabilidad

Desde un único clúster TR7 puede recopilarse la telemetría de miles de servidores. En las estructuras multirregión, con Central Management los inventarios de servidores de distintas regiones se visualizan desde una única consola.

En qué escenarios se usa

Cuando se llena el límite de conexiones del servidor de base de datos, la distribución de tráfico cambia de forma suave

Cuando el límite de conexiones de base de datos del servidor de aplicaciones se acerca a la saturación, ETM lo transmite al ADC. El ADC reduce gradualmente el peso de ese servidor; las nuevas conexiones se dirigen a otros servidores. El usuario no ve timeout; el backend respira de forma gradual.

Un servidor que alcanza el umbral de ocupación de disco se retira automáticamente del pool

Cuando la ocupación de disco de un servidor supera el 95% por copias de seguridad o acumulación de logs, ETM genera un evento. El servidor se saca automáticamente del pool; se marca para la intervención del operador. Se evita que el disco se llene por completo y el servicio se caiga.

Predictive: el tráfico se retira de un servidor con alta tendencia de consumo de memoria

Un servidor cuyo uso de memoria aumenta de forma continua y con alto riesgo de OOM puede pasarse a un peso bajo mediante ETM antes de caerse. El tráfico se desplaza suavemente a otros servidores; el problema se resuelve antes de convertirse en un incidente.

Alerta automática + política para un servidor con fecha de validez de certificado TLS próxima

La validez de menos de 30 días del certificado TLS en el servidor se notifica a ETM. Se envía una alerta al operador; hasta que se renueve el certificado, el servidor puede no recibir tráfico crítico o puede elevarse la alarma. Se elimina el riesgo de un error sorpresa de certificado.

Preguntas frecuentes

¿Esta función es distinta del control de salud activo?

Es complementaria. El control de salud activo realiza una validación de la cáscara exterior desde la capa de protocolo — '¿está abierto el puerto?', '¿HTTP 200?'. ETM Telemetría de Servidor mira desde dentro — '¿cuál es la carga de CPU?', '¿cuál es la ocupación de disco?', '¿cómo está el tiempo de GC?'. Las dos fuentes operan en conjunto; el ADC evalúa ambas en la decisión de routing.

¿El agente en el servidor genera impacto en el rendimiento?

El agente está diseñado para una huella reducida. La intensidad de recopilación de métricas es configurable; las métricas de baja prioridad pueden recopilarse de forma más espaciada. En la mayoría de los servidores corporativos no hay un impacto de rendimiento detectable.

¿Qué plataformas de servidor se soportan?

El agente de ETM se ofrece para Windows Server y las distribuciones Linux más comunes. Opera en entornos de máquina virtual, servidor físico y container. Se realiza optimización para los backends de alto tráfico.

¿El load balancing clásico sigue funcionando sin la telemetría de ETM?

Sí. El control de salud activo (probe de protocolo) sigue funcionando de forma independiente de ETM. ETM Telemetría de Servidor llega como una 'capa de visión adicional'; profundiza la decisión de routing pero no cambia su base. El operador decide en qué nivel desea usar ETM.

Vincule la decisión de routing al estado en vivo del servidor

Veamos ETM Telemetría de Servidor en vivo en su propio backend — planifiquemos una sesión de instalación sobre un grupo de servidores piloto.