Capacidade

Monitoramento de DC em Duplo Caminho WAN/LAN

Os caminhos de rede externos e internos de cada DC monitorados independentemente — a alcançabilidade parcial é um estado reconhecido, não uma resposta binária.

O GSLB clássico pergunta: "O data center está alcançável?" Uma resposta. O TR7 GTM faz duas: "Está alcançável pela WAN?" e "Está alcançável pela LAN?" — e deixa a política de failover usar ambas as respostas independentemente. As redes em produção fazem isso importar o tempo todo. O link externo de internet de um DC cai mas o link MPLS privado para outros DCs permanece up: usuários externos devem fazer failover, mas serviços internos entre DCs devem continuar. A rede LAN/privada de um DC está fora mas a WAN está up: o tráfego externo deve continuar a fluir enquanto o failover interno dispara. O link WAN de um DC está up mas alcança apenas peering parcial: o DC é alcançável, mas não a partir de toda direção. As definições de data center do TR7 GTM carregam duas listas de acesso independentes: `wanAccess[]` para caminhos de rede externos e `lanAccess[]` para caminhos de rede internos/privados. Cada lista contém múltiplos endpoints (IP, porta, V-Device, route table) para que um DC tenha múltiplos pontos de entrada WAN e múltiplos pontos de entrada LAN. Cada endpoint é monitorado independentemente. Os cenários de failover consomem as flags de alcançabilidade resultantes como sinais separados. O resultado: a política de failover reflete a topologia real. Falha apenas em WAN, falha apenas em LAN, alcançabilidade parcial e queda total são quatro estados distintos com quatro respostas distintas de política — não colapsadas em um único binário.

2 caminhos
Listas de acesso WAN e LAN por DC, monitoradas independentemente
N endpoints
Cada caminho contém múltiplos endpoints — trânsito redundante capturado nativamente
4 estados
Totalmente up, apenas WAN, apenas LAN, totalmente down — cada um uma entrada de política distinta
Por DC
Limiares de saúde ajustados independentemente por data center

A alcançabilidade de link único esconde falhas assimétricas que redes reais produzem.

O modelo clássico de GSLB trata cada data center como uma entidade única com um estado único de alcançabilidade. Ou o DC está up, ou está down. A maioria das redes empresariais é construída de forma diferente: links externos de internet, links MPLS ou VPN privados, peering dedicado entre DCs, conexões com redes de parceiros — cada um carrega seus próprios padrões de interrupção e sua própria política de roteamento.

Quando um provedor de trânsito externo falha mas o MPLS privado permanece up, a visão binária diz "DC está down" — mas o tráfego interno entre DCs ainda deveria fluir. Quando o link privado está congestionado mas o link público está saudável, a visão binária diz "DC está up" — mas serviços internos sensíveis a latência estão degradando. Health checks de link único não conseguem distinguir esses estados, e os operadores são forçados a escolher entre falsos positivos e falsos negativos.

A resposta certa é alcançabilidade multi-caminho: monitorar os pontos de entrada de cada rede independentemente e deixar a política consumir os sinais separados. As definições de data center do TR7 GTM são nativamente em duplo caminho: pontos de acesso WAN e pontos de acesso LAN são listas independentes, cada uma monitorada separadamente, cada uma contribuindo com flags distintas às decisões de failover.

Nossa abordagem

Cada data center do TR7 GTM é definido com duas listas de acesso independentes — uma para endpoints WAN, outra para endpoints LAN. Cada lista contém múltiplos endereços com contexto de rede completo.

Lista wanAccess — alcançabilidade de rede externa

Cada entrada de acesso WAN carrega IP, porta, atribuição de V-Device e route table. Múltiplas entradas WAN por DC capturam caminhos externos redundantes (trânsito primário, trânsito secundário, peering de parceiro).

Lista lanAccess — alcançabilidade de rede interna/privada

Cada entrada de acesso LAN espelha a estrutura WAN com contexto de rede privada. Múltiplas entradas LAN capturam links MPLS, túneis VPN, fibra dedicada entre DCs e outros caminhos privados.

Alcançabilidade parcial como estado reconhecido

Quando algumas entradas WAN estão inalcançáveis mas as entradas LAN estão saudáveis (ou vice-versa), o DC está em estado parcial. Cenários definidos pelo operador consomem o estado parcial como sinal distinto — a política de failover não é forçada a um binário up/down.

Contexto de V-Device e route table por entrada

Cada entrada de acesso é vinculada a um V-Device específico e a uma route table. Isso permite que uma única implantação TR7 monitore DCs em múltiplos segmentos de rede — DCs apenas internos, DCs em DMZ, DCs conectados a parceiros — sem colapsá-los em um único contexto de roteamento.

Capacidades

O monitoramento em duplo caminho está integrado ao modelo de data center e é consumido em toda a lógica de decisão de cenário, gatilho e registro DNS.

Múltiplos endpoints de acesso WAN por DC

wanAccess é um array — cada entrada é um endereço de rede completo (IP, porta, V-Device, route table). Um DC com dois provedores de trânsito externos tem duas entradas WAN; se um falha, o DC está parcialmente alcançável pela WAN, mas não completamente fora pela WAN.

Múltiplos endpoints de acesso LAN por DC

lanAccess espelha a lista WAN com entradas de rede privada. Um DC com MPLS mais um link dedicado de peering tem duas entradas LAN. O tráfego interno entre DCs usa o caminho LAN; a alcançabilidade LAN é monitorada independentemente da WAN.

Sondagem de saúde por endpoint

Cada endpoint WAN e LAN é monitorado independentemente. O status do DC é o composto de todos os estados de saúde por endpoint, expostos como sinais separados (any-WAN-up, all-WAN-up, any-LAN-up, all-LAN-up, internet-reachable).

Cenários auto-gerados de par de DC usam ambos os caminhos

Quando o TR7 GTM auto-gera cenários de failover para um par de DCs, as expressões de condição geradas combinam sinais de alcançabilidade WAN, LAN e internet. Os operadores não escrevem a lógica; a plataforma a compõe a partir das entradas em duplo caminho.

Cenários manuais podem referenciar diretamente flags WAN/LAN

Cenários customizados referenciam as flags de alcançabilidade por DC pelo ID. Uma expressão como "WAN do DC-B está down AND LAN do DC-B está up" seleciona o estado parcial exato em que o operador quer agir.

Período de acesso, limiar de sucesso e limiar de falha requeridos

Cada DC carrega parâmetros de health check ajustáveis pelo operador: com que frequência sondar cada ponto de acesso, quantos sucessos consecutivos são exigidos para marcar como up e quantas falhas para marcar como down. Os mesmos valores de limiar se aplicam a WAN e LAN; a customização por endpoint acontece via as atribuições de V-Device e route table.

A segmentação por V-Device reforça a separação

Endpoints WAN e LAN podem ficar em V-Devices diferentes e em route tables diferentes. Isso previne vazamento acidental de sondas entre redes — o monitoramento apenas interno nunca atravessa trânsito externo e o monitoramento externo nunca atravessa o MPLS interno.

O dashboard exibe estados parciais explicitamente

Os operadores enxergam separadamente os endpoints WAN e LAN de cada DC no dashboard. A alcançabilidade parcial aparece como "3 de 4 endpoints WAN saudáveis" — não como uma única flag up/down.

Os gatilhos de cenário recebem payload em duplo caminho

Quando um cenário dispara gatilhos, o payload do gatilho inclui o estado atual de alcançabilidade de cada endpoint WAN e LAN. Sistemas downstream (SIEM, gerenciamento de incidentes) recebem contexto estruturado de topologia para o evento de failover.

Limiares de failover independentes para quedas só de WAN vs só de LAN

Os operadores definem cenários separados para quedas apenas de WAN e apenas de LAN. Uma falha WAN pode disparar failover externo no nível DNS; uma falha LAN pode disparar mudanças de route table internas via o sistema de gatilhos. Dois caminhos de resposta distintos a partir de duas classes distintas de sinal.

Profundidade operacional

O monitoramento em duplo caminho trabalha com V-Devices, route tables, expressões de condição de cenário e composição do payload de gatilho.

01

Composição da saúde do endpoint

A saúde de cada endpoint de acesso é determinada por uma sonda configurável (TCP, HTTP, HTTPS, ICMP, DNS, etc.). A flag composta WAN-reachable para o DC é true se algum (ou todos, conforme a política do operador) endpoints WAN estão saudáveis. A mesma composição se aplica à LAN.

02

Sinal de alcançabilidade à internet

Uma flag separada de alcançabilidade à internet é computada a partir dos resultados de sondas externas. Essa flag é independente de qualquer endpoint WAN específico e é usada em cenários auto-gerados para detectar isolamento externo total.

03

Vinculação de V-Device e route table

A atribuição V-Device + route table de cada entrada de acesso determina em qual contexto de rede a sonda roda. Sondas para endpoints LAN atravessam a infraestrutura interna; sondas para endpoints WAN atravessam a infraestrutura externa. A plataforma reforça essa separação.

04

Ajuste de limiares por DC

accessPeriod, requiredSuccess, requiredFailure são definidos por DC. Um DC de alta importância pode usar uma sonda de 30 segundos com limiares 2-sucessos/1-falha para failover rápido; um DC menos crítico pode usar sondas de 5 minutos com 3-sucessos/3-falhas para estabilidade.

05

Sintaxe de condição composta em cenários

As condições referenciam sinais de alcançabilidade pelo ID: `|wanAccess`, `|lanAccess`, `|access`, `|internet`. O sufixo `!` nega. Grupos de condições combinadas se unem por AND/OR para lógica expressiva multi-caminho.

06

Estrutura do payload de gatilho

Quando um cenário dispara gatilhos, o payload carrega o estado atual de alcançabilidade de cada DC: contagem de endpoints WAN, contagem de endpoints LAN, contagens de endpoints saudáveis, horários da última sonda. Sistemas de gerenciamento de incidentes recebem contexto estruturado para o evento de failover.

Quando usar

Queda de trânsito externo com MPLS interno intacto

O provedor de trânsito externo falha. A flag WAN-reachable do DC afetado cai; LAN-reachable permanece up. Os usuários externos fazem failover via DNS; o tráfego interno entre DCs continua sobre MPLS sem interrupção.

Queda de rede interna/privada com link externo saudável

O link MPLS para o DC falha. LAN-reachable cai; WAN-reachable permanece up. Os usuários externos continuam alcançando o DC; os serviços internos roteiam ao redor do DC via caminhos alternativos disparados pelo cenário de falha de LAN.

Redes governamentais/reguladas com separação estrita de caminhos

Ambientes regulados (governo, defesa, financeiro) frequentemente exigem separação estrita entre caminhos de rede pública e privada. O monitoramento em duplo caminho do TR7 expressa essa separação nativamente — cada caminho tem suas próprias sondas, seus próprios limiares e sua própria resposta de política.

Redundância multi-trânsito com visibilidade por link

DCs com dois ou três provedores de trânsito veem a alcançabilidade de cada provedor separadamente. Um único trânsito caindo não marca o DC como WAN-down — apenas seu endpoint específico se torna inalcançável, e os operadores veem exatamente qual trânsito falhou.

Perguntas frequentes

Por que isso é diferente de rodar dois health checks separados?
Dois health checks separados dão dois sinais separados, mas não estão acoplados a uma identidade de DC. O monitoramento em duplo caminho vincula ambos os sinais à mesma entidade de DC, de modo que os cenários de failover referenciam "WAN do DC-A está down" em vez de "check-37 está down". O mapeamento semântico para o data center, o V-Device e a route table é preservado, e o dashboard mostra o quadro completo de caminhos do DC em uma única visão.
Um DC pode ter apenas acesso WAN ou apenas acesso LAN?
Sim. Um DC voltado à internet sem MPLS interno teria uma lista lanAccess vazia; um DC apenas interno sem trânsito externo teria uma lista wanAccess vazia. O modelo em duplo caminho acomoda DCs com conectividade assimétrica sem forçar os operadores a inventar endpoints sintéticos.
Como isso interage com o DNS split-horizon?
O monitoramento em duplo caminho é independente do DNS split-horizon, mas compõe bem com ele. O split-horizon serve respostas DNS diferentes para clientes internos e externos; o monitoramento em duplo caminho decide se o DC está alcançável de cada lado. Juntos, clientes internos podem ser direcionados a DCs alcançáveis pela LAN, enquanto clientes externos são direcionados a DCs alcançáveis pela WAN.
E se a WAN e a LAN têm latências diferentes?
A latência é capturada pelos sinais de origem-cliente na seleção de DC multi-origem. A alcançabilidade WAN/LAN é uma dimensão separada: ela diz quais caminhos estão disponíveis, não qual é mais rápido. Combine a alcançabilidade WAN/LAN (elegibilidade) com a latência da origem-cliente (preferência) para seleção totalmente consciente do caminho.
Os cronogramas de sonda de WAN e LAN são os mesmos?
Por padrão, sim — ambos herdam os limiares accessPeriod, requiredSuccess e requiredFailure do DC. Os operadores podem fazer override por V-Device e route table se o caminho WAN exige sondagem mais rápida do que o caminho LAN (ou vice-versa).

Pare de colapsar a topologia real da rede em uma única flag up/down.

Percorra o monitoramento de DC em duplo caminho na sua própria topologia: quedas de trânsito WAN, DCs apenas MPLS, alcançabilidade parcial — todos como estados reconhecidos, não casos extremos.