Capacidade

Monitoramento de DC em Duplo Caminho WAN/LAN

Os caminhos de rede externos e internos de cada DC monitorados independentemente — a alcançabilidade parcial é um estado reconhecido, não uma resposta binária.

O GSLB clássico pergunta: "O data center está alcançável?" Uma resposta. O TR7 GTM faz duas: "Está alcançável pela WAN?" e "Está alcançável pela LAN?" — e deixa a política de failover usar ambas as respostas independentemente. As redes em produção fazem isso importar o tempo todo. O link externo de internet de um DC cai mas o link MPLS privado para outros DCs permanece up: usuários externos devem fazer failover, mas serviços internos entre DCs devem continuar. A rede LAN/privada de um DC está fora mas a WAN está up: o tráfego externo deve continuar a fluir enquanto o failover interno dispara. O link WAN de um DC está up mas alcança apenas peering parcial: o DC é alcançável, mas não a partir de toda direção. As definições de data center do TR7 GTM carregam duas listas de acesso independentes: `wanAccess[]` para caminhos de rede externos e `lanAccess[]` para caminhos de rede internos/privados. Cada lista contém múltiplos endpoints (IP, porta, V-Device, route table) para que um DC tenha múltiplos pontos de entrada WAN e múltiplos pontos de entrada LAN. Cada endpoint é monitorado independentemente. Os cenários de failover consomem as flags de alcançabilidade resultantes como sinais separados. O resultado: a política de failover reflete a topologia real. Falha apenas em WAN, falha apenas em LAN, alcançabilidade parcial e queda total são quatro estados distintos com quatro respostas distintas de política — não colapsadas em um único binário.

2 caminhos

Listas de acesso WAN e LAN por DC, monitoradas independentemente

N endpoints

Cada caminho contém múltiplos endpoints — trânsito redundante capturado nativamente

4 estados

Totalmente up, apenas WAN, apenas LAN, totalmente down — cada um uma entrada de política distinta

Por DC

Limiares de saúde ajustados independentemente por data center

A alcançabilidade de link único esconde falhas assimétricas que redes reais produzem.

O modelo clássico de GSLB trata cada data center como uma entidade única com um estado único de alcançabilidade. Ou o DC está up, ou está down. A maioria das redes empresariais é construída de forma diferente: links externos de internet, links MPLS ou VPN privados, peering dedicado entre DCs, conexões com redes de parceiros — cada um carrega seus próprios padrões de interrupção e sua própria política de roteamento.

Quando um provedor de trânsito externo falha mas o MPLS privado permanece up, a visão binária diz "DC está down" — mas o tráfego interno entre DCs ainda deveria fluir. Quando o link privado está congestionado mas o link público está saudável, a visão binária diz "DC está up" — mas serviços internos sensíveis a latência estão degradando. Health checks de link único não conseguem distinguir esses estados, e os operadores são forçados a escolher entre falsos positivos e falsos negativos.

A resposta certa é alcançabilidade multi-caminho: monitorar os pontos de entrada de cada rede independentemente e deixar a política consumir os sinais separados. As definições de data center do TR7 GTM são nativamente em duplo caminho: pontos de acesso WAN e pontos de acesso LAN são listas independentes, cada uma monitorada separadamente, cada uma contribuindo com flags distintas às decisões de failover.

Nossa abordagem

Cada data center do TR7 GTM é definido com duas listas de acesso independentes — uma para endpoints WAN, outra para endpoints LAN. Cada lista contém múltiplos endereços com contexto de rede completo.

Lista wanAccess — alcançabilidade de rede externa

Cada entrada de acesso WAN carrega IP, porta, atribuição de V-Device e route table. Múltiplas entradas WAN por DC capturam caminhos externos redundantes (trânsito primário, trânsito secundário, peering de parceiro).

Lista lanAccess — alcançabilidade de rede interna/privada

Cada entrada de acesso LAN espelha a estrutura WAN com contexto de rede privada. Múltiplas entradas LAN capturam links MPLS, túneis VPN, fibra dedicada entre DCs e outros caminhos privados.

Alcançabilidade parcial como estado reconhecido

Quando algumas entradas WAN estão inalcançáveis mas as entradas LAN estão saudáveis (ou vice-versa), o DC está em estado parcial. Cenários definidos pelo operador consomem o estado parcial como sinal distinto — a política de failover não é forçada a um binário up/down.

Contexto de V-Device e route table por entrada

Cada entrada de acesso é vinculada a um V-Device específico e a uma route table. Isso permite que uma única implantação TR7 monitore DCs em múltiplos segmentos de rede — DCs apenas internos, DCs em DMZ, DCs conectados a parceiros — sem colapsá-los em um único contexto de roteamento.

Capacidades

O monitoramento em duplo caminho está integrado ao modelo de data center e é consumido em toda a lógica de decisão de cenário, gatilho e registro DNS.

Múltiplos endpoints de acesso WAN por DC

wanAccess é um array — cada entrada é um endereço de rede completo (IP, porta, V-Device, route table). Um DC com dois provedores de trânsito externos tem duas entradas WAN; se um falha, o DC está parcialmente alcançável pela WAN, mas não completamente fora pela WAN.

Múltiplos endpoints de acesso LAN por DC

lanAccess espelha a lista WAN com entradas de rede privada. Um DC com MPLS mais um link dedicado de peering tem duas entradas LAN. O tráfego interno entre DCs usa o caminho LAN; a alcançabilidade LAN é monitorada independentemente da WAN.

Sondagem de saúde por endpoint

Cada endpoint WAN e LAN é monitorado independentemente. O status do DC é o composto de todos os estados de saúde por endpoint, expostos como sinais separados (any-WAN-up, all-WAN-up, any-LAN-up, all-LAN-up, internet-reachable).

Cenários auto-gerados de par de DC usam ambos os caminhos

Quando o TR7 GTM auto-gera cenários de failover para um par de DCs, as expressões de condição geradas combinam sinais de alcançabilidade WAN, LAN e internet. Os operadores não escrevem a lógica; a plataforma a compõe a partir das entradas em duplo caminho.

Cenários manuais podem referenciar diretamente flags WAN/LAN

Cenários customizados referenciam as flags de alcançabilidade por DC pelo ID. Uma expressão como "WAN do DC-B está down AND LAN do DC-B está up" seleciona o estado parcial exato em que o operador quer agir.

Período de acesso, limiar de sucesso e limiar de falha requeridos

Cada DC carrega parâmetros de health check ajustáveis pelo operador: com que frequência sondar cada ponto de acesso, quantos sucessos consecutivos são exigidos para marcar como up e quantas falhas para marcar como down. Os mesmos valores de limiar se aplicam a WAN e LAN; a customização por endpoint acontece via as atribuições de V-Device e route table.

A segmentação por V-Device reforça a separação

Endpoints WAN e LAN podem ficar em V-Devices diferentes e em route tables diferentes. Isso previne vazamento acidental de sondas entre redes — o monitoramento apenas interno nunca atravessa trânsito externo e o monitoramento externo nunca atravessa o MPLS interno.

O dashboard exibe estados parciais explicitamente

Os operadores enxergam separadamente os endpoints WAN e LAN de cada DC no dashboard. A alcançabilidade parcial aparece como "3 de 4 endpoints WAN saudáveis" — não como uma única flag up/down.

Os gatilhos de cenário recebem payload em duplo caminho

Quando um cenário dispara gatilhos, o payload do gatilho inclui o estado atual de alcançabilidade de cada endpoint WAN e LAN. Sistemas downstream (SIEM, gerenciamento de incidentes) recebem contexto estruturado de topologia para o evento de failover.

Limiares de failover independentes para quedas só de WAN vs só de LAN

Os operadores definem cenários separados para quedas apenas de WAN e apenas de LAN. Uma falha WAN pode disparar failover externo no nível DNS; uma falha LAN pode disparar mudanças de route table internas via o sistema de gatilhos. Dois caminhos de resposta distintos a partir de duas classes distintas de sinal.

Profundidade operacional

O monitoramento em duplo caminho trabalha com V-Devices, route tables, expressões de condição de cenário e composição do payload de gatilho.

Composição da saúde do endpoint

A saúde de cada endpoint de acesso é determinada por uma sonda configurável (TCP, HTTP, HTTPS, ICMP, DNS, etc.). A flag composta WAN-reachable para o DC é true se algum (ou todos, conforme a política do operador) endpoints WAN estão saudáveis. A mesma composição se aplica à LAN.

Sinal de alcançabilidade à internet

Uma flag separada de alcançabilidade à internet é computada a partir dos resultados de sondas externas. Essa flag é independente de qualquer endpoint WAN específico e é usada em cenários auto-gerados para detectar isolamento externo total.

Vinculação de V-Device e route table

A atribuição V-Device + route table de cada entrada de acesso determina em qual contexto de rede a sonda roda. Sondas para endpoints LAN atravessam a infraestrutura interna; sondas para endpoints WAN atravessam a infraestrutura externa. A plataforma reforça essa separação.

Ajuste de limiares por DC

accessPeriod, requiredSuccess, requiredFailure são definidos por DC. Um DC de alta importância pode usar uma sonda de 30 segundos com limiares 2-sucessos/1-falha para failover rápido; um DC menos crítico pode usar sondas de 5 minutos com 3-sucessos/3-falhas para estabilidade.

Sintaxe de condição composta em cenários

As condições referenciam sinais de alcançabilidade pelo ID: `|wanAccess`, `|lanAccess`, `|access`, `|internet`. O sufixo `!` nega. Grupos de condições combinadas se unem por AND/OR para lógica expressiva multi-caminho.

Estrutura do payload de gatilho

Quando um cenário dispara gatilhos, o payload carrega o estado atual de alcançabilidade de cada DC: contagem de endpoints WAN, contagem de endpoints LAN, contagens de endpoints saudáveis, horários da última sonda. Sistemas de gerenciamento de incidentes recebem contexto estruturado para o evento de failover.

Quando usar

Queda de trânsito externo com MPLS interno intacto

O provedor de trânsito externo falha. A flag WAN-reachable do DC afetado cai; LAN-reachable permanece up. Os usuários externos fazem failover via DNS; o tráfego interno entre DCs continua sobre MPLS sem interrupção.

Queda de rede interna/privada com link externo saudável

O link MPLS para o DC falha. LAN-reachable cai; WAN-reachable permanece up. Os usuários externos continuam alcançando o DC; os serviços internos roteiam ao redor do DC via caminhos alternativos disparados pelo cenário de falha de LAN.

Redes governamentais/reguladas com separação estrita de caminhos

Ambientes regulados (governo, defesa, financeiro) frequentemente exigem separação estrita entre caminhos de rede pública e privada. O monitoramento em duplo caminho do TR7 expressa essa separação nativamente — cada caminho tem suas próprias sondas, seus próprios limiares e sua própria resposta de política.

Redundância multi-trânsito com visibilidade por link

DCs com dois ou três provedores de trânsito veem a alcançabilidade de cada provedor separadamente. Um único trânsito caindo não marca o DC como WAN-down — apenas seu endpoint específico se torna inalcançável, e os operadores veem exatamente qual trânsito falhou.

Perguntas frequentes

Por que isso é diferente de rodar dois health checks separados?

Dois health checks separados dão dois sinais separados, mas não estão acoplados a uma identidade de DC. O monitoramento em duplo caminho vincula ambos os sinais à mesma entidade de DC, de modo que os cenários de failover referenciam "WAN do DC-A está down" em vez de "check-37 está down". O mapeamento semântico para o data center, o V-Device e a route table é preservado, e o dashboard mostra o quadro completo de caminhos do DC em uma única visão.

Um DC pode ter apenas acesso WAN ou apenas acesso LAN?

Sim. Um DC voltado à internet sem MPLS interno teria uma lista lanAccess vazia; um DC apenas interno sem trânsito externo teria uma lista wanAccess vazia. O modelo em duplo caminho acomoda DCs com conectividade assimétrica sem forçar os operadores a inventar endpoints sintéticos.

Como isso interage com o DNS split-horizon?

O monitoramento em duplo caminho é independente do DNS split-horizon, mas compõe bem com ele. O split-horizon serve respostas DNS diferentes para clientes internos e externos; o monitoramento em duplo caminho decide se o DC está alcançável de cada lado. Juntos, clientes internos podem ser direcionados a DCs alcançáveis pela LAN, enquanto clientes externos são direcionados a DCs alcançáveis pela WAN.

E se a WAN e a LAN têm latências diferentes?

A latência é capturada pelos sinais de origem-cliente na seleção de DC multi-origem. A alcançabilidade WAN/LAN é uma dimensão separada: ela diz quais caminhos estão disponíveis, não qual é mais rápido. Combine a alcançabilidade WAN/LAN (elegibilidade) com a latência da origem-cliente (preferência) para seleção totalmente consciente do caminho.

Os cronogramas de sonda de WAN e LAN são os mesmos?

Por padrão, sim — ambos herdam os limiares accessPeriod, requiredSuccess e requiredFailure do DC. Os operadores podem fazer override por V-Device e route table se o caminho WAN exige sondagem mais rápida do que o caminho LAN (ou vice-versa).

Pare de colapsar a topologia real da rede em uma única flag up/down.

Percorra o monitoramento de DC em duplo caminho na sua própria topologia: quedas de trânsito WAN, DCs apenas MPLS, alcançabilidade parcial — todos como estados reconhecidos, não casos extremos.