Capacidade

HA Clustering

Execute dois nós como um único ADC lógico — failover de VIP, replicação de estado e manutenção controlada em um único modelo de cluster.

O HA Clustering do TR7 ADC executa dois nós como uma única camada lógica de entrega de aplicações. Quando um nó fica offline, o VIP se move para o outro nó e o tráfego de usuários continua nos mesmos endereços de serviço. O clustering é mais do que um modelo de dispositivo em standby passivo. Tanto topologias Active-Passive quanto Active-Active são suportadas. Configuração, logs, estatísticas, stick tables e estado de runtime relevante são sincronizados com o nó par. Diferentes VIPs podem estar ativos em diferentes nós; quando um nó falha, o outro assume a propriedade dos VIPs afetados. O TR7 vai além do comportamento VRRP clássico e não deixa as decisões de failover de VIP puramente à vitalidade do par. As decisões de failover podem ser baseadas no estado do link, acessibilidade do gateway ou um sinal combinado de link+gateway no nível de interface. Isso evita que um nó que parece ativo mas não consegue alcançar a rede externa ou seu gateway mantenha um VIP desnecessariamente. O resultado: o TR7 ADC reúne a alta disponibilidade local — failover de VIP baseado em VRRP, monitoramento de link/gateway controlado pelo TR7, sincronização de configuração, validação de hardware e um fluxo de trabalho de manutenção controlado — em um único modelo de gerenciamento.

Slots VRRP por interface — par MASTER+BACKUP gerado automaticamente para Active-Active

254

IDs de cluster máximos — cada um mapeado para um IP de gerenciamento dedicado no intervalo 241.0.1.0/24

Verificações de correspondência de hardware — conjunto de núcleos de CPU, nomes de interface e RAM devem todos estar alinhados

Alta disponibilidade não é apenas adicionar um segundo dispositivo — é garantir que o VIP correto permaneça no nó correto.

Ter um segundo dispositivo em uma camada ADC por si só não significa alta disponibilidade. As perguntas críticas são qual nó possui o VIP durante uma falha, se ambos os nós compartilham a mesma configuração e se as stick tables e os contadores de segurança sobrevivem a um failover. Quando essas peças não funcionam juntas, o failover acontece — mas a experiência do usuário e o comportamento de segurança quebram.

O VRRP clássico é suficiente para a maioria dos cenários, mas não resolve todos os problemas. Um nó pode parecer estar rodando, um par VRRP pode ainda estar ativo, mas a interface relevante pode ter perdido seu link ou o gateway pode ter se tornado inacessível. Se o dispositivo continuar mantendo o VIP nesse estado, o tráfego flui para um nó que parece ativo, mas não consegue alcançar o mundo externo.

Em implantações gerenciadas manualmente, a sincronização de configuração é um risco separado. Se uma mudança feita em um nó foi transportada para o outro, se os conjuntos de certificados e regras são iguais, ou qual dispositivo manteve os logs — tudo isso requer verificação constante. Se não há uma resposta clara para "os dois nós são verdadeiramente idênticos?", o cluster não é uma construção confiável, mas um ponto de falha adiado.

A incompatibilidade de hardware é uma das falhas silenciosas mais perigosas. Um nó renovado com um nome de interface de rede diferente, conjunto de núcleos de CPU diferente ou capacidade de memória diferente pode quebrar o comportamento do cluster no pior momento possível. Essas diferenças devem ser capturadas no momento de entrada no cluster, não durante um evento de failover.

O HA Clustering do TR7 aborda todos esses riscos juntos: failover de VIP, decisões de link/gateway controladas pelo TR7, sincronização, fluxo de trabalho de manutenção controlado e verificações de compatibilidade de hardware — todos gerenciados em um único modelo.

Nossa abordagem

O TR7 implementa o clustering de dois nós com um plano VIP, monitoramento ativo, sincronização, validação de hardware e gerenciamento de mudanças controlado trabalhando juntos.

Dois nós são gerenciados como um único ADC lógico

As configurações de cluster são definidas com uma topologia compartilhada entre ambos os nós. A interface de gerenciamento mostra este nó e o nó par no mesmo modelo; mudanças de regras, certificados e serviços são gerenciadas com o comportamento do cluster em mente.

O failover de VIP é determinado por opções de monitoramento VRRP e TR7

A propriedade do VIP pode ser gerenciada com VRRP clássico ou complementada com as decisões de monitoramento de link, gateway ou link+gateway do TR7. Isso permite failover baseado na acessibilidade real da rede, e não apenas na vitalidade do par.

A compatibilidade de hardware é validada no momento de entrada no cluster

A lista de núcleos de CPU, nomes de interface de rede e tamanho de memória são comparados entre ambos os nós. As incompatibilidades de hardware são capturadas quando um nó entra no cluster — não deixadas para surgir durante um evento de failover.

O modo de sincronização manual permite mudanças de manutenção controladas

A sincronização automática pode ser pausada temporariamente. O operador faz uma mudança em um nó, testa o resultado e, uma vez verificado, envia deliberadamente todas as mudanças para o nó par.

Capacidades

O HA Clustering gerencia o comportamento de alta disponibilidade local — da propriedade do VIP à replicação de estado — em uma única interface.

O failover de VIP baseado em VRRP mantém os endereços de serviço estáveis

O TR7 usa um modelo VRRP para gerenciar qual nó detém cada endereço VIP. O comportamento MASTER e BACKUP é gerado automaticamente para cada interface relevante. Quando o nó ativo fica offline, o VIP se move para o par e o tráfego de usuários continua no mesmo endereço. Esse modelo torna a infraestrutura Linux comprovada disponível por meio do modelo de gerenciamento do TR7.

O monitoramento de link e gateway fecha os pontos cegos do VRRP

O TR7 não restringe o failover de IP do cluster apenas ao VRRP; os métodos de link, gateway ou link+gateway também estão disponíveis. No modo link, o estado do carrier da interface é avaliado; no modo gateway, a acessibilidade do upstream é verificada. No modo link+gateway, ambos os sinais são avaliados juntos para uma decisão de failover mais forte. Isso ajuda a evitar que um VIP permaneça em um nó que parece ativo, mas tem um caminho de rede quebrado.

Topologias Active-Passive e Active-Active rodam no mesmo modelo de cluster

No Active-Passive, um nó carrega os VIPs de serviço enquanto o outro aguarda em standby. No Active-Active, diferentes VIPs podem ser distribuídos entre ambos os nós para que ambos os dispositivos transportem tráfego ativo. Quando um nó falha, o outro assume a propriedade de seus VIPs. Essa abordagem permite que a estratégia de failover e a utilização da capacidade do dispositivo sejam moldadas por preferência arquitetural.

Mudanças de configuração e dados são propagadas automaticamente para o par

Com a sincronização automática habilitada, cada operação de inserção, atualização e exclusão é enviada para o nó par. Os operadores não precisam escrever automação separada, realizar cópias manuais de arquivos ou agendar jobs de sincronização. Manter as configurações de regras, certificados e serviços consistentes em ambos os nós se torna direto. Isso reduz a ambiguidade de "o par é verdadeiramente o mesmo?" no momento do failover.

Stick tables e contadores são preservados por meio de replicação entre pares

Stick tables, contadores de rate limiting e estado baseado em IP de origem podem ser replicados para o nó par. Quando ocorre um failover, o comportamento do usuário não reinicia do zero. Decisões de captcha, rate limit ou roteamento de sessão continuam de forma mais consistente após um evento de falha. Essa funcionalidade tem como alvo não apenas a transferência de VIP, mas também a preservação do estado de decisão.

As incompatibilidades de hardware são detectadas precocemente no momento de entrada

O conjunto de núcleos de CPU, interfaces de rede e RAM dos nós que entram no cluster são comparados. Um nome de interface diferente, NIC ausente ou incompatibilidade de memória é tratado como um erro desde o início. Isso ajuda a evitar que diferenças silenciosas de hardware surjam durante um failover. Reduz o risco operacional particularmente durante ciclos de atualização de hardware e substituição de nó reserva.

O modo de sincronização manual abre um espaço de teste seguro para manutenção planejada

Quando a sincronização manual é habilitada, a propagação automática de mudanças é pausada. O operador pode testar uma nova regra, certificado ou comportamento de serviço em um nó. Uma vez que a validação seja concluída, a mudança é enviada para o par por meio de um fluxo syncAll ou requestSyncAll. Esse modelo evita que uma mudança incorreta se espalhe instantaneamente por todo o cluster.

Os IPs de gerenciamento do cluster são mantidos separados do tráfego de usuários

Um IP da rede de gerenciamento 241.0.1.0/24 é atribuído para cada ID de cluster. A comunicação intra-cluster é conceitualmente separada do tráfego de serviço do usuário. O valor do ID de cluster é usado no intervalo 1-254, com cada ID correspondendo a um IP de gerenciamento dedicado. Essa separação torna o tráfego de sincronização e comunicação entre pares mais previsível de gerenciar.

Profundidade operacional

O HA clustering é planejado junto com slots VRRP, comunicação unicast, pares de IP de gerenciamento, diff de configuração, comportamento de failback e integração GTM.

Gerenciamento de slots VRRP

Em cenários Active-Active, 2 slots VRRP representando o comportamento MASTER e BACKUP podem ser gerados por interface. Os valores de virtual_router_id e prioridade são definidos de acordo com o papel do cluster. Essa estrutura permite que a propriedade do VIP dentro da mesma sub-rede seja gerenciada sem conflitos.

VRRP unicast

Em redes de data center modernas, o tráfego VRRP multicast pode ser filtrado por certas políticas de switch. O TR7 mitiga isso gerenciando as informações do nó par por meio de uma abordagem de unicast peer. O tráfego VRRP então flui de forma controlada pelo IP esperado do nó par.

Modo de decisão de link e gateway

O método de IP do cluster pode ser definido como vrrp, link, gw ou link+gw. O método link decide com base no estado da interface, gw com base na acessibilidade do gateway e link+gw com base na combinação de ambos os sinais. Essas opções tornam o comportamento do VIP mais realista em diferentes designs de rede.

Par de IP de gerenciamento

A sincronização do cluster roda sobre um par de IP definido para cada interface. Esses IPs são tratados separadamente dos VIPs de produção. Isso separa operacionalmente o tráfego de sincronização do tráfego de usuários.

Comportamento de failback controlado

O modo nopreempt evita que o VIP retorne automaticamente ao master antigo quando ele volta online. Isso evita ping-pong de failover em cenários envolvendo uma recuperação temporária seguida de outra falha. A decisão de failback é feita deliberadamente pelo operador.

Cluster local e integração GTM

O cluster local fornece failover de VIP dentro do mesmo data center. Se todo o data center ficar offline, a camada GTM pode redirecionar o DNS para um data center remoto. Isso permite que a falha de nó local e a falha de data center sejam tratadas em dois níveis distintos.

Quando usar

Propriedade ininterrupta de VIP em aplicações financeiras

As instituições financeiras podem executar VIPs de mobile banking e internet banking em uma configuração de alta disponibilidade em dois nós TR7 ADC. Quando um nó fica offline por manutenção ou devido a uma falha, o outro nó assume a propriedade do VIP e o acesso ao serviço continua no mesmo endereço.

Transferência inteligente de VIP em caso de perda de gateway

As equipes de rede podem garantir que o VIP se mova para o outro nó quando o acesso ao gateway é perdido — mesmo que o próprio nó ainda esteja rodando. Nesse cenário, o failover é baseado na acessibilidade real do upstream, e não apenas na vitalidade do dispositivo.

Mudanças seguras durante manutenção planejada com sincronização manual

Agências governamentais ou operadores críticos para o negócio podem habilitar o modo de sincronização manual e testar uma mudança em um nó primeiro. Após a validação, a mudança é enviada para o par, evitando propagação não controlada em todo o cluster.

Verificação de compatibilidade durante atualização de hardware

As equipes de operações podem ver diferenças de CPU, interface e memória no momento de entrada ao remover um nó antigo e adicionar novo hardware ao cluster. Um aviso é produzido antes que um servidor com especificação incorreta entre no cluster, reduzindo o risco de failover.

Perguntas frequentes

Qual é a diferença entre topologias Active-Active e Active-Passive?

No Active-Passive, um nó carrega todos os VIPs de serviço enquanto o outro aguarda em standby. No Active-Active, diferentes VIPs são distribuídos entre ambos os nós para que ambos os dispositivos transportem tráfego ativo; quando um nó falha, o outro assume a propriedade de seus VIPs. Ambas as topologias são suportadas dentro do mesmo modelo de cluster.

O que pode ser usado quando o VRRP por si só não é suficiente?

O TR7 não restringe o failover de IP do cluster ao protocolo VRRP. Os métodos de link, gateway ou link+gateway também estão disponíveis. O modo gateway garante que o VIP se mova para o outro nó quando o acesso ao upstream é perdido — mesmo que o próprio nó pareça ativo. Essas opções são configuradas diretamente pela interface de gerenciamento do TR7.

Como funciona a sincronização de configuração?

Com a sincronização automática habilitada, cada inserção, atualização e exclusão em configurações de regras, certificados e serviços é automaticamente enviada para o nó par. Quando o modo de sincronização manual é ativado, essa propagação é pausada; o operador envia as mudanças para o par por meio de um fluxo syncAll ou requestSyncAll após os testes.

O estado de sessão e rate limit é preservado em um failover?

Sim. Stick tables, contadores de rate limiting e estado baseado em IP de origem podem ser replicados para o nó par. Após um failover, os usuários não enfrentam novos desafios de captcha, resets de rate limit ou sessões interrompidas.

O que acontece ao adicionar um novo nó de hardware ao cluster?

Quando um novo nó entra no cluster, seu conjunto de núcleos de CPU, nomes de interface de rede e RAM são automaticamente comparados com o nó existente. Se qualquer incompatibilidade for detectada, o nó é bloqueado de entrar e um aviso é gerado para o operador. Essa verificação elimina o risco de atualização de hardware desde o início.

Como funciona o failover quando usado em conjunto com o GTM?

O cluster local fornece failover de VIP baseado em VRRP dentro do mesmo data center. Se todo o data center ficar offline, o GTM (Global Traffic Manager) redireciona o DNS para um data center remoto. Isso permite que a falha de nó local e a falha de data center sejam tratadas em duas camadas separadas.

Execute seu cluster ADC em um único modelo de gerenciamento

Failover de VIP VRRP, sincronização de configuração, validação de hardware e fluxo de trabalho de manutenção controlado — vamos percorrer tudo isso juntos em uma configuração ao vivo.