Capacidade

Sistema de Notificações

Gerencie de forma centralizada os fluxos de alarmes, notificações e resumos pelos canais e-mail, SMS, WhatsApp, BiP, SNMP, Syslog e UI.

O Sistema de Notificações do TR7 não deixa os eventos da plataforma apenas como linhas de log; transforma o ciclo de vida de alarmes, o status de pool, a troca de cluster IP, a validade de certificados, o limiar de tráfego e as notificações do sistema em um sinal de ação gerenciável. Cada evento é avaliado dentro de um único modelo de alarme. O status de pool é interpretado com as classes UNKNOWN, OK, WARN, DISABLED, ERR e EVALUATING; 30+ chaves de status prontas distinguem em detalhe situações como backend down, pool down, cluster IP swap, fechamento de zona, problema de interface ou manutenção. As notificações podem ser personalizadas por usuário, grupo, canal, idioma, horário silencioso e limiar. O mesmo evento pode permanecer visível na UI enquanto o e-mail noturno é silenciado; uma transição crítica de cluster IP pode ser entregue por SMS; um aviso automático pode ser gerado quando a validade de um certificado se aproxima. Resultado: o TR7 tira o gerenciamento de eventos do modelo único de "enviar e-mail"; unifica alarme, canal, idioma, limiar, horário silencioso e visibilidade de cluster na mesma infraestrutura de notificações.

Canais de notificação: e-mail, SMS, WhatsApp, BiP, SNMP, Syslog, UI

30+

Chaves de status de pool e cluster

Classes de status de pool: UNKNOWN, OK, WARN, DISABLED, ERR, EVALUATING

Se cada evento se comportar como o mesmo alarme, o sinal crítico se perde no ruído.

Em um ambiente de produção, nem todo evento tem a mesma importância. Um backend em manutenção, todos os backends down, o cluster IP migrando para outro node, um certificado prestes a expirar em 30 dias ou o limiar de request rate ultrapassado exigem respostas operacionais diferentes. Se tudo isso virar um único tipo de alarme por e-mail, a equipe rapidamente sofre fadiga de alarmes.

Nas abordagens clássicas, a notificação geralmente se limita a e-mail e syslog. No entanto, as equipes de operação querem receber eventos diferentes por canais diferentes: failover crítico por SMS, aviso de rotina pela UI, evento de segurança por SNMP ou Syslog, resumo gerencial por e-mail. Sem separação de canais, ou todos recebem tudo, ou os eventos críticos passam despercebidos.

O gerenciamento de horário silencioso também é importante. Acordar toda a equipe às 03:00 por um aviso de baixa importância é desnecessário; mas uma interrupção real ou uma troca de cluster IP ainda devem ficar visíveis. O horário silencioso deve significar não que o evento desaparece totalmente, mas que é tratado no canal certo e no momento certo.

Relatar eventos como pool down, backend down, cluster IP swap e fechamento de zona com o mesmo texto dificulta a análise de causa raiz. O operador primeiro tenta decifrar o que o alarme significa, depois age. Esse atraso reflete diretamente na qualidade do serviço, especialmente em plataformas de alto tráfego.

O Sistema de Notificações do TR7 distingue os eventos com ciclo de vida de alarmes, 30+ chaves de status prontas, múltiplos canais, múltiplos idiomas, horário silencioso e gerenciamento de limiar por pool; entrega à pessoa certa, pelo canal certo, com o contexto certo.

Nossa abordagem

O TR7 gerencia as notificações não como mensagens pontuais, mas como objetos de alarme com ciclo de vida e ações por canal.

A state machine de alarmes acompanha o ciclo de vida do evento

Os alarmes ativos são mantidos por alarmKey, atualizados com updateAlarm e encerrados com endAlarm. Assim, o mesmo evento não é gerado repetidamente como um novo alarme; o início, a atualização e o encerramento do evento são acompanhados.

A sincronização de cluster torna o alarme visível em todos os nodes

O estado de alarme e notificação pode ser transmitido aos demais nodes do cluster. Assim, a equipe de operação pode ver não apenas os eventos do node ao qual está conectada, mas também a situação crítica em todo o cluster.

A avaliação de status de pool separa a saúde do serviço em seis classes

O status de pool é classificado pelos valores UNKNOWN, OK, WARN, DISABLED, ERR e EVALUATING. Esse modelo não reduz os estados de manutenção, aviso, erro e avaliação ao mesmo texto plano de alarme.

A state machine de cluster IP acompanha em detalhe o comportamento de failover

Os estados de cluster IP são avaliados com sinais distintos como acessibilidade de interface, conflito de IP, migração de IP e comportamento de dois nodes. Os eventos de failover são entregues à equipe de operação com um contexto mais claro.

Capacidades

O Sistema de Notificações oferece ciclo de vida de alarmes, limiares de pool, múltiplos canais, múltiplos idiomas, horário silencioso, aviso de certificado e histórico de eventos arquivável.

O ciclo de vida do alarme gerencia o início, a atualização e o encerramento do mesmo evento

O fluxo updateAlarm, endAlarm e getAlarms acompanha os alarmes ativos com seu ciclo de vida. Quando o mesmo alarmKey chega novamente, o evento é atualizado; não é replicado como um alarme totalmente novo. Campos como staticPayload, ifAbsent e dontNotify permitem gerenciar o comportamento do evento de forma mais controlada. Essa estrutura reduz o ruído de alarmes e torna o histórico de eventos mais significativo.

A configuração per-pool notify fornece seleção de limiar e canal por serviço

Para cada pool podem ser definidos limiares de serviceStatus, poolStatus, bandwidth, request rate, current session e new connection. Dentro da mesma estrutura podem ser determinadas as preferências de canal e-mail, SMS, WhatsApp, BiP, SNMP e UI. Assim, um serviço crítico pode ser monitorado com uma política de alarme mais agressiva e um serviço de baixa importância com uma política mais silenciosa. O comportamento de notificação não é aplicado de forma uniforme a toda a plataforma.

Os múltiplos canais de notificação oferecem ações adequadas a diferentes equipes de operação

O TR7 oferece um modelo de notificação que suporta múltiplos canais como e-mail, SMS, WhatsApp, BiP, SNMP, Syslog e UI. Eventos críticos de infraestrutura podem ser entregues por SMS ou SNMP aos sistemas de gerenciamento de rede, resumos gerenciais por e-mail e situações de rotina pela UI. O mesmo evento pode ser enviado a diferentes canais com prioridades distintas. Essa flexibilidade reduz a dependência de um gerenciador de alarmes externo.

O motor de templates multilíngue gera a notificação no idioma do usuário

O NotificationTranslator pode gerar os textos de notificação em diferentes idiomas com uma lógica de tradução baseada em dictionary. Uma equipe de operação local pode receber notificações em um idioma e uma equipe internacional em inglês. É possível entregar o mesmo evento a diferentes usuários em idiomas diferentes. Isso reduz o risco de interpretação equivocada em operações multinacionais.

Mais de trinta chaves de status de pool e cluster fornecem causa raiz detalhada

Podem ser usadas 30+ chaves de status como poolDisabled, allBeDown, noBeGiven, beDown, beStateUnknown, beMaint, poolDown, poolInterfaceAbsent, zoneClosed, clusterIpBoth, clusterIpPossibleCollide, clusterIpSwitched e clusterIpNone. Essas chaves tornam o texto do alarme mais explicativo. O operador não recebe apenas a mensagem "serviço com problema"; também vê o tipo do problema. O tempo de intervenção encurta.

silentAtNight controla o comportamento dos canais nos horários silenciosos

Com silentAtNight, certas notificações podem ser silenciadas durante a noite. Isso não significa que o evento desaparece totalmente; ele pode continuar visível na UI ou ser incluído no resumo da manhã. Aplicando uma política de canal separada para eventos críticos, os alarmes realmente importantes ainda podem ser entregues. A fadiga de alarmes é reduzida enquanto a visibilidade operacional é preservada.

Pode ser gerado um aviso automático quando a validade do certificado se aproxima

Com o campo notifyDaysBeforeCertificateExpiry pode ser gerado um aviso um determinado número de dias antes da data de expiração do certificado. Por exemplo, faltando 30 dias, pode ser enviada uma notificação por e-mail ou UI. Assim, a operação de renovação de certificado não fica para o último dia. Esquecimentos que poderiam causar interrupção de TLS são detectados em fase inicial.

O modelo de contact group fornece distribuição por usuário e equipe

Os membros de um contact group podem ser definidos com endereços de e-mail, números de SMS e informações de tipo de usuário. As notificações podem ser direcionadas a um usuário individual, a um grupo de equipe ou a um tipo de usuário. Esse modelo facilita direcionar separadamente grupos de equipe de plantão, SOC, SRE ou gerência. Mudanças de pessoas podem ser gerenciadas sem quebrar a política de canais.

A configuração SMTP se adapta à infraestrutura de e-mail corporativa

Podem ser configurados host SMTP, porta, authentication, username, password, segurança TLS, validação de certificado, sender name, sender address, cc, bcc, attachment e mensagens HTML. O valor de timeout de conexão de e-mail pode ser mantido no nível de 10 segundos. Essa estrutura facilita a integração com o mail relay ou a infraestrutura SMTP existente da organização. As notificações por e-mail podem ser adaptadas às políticas de marca e segurança.

O log archive mantém o histórico de alarmes e notificações em um arquivo comprimido

Os logs de alarme e notificação podem ser arquivados com nomes separados. Com compressão zip e nível de compressão elevado, os eventos passados podem ser armazenados para auditoria e investigação. Em processos de PCI, gerenciamento de mudanças ou análise pós-incidente, o histórico de notificações pode ser usado como evidência. Pode operar junto com processos de arquivamento externo sem perder a visibilidade local.

O NotificationType distingue se o evento é um alarme, notificação ou informação

O campo NotificationType faz a distinção entre alarme, notification e info com classes como A, N e I. Essa distinção é importante para a criticidade do evento e a forma como ele é apresentado ao usuário. Nem toda mensagem de informação se comporta como um alarme; nem todo alarme se perde como uma notificação comum. O comportamento na UI e nos canais externos pode se alimentar dessa classificação.

O pair ID grouping acompanha junta a mesma família de eventos

O campo pairId do BasicNotification pode ser usado para relacionar as notificações pertencentes ao mesmo grupo de eventos. Por exemplo, a abertura, a atualização e o encerramento de um alarme podem ser acompanhados dentro da mesma família de eventos. Isso facilita ver junta a cadeia de eventos no lado do SIEM ou da auditoria. Em vez de mensagens isoladas, todo o processo do evento pode ser analisado.

Profundidade operacional

O Sistema de Notificações opera em conjunto com valores de status, nomes de log, compressão, segurança SMTP e a state machine de cluster IP.

Valores de status de pool

Os valores de status de pool são classificados como UNKNOWN=-1, OK=0, WARN=1, DISABLED=2, ERR=3 e EVALUATING=4. Esse modelo numérico fornece uma base consistente para a avaliação de alarmes e a exibição na UI. Os estados são tratados não apenas como texto, mas como valores sobre os quais se pode decidir.

Logs de alarme e notificação

Os logs de alarme podem ser mantidos com o nome basic-alarms e os de notificação com basic-notifications. Essa separação permite investigar separadamente o ciclo de vida do evento e as notificações entregues ao usuário. Os processos de operação e auditoria podem ler diferentes tipos de log conforme sua própria necessidade.

Compressão de log

Os arquivos de alarme e notificação podem ser mantidos em formato zip e com nível de compressão elevado. Isso reduz o custo de armazenamento de longo prazo. Para auditoria, fornece acesso mais fácil aos registros de notificação passados.

Catálogo de chaves de status predefinidas

Sob `_lb.*` há 30+ chaves de status prontas. Essas chaves são usadas para descrever de forma mais granular os comportamentos de pool, backend, interface, zona e cluster IP. O texto da notificação e a lógica de decisão se enriquecem com essas chaves.

Comportamento de conexão SMTP

No envio de e-mail, o valor de timeout de conexão pode ser configurado como 10000 ms. O comportamento de segurança TLS e validação de certificado é controlado pelo usuário. Isso permite fazer a integração com o mail relay conforme os requisitos de segurança da organização.

State machine de cluster IP

Os estados de cluster IP são interpretados por uma state machine separada. Situações como inacessibilidade de IP, status de interface, possível conflito ou migração de node podem ser convertidas em valores combinados de estado de cluster IP. Os alarmes de failover são gerados de forma mais precisa com esse contexto.

Em quais cenários é usado

Gerenciar um evento de backend down à noite de forma silenciosa mas visível

Quando um evento de backend down de baixa importância ocorre às 02:00, o silentAtNight pode interromper o envio de e-mail. O evento permanece ativo na UI e pode ser incluído no resumo da manhã. Assim, os alarmes noturnos desnecessários são reduzidos sem que o evento desapareça por completo.

Aviso automático de renovação antes da expiração do certificado

A equipe de operação pode definir o valor de notifyDaysBeforeCertificateExpiry como 30 dias. Quando a validade do certificado se aproxima, o sistema gera uma notificação por e-mail ou UI. Os riscos de renovação de última hora que poderiam causar interrupção de TLS diminuem.

Entregar o evento de failover de cluster IP por um canal crítico

Quando o cluster IP migra para outro node, pode ser gerado o evento clusterIpSwitched. Esse evento pode ser entregue à equipe de operação por SMS, SNMP ou UI. Quando o failover ocorre, a equipe fica sabendo no momento do evento, não depois dele.

Transmitir a ultrapassagem de limiar de WAAP ou tráfego ao sistema de gerenciamento de rede

Quando o limiar de request rate, bandwidth, session ou nova conexão é ultrapassado, pode ser gerada uma notificação SNMP. O sistema de gerenciamento de rede recebe esse evento em seu próprio painel de alarmes. As equipes de segurança e operação de rede veem o mesmo limiar em um fluxo de monitoramento comum.

Arquivar o histórico de notificações para auditoria PCI

Os logs de alarme e notificação podem ser armazenados como arquivo comprimido. Durante uma auditoria, é possível mostrar qual evento ocorreu quando, qual canal foi usado e se o alarme foi encerrado. O histórico de notificações se transforma em evidência operacional.

Enviar alarmes em idiomas diferentes para uma equipe de operação multilíngue

Enquanto uma equipe recebe o mesmo alarme por e-mail em um idioma, a equipe de operação internacional pode receber a mensagem em inglês. O NotificationTranslator gera o texto do evento conforme o idioma do usuário. Em operações multinacionais, o risco de o alarme ser mal interpretado diminui.

Perguntas frequentes

Quais canais de notificação são suportados?

O Sistema de Notificações do TR7 suporta os canais e-mail, SMS, WhatsApp, BiP, SNMP, Syslog e UI. As preferências de canal podem ser configuradas separadamente para cada pool. Eventos críticos podem ser entregues por SMS ou SNMP, enquanto avisos de rotina podem ser exibidos apenas pela UI.

Como funciona o horário silencioso? O evento desaparece por completo?

Não. Com silentAtNight, certos canais podem ser silenciados durante a noite; mas o evento continua visível na UI e pode ser incluído no resumo da manhã. Definindo uma política de canal separada para eventos críticos, é possível garantir que os alarmes realmente importantes ainda sejam entregues.

O que significam as 30+ chaves de status de pool?

A distinção entre pool down e backend down, fechamento de zona, migração de cluster IP ou problema de interface são representados por diferentes tipos de evento com chaves de status separadas. Assim, o operador recebe não apenas a mensagem "serviço com problema", mas informação granular que mostra o tipo exato do problema, e o tempo de intervenção encurta.

Como funciona o ciclo de vida do alarme?

Cada alarme é acompanhado por alarmKey. Quando o mesmo evento se repete, o alarme existente é atualizado com updateAlarm; não é criado um alarme totalmente novo. Quando o evento termina, é encerrado com endAlarm. Esse modelo reduz o ruído de alarmes e torna o histórico de eventos mais significativo.

As notificações podem ser enviadas em idiomas diferentes?

Sim. Com o motor de tradução baseado em dictionary do NotificationTranslator, o mesmo evento pode ser entregue a diferentes usuários em idiomas diferentes. O texto de notificação pode ser gerado nos idiomas suportados. Esse recurso reduz o risco de interpretação equivocada em equipes de operação multinacionais.

Quais opções existem para a configuração de SMTP e e-mail?

Podem ser configurados host, porta, authentication, segurança TLS, validação de certificado, sender name, cc, bcc, attachment e formato de mensagem HTML. O valor de timeout de conexão de e-mail pode ser definido como 10 segundos. Essa estrutura facilita a integração com o mail relay ou a infraestrutura SMTP existente da organização.

Centralize o gerenciamento de eventos com o canal e o contexto certos

Ciclo de vida de alarmes, 30+ chaves de status, múltiplos canais e horário silencioso. Vamos mostrar em uma configuração ao vivo no seu próprio ambiente.