Fähigkeit

HA-Clustering

Zwei Knoten als einzelnen logischen ADC betreiben — VIP-Failover, Zustandsreplikation und kontrollierte Wartung in einem Cluster-Modell.

TR7 ADC HA-Clustering betreibt zwei Knoten als einzelne logische Anwendungsbereitstellungsschicht. Wenn ein Knoten ausfällt, wechselt der VIP zum anderen Knoten und der Benutzerverkehr setzt auf denselben Service-Adressen fort. Clustering ist mehr als ein passives Standby-Gerätemodell. Sowohl Active-Passive- als auch Active-Active-Topologien werden unterstützt. Konfiguration, Logs, Statistiken, Stick-Tabellen und relevanter Laufzeitzustand werden mit dem Peer-Knoten synchronisiert. Verschiedene VIPs können auf verschiedenen Knoten aktiv sein; wenn ein Knoten ausfällt, übernimmt der andere die Eigentümerschaft der betroffenen VIPs. TR7 geht über das klassische VRRP-Verhalten hinaus und überlässt VIP-Failover-Entscheidungen nicht ausschließlich der Peer-Verfügbarkeit. Failover-Entscheidungen können auf Link-Zustand, Gateway-Erreichbarkeit oder einem kombinierten Link+Gateway-Signal auf Schnittstellenebene basieren. Dies verhindert, dass ein Knoten, der als oben erscheint, aber das externe Netzwerk oder sein Gateway nicht erreichen kann, unnötigerweise einen VIP hält. Das Ergebnis: TR7 ADC bringt lokale Hochverfügbarkeit zusammen — VRRP-basierter VIP-Failover, TR7-kontrolliertes Link/Gateway-Monitoring, Konfigurationssynchronisierung, Hardware-Validierung und ein kontrollierter Wartungs-Workflow — in einem einzigen Management-Modell.

VRRP-Slots pro Schnittstelle — MASTER+BACKUP-Paar automatisch für Active-Active generiert

254

Maximale Cluster-IDs — jede einer dedizierten Management-IP im 241.0.1.0/24-Bereich zugeordnet

Hardware-Übereinstimmungsprüfungen — CPU-Kern-Set, Schnittstellennamen und RAM müssen alle übereinstimmen

Hochverfügbarkeit bedeutet nicht nur, ein zweites Gerät hinzuzufügen — es geht darum sicherzustellen, dass der richtige VIP auf dem richtigen Knoten bleibt.

Ein zweites Gerät in einer ADC-Schicht zu haben bedeutet per se keine Hochverfügbarkeit. Die kritischen Fragen sind, welcher Knoten den VIP während eines Ausfalls besitzt, ob beide Knoten dieselbe Konfiguration teilen und ob Stick-Tabellen und Sicherheitszähler einen Failover überleben. Wenn diese Teile nicht zusammenarbeiten, passiert der Failover — aber die Benutzererfahrung und das Sicherheitsverhalten brechen zusammen.

Klassisches VRRP ist für die meisten Szenarien ausreichend, löst aber nicht jedes Problem. Ein Knoten kann zu laufen scheinen, ein VRRP-Peer kann noch aktiv sein, und dennoch kann die relevante Schnittstelle ihren Link verloren haben oder das Gateway unerreichbar geworden sein. Wenn das Gerät den VIP in diesem Zustand weiterhin hält, fließt Verkehr zu einem Knoten, der lebendig aussieht, aber die Außenwelt nicht erreichen kann.

In manuell verwalteten Deployments ist die Konfigurationssynchronisierung ein separates Risiko. Ob eine Änderung auf einem Knoten zum anderen getragen wurde, ob Zertifikat- und Regel-Sets gleich sind oder welches Gerät die Logs behalten hat — all das erfordert ständige Überprüfung. Wenn es keine klare Antwort auf die Frage „Sind die zwei Knoten wirklich identisch?“ gibt, ist der Cluster kein zuverlässiges Konstrukt, sondern ein aufgeschobener Ausfallpunkt.

Hardware-Nichtübereinstimmung ist einer der gefährlichsten stillen Fehler. Ein erneuernder Knoten mit einem anderen Netzwerkschnittstellennamen, einem anderen CPU-Kern-Set oder einer anderen Speicherkapazität kann das Cluster-Verhalten im ungünstigsten Moment brechen. Diese Unterschiede müssen zum Zeitpunkt des Cluster-Beitritts erkannt werden, nicht während eines Failover-Ereignisses.

TR7 HA-Clustering adressiert all diese Risiken gemeinsam: VIP-Failover, TR7-kontrollierte Link/Gateway-Entscheidungen, Synchronisierung, kontrollierter Wartungs-Workflow und Hardware-Kompatibilitätsprüfungen — alle in einem Modell verwaltet.

Unser Ansatz

TR7 implementiert Zwei-Knoten-Clustering mit einer VIP-Plane, aktivem Monitoring, Synchronisierung, Hardware-Validierung und kontrolliertem Änderungsmanagement, die zusammenarbeiten.

Zwei Knoten werden als einzelner logischer ADC verwaltet

Cluster-Einstellungen werden mit einer gemeinsamen Topologie zwischen beiden Knoten definiert. Die Verwaltungsoberfläche zeigt diesen Knoten und den Peer-Knoten im selben Modell; Regel-, Zertifikat- und Service-Änderungen werden unter Berücksichtigung des Cluster-Verhaltens verwaltet.

VIP-Failover wird durch VRRP und TR7-Monitoring-Optionen bestimmt

Die VIP-Eigentümerschaft kann mit klassischem VRRP verwaltet oder durch TR7s Link-, Gateway- oder Link+Gateway-Monitoring-Entscheidungen erweitert werden. Dies ermöglicht Failover basierend auf echter Netzwerkerreichbarkeit anstatt nur auf Peer-Verfügbarkeit.

Hardware-Kompatibilität wird zum Zeitpunkt des Cluster-Beitritts validiert

CPU-Kern-Liste, Netzwerkschnittstellennamen und Speichergröße werden zwischen beiden Knoten verglichen. Hardware-Nichtübereinstimmungen werden erkannt, wenn ein Knoten dem Cluster beitritt — nicht erst während eines Failover-Ereignisses.

Manueller Sync-Modus ermöglicht kontrollierte Wartungsänderungen

Die automatische Synchronisierung kann vorübergehend pausiert werden. Der Operator nimmt eine Änderung auf einem Knoten vor, testet das Ergebnis und, einmal verifiziert, sendet er alle Änderungen bewusst an den Peer-Knoten.

Fähigkeiten

HA-Clustering verwaltet lokales Hochverfügbarkeitsverhalten — von VIP-Eigentümerschaft bis zur Zustandsreplikation — in einer einzigen Schnittstelle.

VRRP-basierter VIP-Failover hält Service-Adressen stabil

TR7 verwendet ein VRRP-Modell, um zu verwalten, welcher Knoten jede VIP-Adresse hält. MASTER- und BACKUP-Verhalten wird automatisch für jede relevante Schnittstelle generiert. Wenn der aktive Knoten offline geht, wechselt der VIP zum Peer und der Benutzerverkehr setzt auf derselben Adresse fort. Dieses Modell macht bewährte Linux-Infrastruktur über das TR7-Management-Modell verfügbar.

Link- und Gateway-Monitoring schließt VRRP-Blindstellen

TR7 beschränkt den Cluster-IP-Failover nicht auf VRRP allein; Link-, Gateway- oder Link+Gateway-Methoden sind ebenfalls verfügbar. Im Link-Modus wird der Schnittstellen-Carrier-Zustand bewertet; im Gateway-Modus wird die Upstream-Erreichbarkeit geprüft. Im Link+Gateway-Modus werden beide Signale zusammen für eine stärkere Failover-Entscheidung bewertet. Dies hilft zu verhindern, dass ein VIP auf einem Knoten verbleibt, der lebendig erscheint, aber einen beschädigten Netzwerkpfad hat.

Active-Passive- und Active-Active-Topologien laufen im selben Cluster-Modell

In Active-Passive trägt ein Knoten die Service-VIPs, während der andere auf Standby wartet. In Active-Active können verschiedene VIPs über beide Knoten verteilt werden, sodass beide Geräte Live-Verkehr tragen. Wenn ein Knoten ausfällt, übernimmt der andere seine VIPs. Dieser Ansatz ermöglicht es, die Failover-Strategie und die Gerätenutzung nach architektonischen Präferenzen zu gestalten.

Konfigurations- und Datenänderungen werden automatisch an den Peer propagiert

Bei aktiviertem automatischem Sync wird jede Insert-, Update- und Delete-Operation an den Peer-Knoten gesendet. Operatoren müssen keine separate Automatisierung schreiben, manuelle Datei-Kopien durchführen oder Sync-Jobs planen. Regel-, Zertifikat- und Service-Konfigurationen über beide Knoten hinweg konsistent zu halten wird unkompliziert. Dies reduziert die Unklarheit „Ist der Peer wirklich identisch?“ zum Zeitpunkt des Failovers.

Stick-Tabellen und Zähler werden durch Peer-Replikation erhalten

Stick-Tabellen, Rate-Limiting-Zähler und Quell-IP-Zustand können zum Peer-Knoten repliziert werden. Wenn ein Failover auftritt, startet das Benutzerverhalten nicht von vorne. CAPTCHA-, Rate-Limit- oder Session-Routing-Entscheidungen setzen nach einem Ausfallsereignis konsistenter fort. Dieses Feature zielt nicht nur auf die VIP-Übergabe ab, sondern auch auf die Erhaltung des Entscheidungszustands.

Hardware-Nichtübereinstimmungen werden frühzeitig zum Zeitpunkt des Beitritts erkannt

Das CPU-Kern-Set, die Netzwerkschnittstellen und der RAM von Knoten, die dem Cluster beitreten, werden verglichen. Ein anderer Schnittstellenname, fehlende NIC oder Speicher-Nichtübereinstimmung wird von Anfang an als Fehler behandelt. Dies hilft zu verhindern, dass stille Hardware-Unterschiede während eines Failovers auftauchen. Es reduziert das Betriebsrisiko insbesondere bei Hardware-Erneuerung und Ersatz-Knoten-Austausch.

Manueller Sync-Modus öffnet einen sicheren Testraum für geplante Wartung

Wenn der manuelle Sync aktiviert ist, wird die automatische Änderungspropagation pausiert. Der Operator kann eine neue Regel, ein Zertifikat oder ein Service-Verhalten auf einem Knoten testen. Sobald die Validierung abgeschlossen ist, wird die Änderung über einen syncAll- oder requestSyncAll-Flow an den Peer gesendet. Dieses Modell verhindert, dass eine fehlerhafte Änderung sich sofort über den gesamten Cluster ausbreitet.

Cluster-Management-IPs werden vom Benutzerverkehr getrennt gehalten

Für jede Cluster-ID wird eine IP aus dem 241.0.1.0/24-Verwaltungsnetzwerk zugewiesen. Die intra-Cluster-Kommunikation ist konzeptionell vom Benutzer-Service-Verkehr getrennt. Der Cluster-ID-Wert wird im Bereich 1-254 verwendet, wobei jede ID einer dedizierten Management-IP entspricht. Diese Trennung macht Synchronisierungs- und Peer-Kommunikationsverkehr vorhersagbarer zu verwalten.

Operative Tiefe

HA-Clustering wird zusammen mit VRRP-Slots, Unicast-Kommunikation, Management-IP-Paaren, Konfigurationsdifferenzierung, Failback-Verhalten und GTM-Integration geplant.

VRRP-Slot-Management

In Active-Active-Szenarien können pro Schnittstelle 2 VRRP-Slots, die MASTER- und BACKUP-Verhalten repräsentieren, generiert werden. Die virtual_router_id- und priority-Werte werden entsprechend der Cluster-Rolle gesetzt. Diese Struktur ermöglicht die Verwaltung der VIP-Eigentümerschaft innerhalb desselben Subnetzes ohne Konflikte.

Unicast-VRRP

In modernen Rechenzentrum-Netzwerken kann Multicast-VRRP-Verkehr durch bestimmte Switch-Richtlinien gefiltert werden. TR7 mindert dies, indem Peer-Knoten-Informationen über einen Unicast-Peer-Ansatz verwaltet werden. VRRP-Verkehr fließt dann auf kontrollierte Weise über die erwartete Peer-Knoten-IP.

Link- und Gateway-Entscheidungsmodus

Die Cluster-IP-Methode kann auf vrrp, link, gw oder link+gw eingestellt werden. Die Link-Methode entscheidet basierend auf dem Schnittstellenzustand, gw basierend auf der Gateway-Erreichbarkeit und link+gw basierend auf der Kombination beider Signale. Diese Optionen machen das VIP-Verhalten über verschiedene Netzwerkdesigns hinweg realistischer.

Management-IP-Paar

Die Cluster-Synchronisierung läuft über ein definiertes IP-Paar für jede Schnittstelle. Diese IPs werden separat von Produktions-VIPs behandelt. Dies trennt Synchronisierungsverkehr operativ vom Benutzerverkehr.

Kontrolliertes Failback-Verhalten

Der nopreempt-Modus verhindert, dass der VIP automatisch zum alten Master zurückkehrt, wenn dieser wieder online geht. Dies vermeidet Ping-Pong-Failover in Szenarien mit einer vorübergehenden Erholung gefolgt von einem weiteren Ausfall. Die Failback-Entscheidung wird bewusst vom Operator getroffen.

Lokaler Cluster und GTM-Integration

Der lokale Cluster stellt VIP-Failover innerhalb desselben Rechenzentrums bereit. Wenn das gesamte Rechenzentrum offline geht, kann die GTM-Schicht DNS zu einem entfernten Rechenzentrum umleiten. Dies ermöglicht es, lokale Knotenausfälle und Rechenzentrumsausfälle auf zwei unterschiedlichen Ebenen zu behandeln.

Wann der Einsatz sinnvoll ist

Ununterbrochene VIP-Eigentümerschaft in Finanzanwendungen

Finanzinstitutionen können Mobile- und Internet-Banking-VIPs in einer hochverfügbaren Konfiguration über zwei TR7 ADC-Knoten betreiben. Wenn ein Knoten für Wartung oder aufgrund eines Ausfalls offline geht, übernimmt der andere Knoten die Eigentümerschaft des VIP und der Service-Zugriff setzt auf derselben Adresse fort.

Intelligente VIP-Übergabe bei Gateway-Verlust

Netzwerk-Teams können sicherstellen, dass der VIP zum anderen Knoten wechselt, wenn der Gateway-Zugriff verloren geht — auch wenn der Knoten selbst noch läuft. In diesem Szenario basiert der Failover auf tatsächlicher Upstream-Erreichbarkeit und nicht nur auf Geräteverfügbarkeit.

Sichere Änderungen während geplanter Wartung mit manuellem Sync

Behörden oder geschäftskritische Betreiber können den manuellen Sync-Modus aktivieren und eine Änderung zunächst auf einem Knoten testen. Nach der Validierung wird die Änderung an den Peer gesendet, um unkontrollierte cluster-weite Propagation zu verhindern.

Kompatibilitätsprüfung bei Hardware-Erneuerung

Betriebsteams können CPU-, Schnittstellen- und Speicherunterschiede zum Zeitpunkt des Beitritts sehen, wenn sie einen alten Knoten entfernen und neue Hardware dem Cluster hinzufügen. Eine Warnung wird erzeugt, bevor ein falsch spezifizierter Server in den Cluster aufgenommen wird, was das Failover-Risiko reduziert.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Active-Active- und Active-Passive-Topologien?

In Active-Passive trägt ein Knoten alle Service-VIPs, während der andere auf Standby wartet. In Active-Active werden verschiedene VIPs über beide Knoten verteilt, sodass beide Geräte Live-Verkehr tragen; wenn ein Knoten ausfällt, übernimmt der andere seine VIPs. Beide Topologien werden innerhalb desselben Cluster-Modells unterstützt.

Was kann verwendet werden, wenn VRRP allein nicht ausreichend ist?

TR7 beschränkt den Cluster-IP-Failover nicht auf das VRRP-Protokoll. Link-, Gateway- oder Link+Gateway-Methoden sind ebenfalls verfügbar. Der Gateway-Modus stellt sicher, dass der VIP zum anderen Knoten wechselt, wenn der Upstream-Zugriff verloren geht — auch wenn der Knoten selbst lebendig erscheint. Diese Optionen werden direkt über die TR7-Verwaltungsoberfläche konfiguriert.

Wie funktioniert die Konfigurationssynchronisierung?

Bei aktiviertem automatischem Sync wird jeder Insert-, Update- und Delete-Vorgang an Regel-, Zertifikat- und Service-Konfigurationen automatisch an den Peer-Knoten gesendet. Wenn der manuelle Sync-Modus aktiviert wird, wird diese Propagation pausiert; der Operator sendet Änderungen nach dem Testen über einen syncAll- oder requestSyncAll-Flow an den Peer.

Werden Sitzungs- und Rate-Limit-Zustand über einen Failover hinweg erhalten?

Ja. Stick-Tabellen, Rate-Limiting-Zähler und Quell-IP-Zustand können zum Peer-Knoten repliziert werden. Nach einem Failover haben Benutzer keine CAPTCHA-Wiederholungsaufforderungen, Rate-Limit-Resets oder abgebrochene Sitzungen.

Was passiert beim Hinzufügen eines neuen Hardware-Knotens zum Cluster?

Wenn ein neuer Knoten dem Cluster beitritt, werden sein CPU-Kern-Set, seine Netzwerkschnittstellennamen und sein RAM automatisch mit dem bestehenden Knoten verglichen. Wenn eine Nichtübereinstimmung festgestellt wird, wird der Knoten am Beitritt gehindert und eine Warnung für den Operator ausgegeben. Diese Prüfung eliminiert das Hardware-Erneuerungsrisiko von Anfang an.

Wie funktioniert der Failover bei gemeinsamer Verwendung mit GTM?

Der lokale Cluster stellt VRRP-basierten VIP-Failover innerhalb desselben Rechenzentrums bereit. Wenn das gesamte Rechenzentrum offline geht, leitet GTM (Global Traffic Manager) DNS zu einem entfernten Rechenzentrum um. Dies ermöglicht es, lokale Knotenausfälle und Rechenzentrumsausfälle auf zwei separaten Schichten zu behandeln.

Ihren ADC-Cluster in einem einzigen Management-Modell betreiben

VRRP-VIP-Failover, Konfigurationssync, Hardware-Validierung und kontrollierter Wartungs-Workflow — lassen Sie uns das gemeinsam in einer Live-Einrichtung durchgehen.