Funktion

DC-Failover

Fällt das primäre DC aus, formt sich DNS automatisch neu und der Datenverkehr wandert ohne menschliches Eingreifen in ein gesundes Rechenzentrum.

TR7 DC-Failover bindet die Rechenzentrums-Health direkt an DNS-Antworten. Health-Szenarien, die für jedes DC definiert sind, überwachen Zugriff, Internet-Erreichbarkeit, WAN, LAN und Wartungsstatus — wird ein DC unhealthy, werden seine Records automatisch aus der DNS-Antwort entfernt. In diesem Modell ist Failover keine Zonenfile-Anpassung, kein manuell ausgelöstes Skript und kein nächtlicher Operator-Anruf. Wenn sich ein HC-Status ändert, wird das zugehörige Szenario neu ausgewertet, die gebundenen DNS-Records werden neu gerendert und die Clients werden gemäß TTL-Verhalten zu gesunden Zielen geführt. Primäre, sekundäre, tertiäre oder längere DC-Ketten lassen sich konfigurieren. Während geplanter Wartung kann ein DC bewusst per Wartungsmodus offline genommen werden. In Disaster-Recovery-Szenarien können DR-Records erst aktiviert werden, wenn bestimmte Bedingungen erfüllt sind. Das Ergebnis: TR7 GTM schließt die Lücke zwischen Monitoring- und DNS-System und vereint Health-Szenario-Auswertung, DNS-Rendering, manuelle Umschaltung und Failback-Schutz in einer einzigen Entscheidungspipeline.

Automatische Health-Check-Typen pro DC: WAN, LAN, Access, Internet, Wartung

3 s

Debounce-Fenster für dynamische Konfigurations-Regenerierung

N-DC

Rechenzentrums-Prioritätskette ohne theoretische Begrenzung

Wird der DC-Failover über manuelle DNS-Änderungen gesteuert, ist die RTO durch menschliche Geschwindigkeit begrenzt.

Im klassischen Primary/Backup-DNS-Modell wird ein Rechenzentrumsausfall erkannt, das Operations-Team erhält einen Alert, der Zonen-Record wird aktualisiert, der Dienst neu geladen und Clients warten auf die Propagation der neuen DNS-Antwort. Diese Kette sieht im Runbook geradlinig aus; in einem realen Vorfall dehnen Entscheidungsfindung, Zugriffskontrolle, Freigabe und Ausführung die RTO erheblich aus.

In vielen Organisationen arbeiten Health Checking und DNS als getrennte Systeme. Ein Monitoring-Tool sieht, dass ein DC nicht erreichbar ist, der DNS-Server antwortet aber weiterhin mit denselben IP-Adressen. Die Brücke dazwischen ist typischerweise ein Skript, ein manuelles Runbook oder eine separate Automatisierungsschicht. Diese Lücke wird im Failover-Moment zum schwächsten Glied.

Failback birgt vergleichbares Risiko. Wackelt ein DC schnell hinein und hinaus, kann die DNS-Antwort wiederholt kippen — Clients verteilen sich auf verschiedene Rechenzentren, und der Traffic kehrt möglicherweise zurück, bevor die Zustandssynchronisation abgeschlossen ist. Eine einfache "Entfernen wenn down, wieder hinzufügen wenn up"-Logik genügt nicht.

Das richtige Modell wertet DC-Health über boolesche Szenariologik aus, reduziert das Flap-Risiko durch aufeinanderfolgende Success/Failure-Schwellwerte und macht die DNS-Antwort zum natürlichen Ergebnis dieser Entscheidung. Dasselbe Modell muss auch die manuelle Umschaltung für geplante Wartung, eine fail-safe Antwort, wenn alle DCs unhealthy sind, und DR-Bedingungen abdecken.

TR7 DC-Failover liefert dieses Modell: Es aktualisiert die DNS-Antwort automatisch, sobald sich ein DC-Health-Szenario ändert, und koppelt den gesamten Failover-Prozess an DNS-TTL und vom Operator definierte Health-Parameter.

Unser Ansatz

TR7 setzt DC-Failover-Entscheidungen über Health-Szenarien, boolesche Bedingungslogik, Flap-Schutz und einen manuellen Umschaltmechanismus um.

Health-Szenario steuert die DNS-Antwort direkt

Wenn sich der Health-Check-Status für ein DC ändert, wird das zugehörige Szenario neu ausgewertet. Ändert sich das Szenarioergebnis, werden die relevanten DNS-Records neu erzeugt und das unhealthy DC wird aus der Antwort entfernt.

Boolesche Bedingungen modellieren komplexe DC-Health-Entscheidungen

Bedingungsgruppen werden mit AND-Logik kombiniert, Gruppen werden mit OR-Logik kombiniert. Für jeden Health Check lässt sich auch eine negative Bedingung definieren, die inverse Szenarien wie "diesen Record aktivieren, wenn diese Prüfung unhealthy ist" ermöglicht.

Stuck-State-Schutz reduziert Failback-Oszillationen

Während sich ein DC in einem Übergang befindet, kann das vorherige Auswertungsergebnis beibehalten werden. Dieses Verhalten hilft, kurzlebige Up/Down-Schwankungen davon abzuhalten, die DNS-Antwort kontinuierlich zu verändern.

Wartungsmodus ermöglicht manuelle Umschaltung bei geplanten Ausfallzeiten

Während geplanter Wartung kann ein Operator ein DC per Wartungsmodus offline nehmen. Selbst wenn das DC gesund erscheint, kann es aus der DNS-Antwort ausgeschlossen werden, sodass der Datenverkehr auf ein anderes DC umgeleitet wird.

Funktionen

DC-Failover ist die GTM-Failover-Schicht, die DNS-Antworten über mehrere Rechenzentren hinweg automatisch auf Basis des Health-Status verwaltet.

N-DC-Prioritätskette unterstützt primäre, sekundäre und tertiäre Flows

TR7 kann DC-Records als Prioritätskette nach Array-Position auswerten. Wenn das primäre DC unhealthy ist, übernimmt das sekundäre; wird auch das sekundäre unhealthy, springt das tertiäre ein — und längere Ketten werden ebenso unterstützt. Das Codemodell ist nicht theoretisch auf zwei Endpunkte begrenzt. Diese Struktur vereinfacht mehrstufige Kontinuitätsdesigns in Finanz-, Behörden- und großen SaaS-Umgebungen.

Fünf automatische Health-Check-Typen pro DC verfügbar

TR7 kann Health-Signale auf DC-Ebene auswerten: wanAccess, lanAccess, access, internet und maintenanceMode. WAN-Erreichbarkeit, LAN-Erreichbarkeit, allgemeiner Zugriffsstatus, Internetzugriff und manueller Wartungsstatus werden jeweils separat modelliert. Ein DC wird daher über mehrere Zugriffsdimensionen hinweg bewertet, nicht nur über ein einzelnes Ping-Ergebnis. Die DNS-Antwort spiegelt ein realistischeres Bild der DC-Health wider.

Aufeinanderfolgende Success- und Failure-Schwellwerte reduzieren das Flap-Risiko

requiredSuccess und requiredFailure legen fest, wie viele aufeinanderfolgende Ergebnisse benötigt werden, bevor ein DC als up oder down gilt. Dieses Modell verhindert unnötige DNS-Änderungen durch vorübergehenden Paketverlust, kurze Netzwerkunterbrechungen oder momentane Dienstverlangsamungen. Operatoren können engere Schwellen für kritische Dienste und tolerantere für rauschigere Links verwenden. Die RTO wird gemeinsam mit diesen Schwellen und dem Prüfintervall geplant.

backupBehavior-Modi steuern das Verhalten passiver DCs

Der Modus noResponse hält ein passives DC unter normalen Bedingungen still. Der Modus onlyNew kann verhindern, dass ein lange ausgefallenes DC bei der Rückkehr mit veralteten Daten antwortet. Dieses Verhalten stellt sicher, dass während des Failovers nur DCs im korrekten Zustand DNS-Antworten erzeugen — nicht nur diejenigen, die erreichbar sind. Es ist eine wichtige Schutzschicht in Umgebungen, in denen das Risiko veralteter Daten relevant ist.

DR-Modus aktiviert Disaster-Recovery-Records bedingt

Der Per-Record-DR-Modus erlaubt es, dass bestimmte Records erst aktiv werden, wenn eine DR-Bedingung erfüllt ist. Das Szenario drCond oder das Flag drIfNoRecords löst den DR-Record aus, wenn primäre und sekundäre Ziele erschöpft sind. Dieses Modell hält entfernte Disaster-Recovery-IP-Adressen aus normalen DNS-Antworten heraus und hält sie für kritische Situationen in Bereitschaft. Die DR-Strategie wird auf DNS-Ebene kontrolliert.

FailSafe-Antwort bietet eine letzte Option, wenn alle DCs unhealthy sind

Wenn kein DC gesund ist, kann eine Antwort aus dem fallbackRecords-Array generiert werden. Diese Records können auf eine Wartungsseite, einen statischen Notfall-Endpunkt oder einen alternativen Wiederherstellungsdienst verweisen. Das FailSafe-Verhalten sorgt dafür, dass DNS eine kontrollierte Last-Resort-Antwort erzeugt, statt nichts zurückzugeben. Operatoren definieren diese Records gemäß dem Krisenplan ihrer Organisation.

State-Persistenz erhält die Auswertungskontinuität über Neustarts hinweg

TR7 kann lokale Health-Check- und Szenariodaten auf Dateiebene speichern. Nach einem Neustart oder Service-Reload wird der vorherige Zustand wiederhergestellt, sodass die Auswertung nicht von vorne beginnt. Dieser Ansatz reduziert unnötige Oszillationen bei Failover-Entscheidungen während eines vorübergehenden Neustarts. Er ist besonders nützlich, um Konsistenz während Wartungsoperationen aufrechtzuerhalten, die den GTM-Dienst neu starten.

DC-Erreichbarkeit wird über mehrere WAN- und LAN-Ziele verifiziert

wanAccess- und lanAccess-Ziellisten lassen sich pro DC definieren. Mehrere Zugriffsziele liefern ein genaueres Bild der externen und internen Erreichbarkeit eines DC. Ein vorübergehendes Problem mit einem einzelnen Ziel markiert nicht zwangsläufig das gesamte DC als down. Diese Struktur ermöglicht eine umfassendere Modellierung der Rechenzentrums-Health.

Manuelle Umschaltung ermöglicht kontrollierten Verkehrsübergang bei geplanter Wartung

Wenn maintenanceMode aktiviert wird, wird das betreffende DC bewusst offline genommen. Das ist während Patches, Wartungsfenstern, Migrationen oder kontrollierten DR-Tests nützlich. Der Operator kann das DC aus der DNS-Antwort entfernen — auch wenn es gesund ist — und den Datenverkehr auf ein anderes DC umleiten. Nach Abschluss der Wartung wird der Modus deaktiviert und die normale Auswertung wird fortgesetzt.

Status-Enumeration klassifiziert DC-Fehler klarer

Der DC-Zustand kann als ok, noInternet, noAccess, noWan oder noLan ausgedrückt werden. Diese Klassifizierung zeigt, welche Zugriffsdimension problematisch ist, statt nur "down" zu sagen. Operations-Teams können Internet-Egress-, WAN-Erreichbarkeits- und LAN-Erreichbarkeitsprobleme schneller unterscheiden. Der Grund hinter einer Failover-Entscheidung wird besser lesbar.

DNS-Konfigurations-Regenerierung wird bei Health-Statusänderungen automatisch ausgelöst

Wenn sich der Health-Check-Status ändert, kann das zugehörige Szenario sofort neu ausgewertet werden. An das Szenario gebundene Records gelangen in die dynamische Konfigurations-Regenerierungspipeline und die DNS-Antwort wird aktualisiert. Dieses Verhalten reduziert den Bedarf an manuellen Zonen-Edits oder externen Skripten. Änderungen werden durch ein kurzes Debounce-Fenster gruppiert, um unnötig wiederholte Regenerierungen zu vermeiden.

Master-DNS-Writes in einem HA-Cluster werden von einem einzelnen Node verwaltet

In einem HA-Cluster-Szenario werden DNS-Konfigurations-Writes über die Master-Rolle gesteuert. Fällt der Master-Node aus, kann der Standby-Node die Rolle nach einer definierten Sicherheitsperiode übernehmen. Dieses Modell verhindert, dass zwei Nodes gleichzeitig unterschiedliche DNS-Konfigurationen erzeugen. Das GTM-Verhalten bleibt im Einklang mit dem Cluster-Zustand.

Betriebliche Tiefe

Eine DC-Failover-Operation wird gemeinsam mit Prüfintervall, aufeinanderfolgenden Schwellen, HC-ID-Struktur, Szenariobedingungen, Regenerierungspipeline und RTO-Parametern geplant.

DC-Checker-Intervall

accessPeriod legt fest, wie häufig DC-Health-Checks laufen. Es kann in Sekunden oder Minuten konfiguriert werden. Eine kürzere Periode liefert schnellere Erkennung; eine längere Periode ergibt eine ruhigere, geräuschärmere Auswertung.

Required Success/Failure

requiredSuccess legt fest, wie viele aufeinanderfolgende Erfolge nötig sind, bevor ein DC als up gilt. requiredFailure legt fest, wie viele aufeinanderfolgende Fehler nötig sind, bevor ein DC als down gilt. Diese beiden Werte bestimmen das Gleichgewicht zwischen Failover-Geschwindigkeit und Flap-Schutz.

DC-Access-Typ

wanAccess- und lanAccess-Listen definieren die Zugriffsziele eines DC. Damit lässt sich bewerten, ob ein DC nicht nur von außen, sondern auch aus dem internen Netzwerk erreichbar ist. Diese Unterscheidung ist besonders bei Inter-DC- und Hybrid-Routing-Szenarien wichtig.

HC-ID-Format

Automatische HC-Records folgen dem Format `auto||`. Ist eine negative Bedingung erforderlich, kann der ID das Suffix `!` für inverse Auswertung angefügt werden. Diese Struktur hält Health-Check-Referenzen innerhalb von Szenarien lesbar.

Struktur der Szenariobedingungen

Bedingungen innerhalb einer Gruppe werden mit AND-Logik kombiniert; Gruppen werden mit OR-Logik kombiniert. Diese Struktur unterstützt eine große Bandbreite an Entscheidungsmodellen, von einfachen Primary-Down-Prüfungen bis hin zu komplexen mehrdimensionalen DC-Health-Szenarien. Operatoren sind nicht auf ein einzelnes Prüfungsergebnis beschränkt.

Failover-Entscheidungspipeline

Bei HC-Statusänderung wird das Szenario neu ausgewertet, gebundene Records werden identifiziert und die dynamische Konfigurations-Regenerierung wird ausgelöst. Die Pipeline läuft mit einem kurzen Debounce, sodass schnelle aufeinanderfolgende Änderungen zu einem einzigen Regenerierungsdurchlauf zusammengeführt werden. Die DNS-Antwort wird gemäß dem aktuellen Health-Status neu gerendert.

RTO-Parameterabhängigkeiten

Die RTO hängt von accessPeriod, requiredFailure-Anzahl, Regenerierungs-Debounce-Dauer und Client-DNS-TTL-Verhalten ab. Statt eine einzige feste Zeit zu beanspruchen, sollte das Failover-Fenster passend zu den Service-Anforderungen geplant werden. Kritische Dienste profitieren von kürzeren TTL und häufigeren Prüfungen.

Wann einsetzen

Klassisches Active/Passive-DC-Paar

DC1 wird als primär, DC2 als passiver Standby definiert. Wenn das Internet- oder Zugriffsszenario für DC1 ausfällt, werden DC1-Records aus der DNS-Antwort entfernt und DC2 beginnt zu antworten.

Drei-DC-Prioritätskette in einer Finanzinstitution

Finanzinstitute können eine sequenzielle DC1 → DC2 → DC3 Failover-Kette aufbauen. Jede Stufe wird durch ihr eigenes Health-Szenario bewertet und ein unhealthy DC wird automatisch aus der DNS-Antwort entfernt.

Geplante Wartung mit manueller Umschaltung

Im Wartungsfenster wird DC1 in den Wartungsmodus versetzt und der Datenverkehr auf DC2 gelenkt. Nach Abschluss der Wartung wird der Wartungsmodus deaktiviert und die normale Health-Auswertung wird fortgesetzt.

Aktivierung eines entfernten Disaster-Recovery-Standorts

Sind primäre und sekundäre DCs beide unhealthy, können DR-Modus-Records aktiviert werden. In diesem Szenario bleibt der entfernte Disaster-Recovery-Standort unter normalen Bedingungen passiv und wird nur dann zur DNS-Antwort hinzugefügt, wenn die definierten Bedingungen erfüllt sind.

Stale-Data-geschütztes sekundäres DC

Wenn ein DC nach längerer Ausfallzeit wieder online kommt, ist es möglicherweise nicht wünschenswert, dass es mit veralteten Daten antwortet. Das onlyNew-Verhalten hält ein veraltetes DC passiv und reduziert das Risiko, veraltete Records zu veröffentlichen.

Hybrid-Routing aus Geofence und Failover

Zunächst wird das nächstgelegene DC nach Land oder Region ausgewählt; wird dieses DC dann unhealthy, wird das Standby-DC aktiviert. Dieses Modell kombiniert performance-basierte Steuerung mit Kontinuitätsentscheidungen in einer einzigen GTM-Konfiguration.

Häufig gestellte Fragen

Wann und wie wird eine DC-Failover-Entscheidung ausgelöst?

Wenn sich ein Health-Check-Status ändert, wird das zugehörige Szenario sofort neu ausgewertet. Ändert sich das Szenarioergebnis, gelangen die gebundenen DNS-Records in die dynamische Konfigurations-Regenerierungspipeline und die DNS-Antwort wird aktualisiert. Schnelle aufeinanderfolgende Änderungen werden durch ein kurzes Debounce-Fenster zu einem einzigen Regenerierungsdurchlauf gruppiert, was unnötiges wiederholtes Rendering vermeidet.

Wie funktioniert der Flap-Schutz?

requiredSuccess und requiredFailure legen fest, wie viele aufeinanderfolgende erfolgreiche oder fehlgeschlagene Ergebnisse nötig sind, bevor ein DC als up oder down gilt. Während sich ein DC in einem Übergang befindet, bewahrt der Stuck-State-Mechanismus das vorherige Auswertungsergebnis. Diese beiden Schichten verhindern gemeinsam, dass kurzlebige Schwankungen die DNS-Antwort unnötig verändern.

Wie lange dauert die RTO?

Die RTO hängt von accessPeriod, der requiredFailure-Anzahl, der Regenerierungs-Debounce-Dauer und dem Client-DNS-TTL-Verhalten ab. Statt eine einzige feste Zahl zu beanspruchen, sollten diese Parameter passend zu den Service-Anforderungen abgestimmt werden. Kritische Dienste können das Failover-Fenster durch eine niedrigere TTL und ein häufigeres Prüfintervall verkürzen.

Wie unterscheidet sich der DR-Modus vom regulären Failover?

Die normale DC-Kettenlogik fügt der DNS-Antwort gesunde DCs hinzu und entfernt unhealthy ones. Der DR-Modus aktiviert bestimmte Records erst, wenn eine definierte DR-Bedingung erfüllt ist. Das Szenario drCond oder das Flag drIfNoRecords löst den DR-Record aus, wenn primäre und sekundäre Ziele erschöpft sind; unter normalen Bedingungen erscheint die DR-IP nicht in der DNS-Antwort.

Geht der Failover-Status beim Neustart des GTM-Dienstes verloren?

Nein. TR7 kann lokalen Health-Check- und Szenariodaten auf Dateiebene speichern. Nach einem Neustart wird der vorherige Zustand wiederhergestellt und die Auswertung beginnt nicht von vorne. Das ist besonders nützlich, um die GTM-Konsistenz während Wartungsoperationen aufrechtzuerhalten, die einen Service-Neustart erfordern.

Wie wird ein DC für geplante Wartung offline genommen?

Der Operator setzt das Flag maintenanceMode, was das DC aus der DNS-Antwort entfernt. Selbst wenn das DC gesund ist, erzeugt es während des Wartungsmodus keine DNS-Antworten und der Datenverkehr wird auf ein anderes DC umgeleitet. Nach Abschluss der Wartung wird der Modus deaktiviert und die normale Auswertung wird fortgesetzt.

Bringen Sie den DC-Failover auf DNS-TTL-Geschwindigkeit

Health-Szenario, DNS-Antwort und manuelle Umschaltung in einer einzigen Entscheidungspipeline vereint. Gehen wir gemeinsam ein Live-Setup mit Ihrer eigenen DC-Architektur durch.