Kurum servisi sağlığı klasik load balancing dünyasında her zaman protokol katmanından izlenir. ADC sunucuya HTTP istek gönderir, 200 OK alır, sunucuyu havuza ekler. Ya da TCP probu yapar, port açıksa sağlıklı sayar. Hatta belki içerik doğrulaması yapar: 'cevap içinde şu kelime var mı?'
Bu yaklaşım dış kabuktan bakar; içeriden bakmaz. Sunucunun disk doluluğu %98'e ulaştığını, RAM'in swap'a düşüp performansın çöktüğünü, GC döngüsünün uzadığını, veritabanı bağlantı limitinun dolduğunu görmez. Sunucu hâlâ HTTP 200 döndürür — ama kullanıcı isteği için saniyeler süren bir bekleme yaşar.
Daha kötüsü: protokol probu lokal kabul edilir, sunucunun kendi durumunu rapor etmez. ADC sadece probun gördüğünü görür. Sunucudaki yetişmiş kaynak baskısı veya kritik bir sürecin yeniden başlatılma döngüsü routing kararına etki etmez.
ETM Sunucu Telemetrisi bu boşluğu kapatır. Sunucudaki ajan kendi iç durumunu sürekli ADC'ye iletir. Routing kararı dış protokol probundan değil, içeriden gelen canlı veriden alınır.
TR7 ETM, sunucu sağlığını ADC routing katmanının canlı girdisi olarak modeller. Bu yaklaşım istemci güvenliği ile sunucu observability'sini aynı platformda birleştirir.
Sunucudaki ajan CPU yükünü, bellek kullanımını, swap baskısını, disk IO doygunluğunu ve ağ arayüz throughput'unu gerçek zamanlı ölçer. Veri ADC'ye periyodik aralıklarla — saniyeler mertebesinde — iletilir; routing kararı bu güncel veriden beslenir.
Kritik uygulama süreçlerinin sağlığı, yeniden başlatma döngüleri, garbage collection süresi, açık dosya tanıtıcı sayısı, thread havuzu durumu ve uygulamaya özel metrikler (örn. veritabanı bağlantı limiti) izlenir. Uygulama sağlıklı değilse trafik o sunucuya gitmez.
ADC load balancing algoritması ETM telemetrisinden gelen sağlık skoruna göre çalışabilir. CPU'su yüksek sunucu daha az trafik alır, IO doygunluğu olan sunucu yeni bağlantıdan çıkarılır, swap'a düşen sunucu havuzdan otomatik temizlenir.
İstemci güvenliği için kullanılan aynı ETM ajanı sunucularda da çalışır. Operasyon ekibi tek bir agent, tek bir yönetim katmanı ve tek bir telemetri modeli kullanır. Kurum servisi gözlemlenebilirliği için ayrı bir araç dağıtmaya gerek kalmaz.
Sunucu telemetrisi yalnızca observability değil; ADC routing kararının canlı veri kaynağıdır.
Tek CPU sayısı, sürekli yük ortalaması, anlık kullanım yüzdesi ve termal durum gerçek zamanlı ölçülür. Çekirdek başına yükteki anormallik veya termal throttle nedeniyle performans düşüşü routing kararına yansır.
Toplam ve kullanılabilir bellek, swap kullanımı, page fault oranı ve OOM killer aktivitesi izlenir. Swap'a düşen sunucu otomatik olarak düşük öncelikli pool'a alınabilir; OOM riski belirginleşen sunucu trafikten çekilebilir.
Disk doluluk oranı, IO bekleme süresi, IOPS sayısı, kuyruktaki istek sayısı ve SMART hata sayıları izlenir. Disk doluluğu eşiği aşıldığında veya IO doygunluğu yüksekse sunucu trafikten geri çekilir.
Tanımlı kritik süreçlerin çalışıp çalışmadığı, son yeniden başlatma zamanı ve restart döngü sayısı izlenir. Sürekli yeniden başlatılan bir uygulama trafikten çekilir; havuz operatör müdahalesi için işaretlenir.
Sunucudaki uygulama-özel metrikler — uygulama runtime metriği (GC süresi, event loop gecikmesi), veritabanı bağlantı limiti doygunluğu, kuyruk derinliği — ajan üzerinden çekilebilir. ADC bu metrikleri routing kararına dahil edebilir.
Sunucu ağ arayüzlerinin throughput'u, paket kayıp oranı, retransmit sayısı ve aktif TCP bağlantı sayısı izlenir. Ağ doygunluğu olan sunucu otomatik olarak düşük ağırlıkla işaretlenir.
Sunucudaki TLS sertifikalarının geçerlilik süresi, kritik yapılandırma dosyalarının hash bütünlüğü ve sertifika depolarındaki değişiklikler izlenir. Süresi yaklaşan sertifika hem operatöre uyarı çıkarır hem de routing politikasına dahil edilebilir.
Sunucu yapılandırma baseline'ından sapma anlık olarak yakalanır. Yetkisiz yapılandırma değişikliği, beklenmeyen kullanıcı hesabı veya yeni hizmet başlatılması olay olarak ETM'e ulaşır. Bu sinyal hem güvenlik hem operasyon kararlarına yansır.
ETM telemetrisi sunucu başına 0–100 sağlık skoruna çevrilebilir. ADC load balancing algoritması (round-robin, least-conn, weighted least-conn) bu skoru ağırlık olarak kullanabilir. Skor düşen sunucu daha az trafik alır; eşiğin altına düşen sunucu havuzdan çıkar.
Disk dolulukta artış hızı, bellek tüketimi trendi, restart sıklığı gibi sinyaller predictive olarak yorumlanabilir. Sunucu henüz başarısız değilken, kısa süre içinde başarısız olma ihtimali yükselen sunucudan trafik yumuşak şekilde geri çekilir.
Sunucu telemetrisi ADC routing zekasının canlı veri kaynağıdır — entegrasyon, ölçeklenebilirlik ve audit dahil.
Telemetri ADC kontrol düzlemine periyodik olarak akar. Load balancing algoritması ETM skoruna göre çalışabilir; özel routing kararları ETM olaylarına göre tetiklenebilir. Operatör herhangi bir custom script yazmadan, politika diline ETM metriklerini bağlayabilir.
Protokol bazlı aktif sağlık probu (HTTP, TCP, Oracle) çalışmaya devam eder; ETM telemetrisi bu probun yanına bir 'iç görüş' katmanı ekler. Routing kararı iki kaynağı birlikte değerlendirir: 'cevap veriyor mu?' (protokol probu) + 'sağlıklı mı?' (ETM).
Hangi metriklerin hangi periyotla toplanacağı sunucu rolüne göre yapılandırılabilir. Web sunucusu için CPU/RAM/IO, veritabanı sunucusu için bağlantı limiti ve query latency, uygulama sunucusu için GC ve thread havuzu öncelikli olabilir.
Sunucudaki ajan minimal kaynak kullanımı için tasarlanır. Yüksek-throughput kurum servislerinde de performans kaybına neden olmadan çalışır. Metric toplama yoğunluğu yapılandırılabilir.
Telemetri kurumsal izleme ve observability platformlarına aktarılabilir. ETM'nin kendi yönetim arayüzü yerine kurum standardı observability stack'i kullanılmak istendiğinde veri akışı sağlanır.
Tek bir TR7 kümesinden binlerce sunucu telemetrisi toplanabilir. Çok-bölge yapılarda Merkezi Yönetim ile farklı bölgelerdeki sunucu envanterleri tek konsoldan görüntülenir.
Uygulama sunucusunun veritabanı bağlantı limiti doygunluğa yaklaştığında ETM bunu ADC'ye iletir. ADC o sunucudaki ağırlığı kademeli olarak düşürür; yeni bağlantı diğer sunuculara yönlendirilir. Kullanıcı timeout görmez; kurum servisi kademeli olarak nefes alır.
Yedekleme veya log birikimi nedeniyle bir sunucunun disk doluluğu %95'i geçtiğinde ETM olay üretir. Sunucu havuzdan otomatik çıkarılır; operatör müdahale için işaretlenir. Diskin tamamen dolup hizmetin çökmesi engellenir.
Bellek kullanımı sürekli artan ve OOM riski yüksek olan bir sunucu, henüz çökmeden önce ETM tarafından düşük ağırlığa alınabilir. Trafik diğer sunuculara yumuşakça kaydırılır; bir incident'a dönüşmeden problem çözülür.
Sunucudaki TLS sertifikasının 30 günden az kalan geçerliliği ETM'e bildirilir. Operatöre uyarı gider; sertifika yenilenene kadar sunucu kritik trafik almayabilir veya alarm yükseltilebilir. Sürpriz sertifika hatası riski ortadan kalkar.
ETM Sunucu Telemetrisi'ni kendi kurum servisinizde canlı görelim — pilot sunucu grubu üzerinde bir kurulum oturumu planlayalım.