%99,99 Süreklilik için AI Sistem Mimarisi
%99,99 Süreklilik için AI Sistem Mimarisi
Üretimde çalışan yapay zeka sistemleri, “model doğruluğu” kadar “süreklilik” hedefiyle de değerlendirilmelidir. Çünkü AI kararlarının kesintiye uğraması; müşteri deneyimini, operasyonu ve finansal sonuçları doğrudan etkiler. %99,99 süreklilik (yaklaşık yıllık 52 dakika kesinti bütçesi) hedefi, mimariyi baştan doğru tasarlamayı zorunlu kılar. Bu yazıda, yüksek erişilebilirlik için AI sistem mimarisinin temel prensiplerini ele alıyoruz.
%99,99 Süreklilik Ne Demektir?
%99,99 (four nines) süreklilik, hizmetin yıl boyunca neredeyse kesintisiz çalışması anlamına gelir. Bu hedefe ulaşmak, sadece daha güçlü sunucularla değil; hata toleranslı mimariyle mümkündür.
- Tek noktadan bağımlılıkları (SPOF) ortadan kaldırmak
- Arızayı normal kabul eden tasarım yapmak
- Otomatik toparlanma mekanizmaları kurmak
AI Sistemlerinde Sürekliliği Zorlaştıran Faktörler
AI sistemleri klasik API servislerinden daha karmaşıktır. Çünkü sadece servis katmanı değil, model, feature ve veri akışı da sürekliliğin parçasıdır.
- Model servisleme altyapısı (inference)
- Gerçek zamanlı feature hesaplama
- Veri akışı ve bağımlı sistemler
- Model versiyonları ve güncellemeleri
1. Çok Bölgeli (Multi-Region) ve Çok Katmanlı Tasarım
%99,99 hedefi için tek veri merkezi veya tek bölgeye bağımlı tasarım risklidir. Kritik AI servisleri mümkünse multi-region veya en azından multi-zone kurgulanmalıdır.
- Aktif–aktif (active-active) veya aktif–pasif (active-passive) mimari
- DNS tabanlı yönlendirme ve otomatik failover
- Bağımsız ölçeklenebilen servis katmanları
2. Stateless Inference Servisleri ve Yatay Ölçekleme
AI inference servisleri mümkün olduğunca stateless tasarlanmalıdır. Böylece yatay ölçeklenebilir ve hataya dayanıklı bir yapı elde edilir.
State gerekiyorsa, servis dışındaki dayanıklı bileşenlerde tutulmalıdır.
3. Feature Store ve Cache Stratejisi
Birçok AI sisteminde darboğaz model değil, feature hesaplamadır. Süreklilik için feature’ların güvenilir ve hızlı sunulması gerekir.
- Merkezi feature store yaklaşımı
- Gerçek zamanlı feature cache (TTL kontrollü)
- Degrade mod: kritik feature yoksa alternatif hesaplama
4. Dayanıklı Mesajlaşma ve Geri Basınç (Backpressure)
Gerçek zamanlı AI sistemleri genellikle event/streaming mimarisiyle çalışır. Bu yapılarda kuyruk ve mesajlaşma katmanı sürekliliğin sigortasıdır.
- Kalıcı kuyruklar ve yeniden deneme (retry) stratejisi
- Idempotent tüketim ve tekrar işleme toleransı
- Backpressure ile sistemin çökmesini önlemek
5. Yayınlama Güvenliği: Canary, Blue-Green, Rollback
%99,99 süreklilikte en büyük risklerden biri yanlış model veya servis güncellemesidir. Kontrollü yayınlama, kesinti riskini minimize eder.
- Canary release ile küçük trafikte test
- Blue-green dağıtım ile hızlı geçiş
- Otomatik rollback tetikleyicileri
6. Observability: Log, Metrik, Trace ve Alarm
Yüksek süreklilik, yüksek görünürlük gerektirir. Sadece servis sağlığı değil, model ve veri tarafı da izlenmelidir.
- Latency, error rate, throughput metrikleri
- Model drift ve tahmin dağılımı izleme
- Dağıtık iz sürme (distributed tracing)
- Alarm eşikleri ve 7/24 on-call süreçleri
7. Degrade Mod ve Fallback Tasarımı
%99,99 hedefi, “her şey çalışmalı” değil; “her şey bozulsa bile hizmet devam etmeli” yaklaşımını gerektirir. AI sistemlerinde bu, fallback stratejileriyle sağlanır.
- Kural tabanlı baseline modele dönüş
- Son başarılı tahminin (last known good) kullanımı
- İnsan onaylı karar akışı (human-in-the-loop)
Yaygın Hatalar
- Sürekliliği sadece altyapı konusu sanmak
- Feature ve veri akışını tek noktaya bağlamak
- Yayınlama güvenliğini ihmal etmek
- Fallback stratejisi tasarlamamak
Sonuç
%99,99 süreklilik için AI sistem mimarisi; model, veri, feature, servis ve operasyon katmanlarını birlikte ele almalıdır. Yüksek erişilebilirlik, “arızayı engellemek” değil; arızayı yönetmek ve otomatik toparlanmaktır. Başarılı kurumlar, AI sistemlerini sadece doğru tahmin üreten modeller olarak değil; yüksek süreklilikle çalışan ürünler olarak tasarlar. AI’da güven, doğruluk kadar süreklilikle kazanılır.