Vektörel Gizlilik ve Diferansiyel Gürültü (Vector Privacy & Differential Privacy)

Bu doküman, Humindx ekosisteminde kullanıcı etkileşimlerinden (Misty Chat vb.) elde edilen ham metinlerin imha edilme sürecini (Black Box) ve uzun vadeli bellek (RAG) için saklanan vektörel verilerin siber saldırılara karşı nasıl korunduğunu tanımlar.

Kapsam Uyarısı: Bu doküman, vektörel dönüşüm güvenliğini ve diferansiyel gizlilik (noise injection) mekanizmalarını kapsar. Veritabanı seviyesindeki şema izolasyonu (Bağlam Odaları) için ../architecture/context-rooms-design.md, regülasyon uyumluluğu için ise eu-ai-act-compliance.md dosyasına bakınız.

1. Tehdit Modeli (Threat Model): Vektörel Tersine Mühendislik

Geleneksel "AI destekli" uygulamalar, kullanıcıların sohbet geçmişlerini ya düz metin (plain-text) olarak veritabanında saklar ya da standart gömme (embedding) vektörlerine dönüştürüp Vector DB'ye koyar.

Güvenlik Zafiyeti (Embedding Inversion Attack): 2023 sonrası yapılan akademik araştırmalar, salt vektör verisinin (örn. OpenAI text-embedding-3-small çıktıları) eğitilmiş saldırı modelleri kullanılarak %90'a varan doğrulukla orijinal metne geri döndürülebildiğini (decode edilebildiğini) kanıtlamıştır. Yani standart bir Vector DB sızıntısı, düz metin sızıntısı kadar tehlikelidir.

Humindx Çözümü: "Tek Yönlü Cam" (One-Way Glass) mimarisi. Ham metin yok edilir, vektörlere ise geri döndürülmeyi imkansız kılan matematiksel "gürültü" (noise) enjekte edilir.

2. Kara Kutu Protokolü (Raw Text Immolation)

Humindx sisteminde kullanıcının yazdığı gerçek cümlelerin ("Bugün eşimle çok kavga ettik, beni anlamıyor") ömrü maksimum 24 saattir.

Hot Path İşleme: Kullanıcı mesajı atar, LLM yanıt üretir (Memory için geçici Redis session).
Cold Path Çıkarımı: Asenkron Scoring Engine transkripti analiz eder ve Big Five / RIASEC shift_value değerlerini çıkarır.
Vektörizasyon: Transkript, bağlamsal arama (RAG) için text-embedding API'sine gönderilir ve bir vektör dizisi ( $v$ ) elde edilir.
Hard Delete (İmha): Yukarıdaki işlemler bittikten sonra (veya 24 saatlik TTL süresi dolduğunda), ham metin Redis ve ilişkisel veritabanından kalıcı (unrecoverable) olarak silinir.

3. Gürültü Enjeksiyonu (Noise-Injected Embeddings)

Elde edilen saf vektör dizisi ( $v$ ), doğrudan veritabanına (pgvector) yazılmaz. Önce Epsilon-Diferansiyel Gizlilik ( $ϵ$ -DP) standartlarında bir güvenlik filtresinden geçer.

3.1. Matematiksel Mekanizma

Her bir embedding vektörü ( $v$ ) için, Gauss Dağılımı (Gaussian Distribution) kullanılarak rastgele bir "gürültü vektörü" ( $η$ ) üretilir ve orijinal vektöre eklenir.

v_{k o r u n a n} = v_{s a f} + η burada η \sim N (0, σ^{2} I)

$σ$ (Gürültü Varyansı): Epsilon ( $ϵ$ ) gizlilik bütçesine göre kalibre edilir.
Sonuç: Oluşan $v_{k o r u n a n}$ vektörü artık orijinal cümleyle birebir eşleşmez.

3.2. RAG Üzerindeki Etkisi (Semantic Preservation)

Bu "Tek Yönlü Cam" işleminin en büyük mühendislik başarısı şudur: Vektöre eklenen gürültü, spesifik kelimeleri (isimler, tarihler, özel itiraflar) vektörel uzayda bulanıklaştırır (Tersine mühendisliği bozar). Ancak, genel anlamsal yönelimi (Semantic Similarity) korur. Yani yapay zeka asistanı RAG sorgusu yaptığında, "Eşiyle yaşadığı bir iletişim problemi" bağlamını bulabilir ama "Bugün saat 3'te eşim Ayşe ile arabada kavga ettik" detayını asla geri çağıramaz (vektörün içinden bu veri matematiksel olarak silinmiştir).

4. Epsilon ( $ϵ$ ) Kalibrasyonu ve Güvenlik Bütçesi

Diferansiyel gizlilikte temel kural şudur: Yüksek Gürültü (Düşük $ϵ$ ) = Yüksek Gizlilik, Düşük Analitik Fayda.

Humindx, Bağlam Odalarına göre (Context Rooms) farklı $ϵ$ güvenlik bütçeleri uygular:

Bağlam Odası	$ϵ$ (Gizlilik Bütçesi)	Açıklama
Klinik Oda	$ϵ \to 0$ (Maksimum Gürültü)	Çok yüksek gürültü eklenir. Vektör tersine mühendisliği matematiksel olarak imkansızdır. Bağlamsal çağrışım (RAG) kapasitesi düşüktür ama gizlilik mutlak önceliktir.
Sosyal Oda	$ϵ = 1.0$ (Orta-Yüksek Gürültü)	Spesifik olaylar bulanıklaştırılırken, genel ilişki dinamikleri (RAG için) korunur.
Profesyonel Oda	$ϵ = 3.0$ (Dengeli Gürültü)	İş simülasyonları ve kariyer koçluğu. Analitik fayda (Job Fit skorları) ve bağlamsal hafıza için gürültü seviyesi optimize edilmiştir.

5. Şifreleme ve Anahtar Yönetimi (At-Rest & In-Transit)

Gürültü eklenmiş vektörler veritabanında saklanırken de ek standart siber güvenlik prosedürlerine tabi tutulur:

Data At-Rest (Duran Veri Şifrelemesi): PostgreSQL (pgvector) veritabanındaki disk hacimleri AES-256 ile şifrelenir (TDE — Transparent Data Encryption).
KMS Entegrasyonu: Şifreleme anahtarları (Master Keys), AWS KMS (veya HashiCorp Vault) üzerinde yönetilir ve 90 günde bir otomatik rotasyona (Key Rotation) girer.
Data In-Transit (Akan Veri Şifrelemesi): Tüm API Gateway ↔ Microservice ve Microservice ↔ Veritabanı iletişimleri mTLS (Mutual TLS) ve TLS 1.3 üzerinden şifrelenir.

Son Güncelleme: 2026-04-15 — Embedding Inversion Attack savunması, Gaussian Noise Injection formülü, Epsilon kalibrasyon tablosu ve şifreleme/anahtar yönetimi tanımlandı.

Vektörel Gizlilik ve Diferansiyel Gürültü (Vector Privacy & Differential Privacy) ​

1. Tehdit Modeli (Threat Model): Vektörel Tersine Mühendislik ​

2. Kara Kutu Protokolü (Raw Text Immolation) ​

3. Gürültü Enjeksiyonu (Noise-Injected Embeddings) ​

3.1. Matematiksel Mekanizma ​

3.2. RAG Üzerindeki Etkisi (Semantic Preservation) ​

4. Epsilon (ϵ) Kalibrasyonu ve Güvenlik Bütçesi ​

5. Şifreleme ve Anahtar Yönetimi (At-Rest & In-Transit) ​