Sekiz yıl önce derin öğrenme modelleri düşük çözünürlüklü görüntüleri sınıflandırmakla yetiniyordu. Bugün ise tıp görüntülerinden otonom araçlara kadar hayatımızın pek çok alanında kritik kararlar alıyor. Ne var ki araştırmacılar son yıllarda bu modellerin ince detayları, yani yüksek frekanslı bileşenleri sistematik biçimde gözden kaçırdığını keşfetti. Bu eğilim «spektral önyargı» olarak adlandırılıyor ve derin öğrenmenin en köklü yapısal sorunlarından birine işaret ediyor.
Spektral Önyargı Nedir ve Derin Öğrenmeyi Nasıl Etkiler?
Spektral önyargı, derin sinir ağlarının eğitim sürecinde düşük frekanslı özellikleri yüksek frekanslı olanlara tercih etme eğilimini ifade ediyor. Kavramı somutlaştırmak için ses sistemlerinden yararlanmak yerinde olur. Bir müzik parçasında derin bas tonları düşük frekansı, ince tınılar ve cırtlak sesler yüksek frekansı temsil eder. Derin öğrenme modelleri de veriyi işlerken benzer bir filtreleme yapıyor. Geniş çizgiler, düz renk geçişleri ve büyük şekilleri rahatça öğreniyor; fakat ince kenarlar, küçük dokular ve hızlı değişen desenler modellerin radarına girmekte zorlanıyor.
Bu durumun temel nedeni sinir ağlarının ağırlıklarını güncelleme biçiminde yatıyor. Gradyan inişi algoritması, hata payını azaltmak için en kolay yolu seçme eğiliminde. Düşük frekanslı bileşenler geniş alanları kapsadığı için hata fonksiyonuna daha büyük katkı sağlıyor. Bu yüzden model önce bu kolay kazanımları hedefliyor. Yüksek frekanslı detaylar ise dar bir alanda yer aldığı için toplam hataya küçük bir etki yapıyor. Model ince ayrıntıları öğrenmeyi sonraya bırakıyor ya da hiç öğrenemiyor.
Sorun özellikle koordinat ağlarında çok daha belirgin hale geliyor. Bu mimariler, görüntüleri piksel piksel oluşturmak için koordinat bilgilerini doğrudan girdi olarak kullanıyor. Standart koordinat ağları, giriş uzayındaki yüksek frekanslı varyasyonları yakalamakta ciddi güçlük çekiyor. Araştırmacılar bunu aşmak için frekans kodlaması adı verilen bir teknik geliştirdi. Bu yöntem koordinatları farklı ölçeklerde sinüs ve kosinüs fonksiyonlarından geçirerek yüksek frekans bilgilerini ağa zorla sunuyor. Buna karşın bu yaklaşım kök nedeni ortadan kaldırmıyor, yalnızca semptomları örtbas ediyor.
Çok Katmanlı Derin Öğrenme ile Spektral Önyargının Üstesinden Gelme
Ronglong Fang ve Yuesheng Xu, bu köklü soruna yapısal bir çözüm getirdi. İkili, Çok Katmanlı Derin Öğrenme yöntemini geliştirerek modelin farklı frekans bantlarını dereceli biçimde öğrenmesini sağladı. Çalışma Ekim 2024'te arXiv'de yayımlandı ve NeurIPS 2024 konferansında poster olarak sunuldu. Yöntemin temel fikri oldukça sade: Ağı tek bir devasa yapı yerine birden fazla «derece»ye bölmek. Her derece, belirli bir frekans aralığından sorumlu çalışıyor.
Geleneksel bir derin sinir ağını düşünün. Girdi verisi katmanlar boyunca ilerlerken her katman tüm frekans bileşenlerini işlemeye çalışıyor. Bu durum, düşük frekanslı bileşenlerin her aşamada baskın olmasına yol açıyor. MGDL ise süreci temelden değiştiriyor. Birinci derece yalnızca düşük frekanslı özellikleri çıkarıyor. İkinci derece, birinci derecenin kalan hatasından daha yüksek frekansları hedefliyor. Bu yapı en son dereceye kadar kademeli olarak ilerliyor. Sonuç olarak her derece kendi frekans bandında uzmanlaşmış oluyor. Araştırmacıların temel gözlemi şu: Düşük frekanslı fonksiyonların bileşimi, yüksek frekanslı bir fonksiyonu etkili biçimde yaklaşıklayabiliyor.
Normalizasyon Katmanlarının Yeni Rolü
Bu yaklaşımın başarısında normalizasyon katmanları kritik bir işlev üstleniyor. Toplu normalizasyon ve katman normalizasyonu derin öğrenmede yaygın olarak kullanılıyor, genellikle eğitim kararlılığını artırmak için devreye alınıyor. MGDL çerçevesinde ise normalizasyon katmanları frekans ayırıcı bir araca dönüştürüldü. Her dereceye ait alt ağın çıkışına uygulanan normalizasyon, o alt ağın yalnızca kendi frekans bandındaki özellikleri aktarmasını sağlıyor. Başka bir deyişle normalizasyon katmanları, istenmeyen frekans sızıntılarını engelleyen bir filtre görevi görüyor.
Deneysel sonuçlar bu yaklaşımın etkisini açıkça gösteriyor. Araştırmacılar standart derin sinir ağları ile MGDL'yi sentetik veri kümeleri, manifold verileri, renkli görüntüler ve MNIST veri seti üzerinde karşılaştırdı. Yüksek frekanslı bileşenlerin yoğun olduğu görevlerde MGDL, tek dereceli yöntemlere göre belirgin şekilde üstün performans sergiledi. Göreli karesel hata metriğinde MGDL, tüm deney ayarlarında daha düşük değer elde etti. Model düşük frekanslı genel yapıyı öğrenirken ince detayları da gözden kaçırmadı. Bu durum, spektral önyargının tekniğin yapısal tasarımıyla aşılabildiğini kanıtlıyor.
Bu Bulgunun Pratik Sonuçları ve Geleceği
Spektral önyargının çözülmesi, derin öğrenmenin uygulama alanlarını doğrudan genişletiyor. Tıp alanında manyetik rezonans ve bilgisayarlı tomografi görüntülerinde ince damar yapılarını tespit etmek yüksek frekanslı bilgi gerektiriyor. Bir tümörün sınırlarını net bir şekilde çizmek de aynı şekilde ince ayrıntılara bağlı. MGDL benzeri yaklaşımlar, bu tıbbi görüntüleme görevlerinde tanı doğruluğunu artırma potansiyeli taşıyor.
Otonom sürüş sistemleri de bu gelişmeden doğrudan etkileniyor. Araç kameraları, yol yüzeyindeki küçük çatlakları ve uzaktaki trafik işaretlerini algılamak için yüksek frekanslı verileri işlemek zorunda. Mevcut modeller bu ince detayları kaçırarak güvenlik riski oluşturabiliyor. Frekans bazlı öğrenme stratejileri, otonom sistemlerin algı hassasiyetini bir üst seviyeye taşıyabilir. Öte yandan yöntemin hesaplama maliyeti üzerindeki etkisi henüz tam olarak ölçülmedi. Her derece için ayrı alt ağlar kurmak, model parametre sayısını artırıyor. Bu durum özellikle kenar cihazlarda dağıtım sırasında bir kısıt olarak karşımıza çıkıyor.
Derin öğrenme yıllardır daha derin, daha geniş ağlar inşa etme yönünde ilerledi. Spektral önyargı araştırmaları, bu paradigmanın eksik yanını gün yüzüne çıkardı. Sadece büyütmek her zaman çözüm değil; bazen yapının kendisini yeniden düşünmek gerekiyor. MGDL bu bakış açısının somut bir örneğini oluşturuyor. Modelin frekans spektrumuna nasıl baktığını değiştirerek, onun göremediği detayları görünür kılıyor.
Sizce derin öğrenme modellerinin «göremediği» bu tür kör noktalar, yapay zekanın güvenilirliği konusunda bizi ne ölçüde endişelendirmeli? Günlük hayatta kullandığımız yapay zeka sistemlerinde bu algı eksikliklerini fark etmiş miydiniz?
yorumlar