Google DeepMind, 3 Nisan 2026'da Gemma 4 model ailesini yayımladı ve açık kaynak ekosisteminde ciddi bir etki yarattı. Bu yeni ailenin dört modelden oluştuğu, 2.3 milyardan 31 milyara kadar uzanan bir parametre yelpazesine sahip olduğu biliniyor. Ancak tüm dikkatlerin çektiği tek isim var: 26B A4B modeli. Sadece 3.8 milyar aktif parametreyle inference yaparak 27 milyar parametreli yoğun modelleri geride bırakması, yapay zeka topluluğunda haklı bir hayranlık uyandırdı. Peki bu nasıl mümkün oldu?
Gemma 4 ve Açık Kaynaklı MoE Mimarisi
Gemma 4, Google'ın Gemini 3 araştırmasından doğan bir model ailesi. Önceki Gemma sürümlerinde kullanılan kısıtlı lisanslama bu sefer Apache 2.0 ile değiştirilmiş durumda. Bu lisans değişikliği, geliştiricilerin modeli ticari ürünlerine entegre etmesini hiçbir belirsizlik olmadan mümkün kılıyor. Gemma ailesi tarihinde ilk kez böylesi kapsamlı bir ticari kullanım özgürlüğü sunuluyor.
MoE, yani Uzmanların Karışımı mimarisi yeni bir fikir değil. Temel mantık şu şekilde işliyor: Model içinde birden fazla alt ağ, yani uzman bulunuyor. Girdi geldiğinde bir yönlendirici mekanizması bu girdiyi en uygun uzmanlara yönlendiriyor. Her işlemde tüm parametreler devreye girmiyor, sadece ilgili uzmanlar hesaplama yapıyor. Bu yapıya seyrek aktifleşme adı veriliyor.
Gemma 4'ün 26B A4B modelinde toplam 25.2 milyar parametre var. Ancak tek bir tahmin üretirken bunların sadece 3.8 milyarı aktif hale geliyor. Model 128 uzman ve 1 paylaşımlı uzman içeriyor; her token için yönlendirici bunların arasından 8'ini seçiyor. Kalan parametreler, o anki görev için gerekli olmadığı sürece beklemede kalıyor. Bu durum, bellek tüketimini ve hesaplama maliyetini büyük ölçüde düşürüyor.
Gemma'nın MoE uygulaması DeepSeek ve Qwen'den farklı bir yolla tasarlanmış. Diğer modeller MLP bloklarını seyrek uzmanlarla değiştirirken, Gemma MoE bloklarını standart MLP bloklarının yanına ayrı katmanlar olarak ekliyor ve çıktılarını topluyor. Bu alışılmadık tasarım kararı, mimari basitliği pahasına biraz verimlilikten ödün veriyor; ancak eğitim ve dağıtım açısından işleri kolaylaştırıyor.
3.8 Milyar Parametre Nasıl 27 Milyarı Geçiyor?
Burada kafa karıştıran nokta şu: Toplam parametre sayısı 25.2 milyar, aktif parametre sayısı 3.8 milyar. Karşılaştırma ise 27 milyar parametreli yoğun modellerle yapılıyor. Yoğun modellerde her tahmin için tüm 27 milyar parametre hesaba katılır. MoE modelinde ise yönlendirici, 3.8 milyarlık en verimli uzman kombinasyonunu seçiyor ve geri kalanı devre dışı bırakıyor.
Google DeepMind'ın kendi tanımına göre Gemma 4, birim parametre başına zeka verimliliğini maksimize etmek üzere tasarlandı. Hedef devasa parametre yığınıyla güç kazanmak değil, her parametrenin işe yarar oranını artırmak. MoE yapısı bu hedefle birebir örtüşüyor.
Google'ın paylaştığı benchmark sonuçları bu verimliliği net gösteriyor. 26B A4B modeli MMMLU çok dilli sorularında yüzde 82.6, AIME 2026 matematik sınavında yüzde 88.3, LiveBench v6 kodlama testinde yüzde 77.1 oranlara ulaşmış. Aynı testlerde Gemma 3 27B sırasıyla yüzde 67.6, yüzde 20.8 ve yüzde 29.1 seviyelerinde kalmış. Yani 26B A4B, matematikte dört kat, kodlamada ise neredeyse üç kat üstün performans sergiliyor. Hesaplama maliyeti ise 4 milyar parametreli küçük bir model seviyesinde kalıyor.
Seyrek Aktifleşmenin Donanım Üzerindeki Etkisi
Seyrek aktifleşme teorik olarak cazip görünse de pratikte donanım uyumu sorun çıkarabiliyor. Geleneksel grafik işlemcileri yoğun matris çarpımları için optimize edildi. MoE modellerinde ise yönlendirici işlemleri ve uzmanlara dağıtımlar ekstra bellek bant genişliği gerektiriyor.
Gemma 4'ün 26B A4B modeli 4-bit nicelemeyle yaklaşık 16 GB video belleğinde çalışıyor. 31B yoğun modelin 18 GB bellek gerektirdiği düşünüldüğünde bu fark belirgin. Ancak 8 GB bellekli bir ekran kartında çalıştırılabildiği yönündeki iddialar gerçekçi değil; model ağırlığı tek başına bu sınırı aşıyor. Bununla birlikte tüketicinin elindeki 16 GB'lık GPU'lar için model erişilebilir bir seçenek konumunda. Dizüstü bilgisayarlar ve küçük sunucular için bu bellek avantajı kritik önem taşıyor.
Burada dikkat edilmesi gereken bir ayrım var: Toplam model ağırlığı yine de 25.2 milyar parametrelik bir dosya anlamına geliyor. Diske kaydedilirken model küçük değil. Sadece çalışma anında bellek kullanımı düşük kalıyor. Bu ayrımı yapmak, modeli yerel ortamda kuracak geliştiriciler için hayati önem taşıyor.
Benchmark Sonuçları: Hangi Model Öne Çıktı?
Google'ın resmi benchmark tablosu, Gemma 4 ailesinin her boyutunun önceki nesle kıyasla ciddi bir sıçrama yaptığını gösteriyor. Özellikle τ2-bench ajan temelli görev testinde 26B A4B modeli yüzde 85.5, 31B modeli ise yüzde 86.4 oranlara ulaşarak Gemma 3 27B'nin yüzde 6.6'lık skorunu rahatlıkla geride bırakmış.
E2B modelinin elde ettiği sonuçlar ise belki de en çarpıcı olanı. 2.3 milyar etkili parametresiyle bazı görevlerde Gemma 3 27B'yi geçmesi, parametre verimliliğinin sınırlarını zorladığını gösteriyor. E2B ve E4B modellerinde kullanılan PLE, yani Katman Bazlı Gömme mimarisi bu başarının arkasındaki anahtar. Standart dönüştürücüler her token için girişte tek bir gömme vektörü üretirken, PLE her katman için ayrı düşük boyutlu bir koşullandırma yolu ekliyor. Böylece her katman, sadece ilgili olduğunda token'a özel bilgi alabiliyor. Bu yapı sayesinde E2B, desteklenen mobil cihazlarda 1.5 GB RAM altında çalışabiliyor.
Açık Kaynak Ekosisteme Etkisi
Apache 2.0 lisansıyla sunulan Gemma 4, özellikle küçük ve orta ölçekli şirketler için önemli bir fırsat oluşturuyor. Daha önce kısıtlı lisanslı modellerde ticari kullanım belirsizlikleri yaşanıyordu. Artık bir startup, Gemma 4'ü ürününe gömebilir ve kaynak kodunu açıklayarak dağıtabilir.
26B A4B modelinin bu ekosistemdeki yeri özel. Çoğu geliştirici, büyük modelleri bulut üzerinde çalıştırmak zorunda kalıyor. Bu durum maliyeti artırıyor ve veri gizliliği riskleri doğuruyor. Gemma 4'ün düşük bellek gereksinimi, modellerin şirket içi sunucularda veya geliştirici bilgisayarlarında çalışmasına olanak tanıyor. Verilerin dışarı çıkması riski böylece ortadan kalkıyor.
Tüm Gemma 4 modelleri 262K kelime dağarcığı paylaşıyor ve 256K token bağlam penceresi sunuyor. Çok dilli destek 140 dili kapsıyor. Görsel ve video girişi tüm modellerde mevcut; ses girişi ise yalnızca E2B ve E4B edge modellerinde destekleniyor. İşlev çağrısı yani function calling ise tüm boyutlarda yerel olarak destekleniyor. Bu donanım, ajan tabanlı iş akışları ve otonom araçlar geliştirmek isteyenler için güçlü bir temel oluşturuyor.
MoE'nin Geleceği ve Sınırları
MoE mimarisi, parametre verimliliği konusunda şu anki en güçlü aday olarak öne çıkıyor. Ancak bazı sınırlamalar mevcut. Yönlendirici mekanizmasının eğitimi, yoğun modellere göre daha karmaşık olabiliyor. Uzmanların dengesiz yüklenmesi sorunu, bazı uzmanların aşırı çalışıp diğerlerinin boş kalmasına yol açabiliyor.
Google DeepMind'ın açıklamaları, yönlendirici optimizasyonu üzerinde ciddi çalışma yapıldığını gösteriyor. Gemma'nın MLP bloklarını tamamen değiştirmek yerine yanlarına MoE katmanları ekleme stratejisi, bu dengesizlik riskini kısmen azaltıyor. Yine de her MoE modelinde olduğu gibi eğitim stabilitesi yoğun modellere göre daha hassas bir denge gerektiriyor.
Gelecek açısından bakıldığında, MoE yapısının edge cihazlardaki yeri daha da sağlamlaşacak gibi görünüyor. Telefonlar, tabletler ve gömülü sistemler için bellek verimliliği her şeyden önemli. 3.8 milyar aktif parametreyle bu seviyede performans gösteren bir model, mobil yapay zeka uygulamaları için yeni kapılar aralıyor. Google DeepMind'ın LiteRT-LM altyapısıyla E2B'nin cep telefonlarında neredeyse sıfır gecikmeyle çalışabiliyor olması, bu vizyonun somut bir kanıtı.
Gemma 4'ün 26B A4B modeli, yapay zeka dünyasında «daha azla daha fazlasını yapmak» ilkesinin somut bir kanıtı olarak duruyor. Toplam 25.2 milyar parametreye sahipken sadece 3.8 milyarını kullanarak 27 milyarlık modelleri geçmesi, MoE mimarisinin potansiyelini net bir şekilde gözler önüne seriyor. Sizce bu seyrek aktifleşme yaklaşımı, gelecekte tüm büyük dil modellerinin standart mimarisi haline gelir mi, yoksa yoğun modeller belirli görevlerde üstünlüğünü korumaya devam mı edecek?
yorumlar