Google, 2023 yılında 671 milyar parametreli bir model tanıttığında yapay zeka dünyası dikkat kesildi. Bu model, tek bir soruyu yanıtlarken yalnızca 37 milyar parametreyi devreye sokuyordu. O günden bugüne, açık yazılım modellerinin en güçlüsü yine aynı yaklaşımı benimsedi. Mixture of Experts, kısaca MoE, yapay zeka dünyasında sessiz sedasız bir devrim yaratıyor. 2025 itibarıyla en iyi on açık kaynaklı modelin tamamı bu mimariyi kullanıyor.
MoE Nedir ve Geleneksel Modellerden Neden Farklıdır?
Geleneksel dil modelleri, her soru geldiğinde ağdaki tüm parametreleri çalıştırır. Bu yapıya literatürde «yoğun model» adı verilir. Yoğun bir model ne kadar büyükse, o kadar akıllı kabul edilir. Ancak bu zeka bir bedel taşıyor: Hesaplama gücü ve enerji tüketimi doğrudan parametre sayısıyla orantılı artar.
2023 yılının başında, açık yazılım ağırlıklı en yetkin model 70 milyar parametreli bir yoğun yapıydı. Araştırmacılar daha zeki modeller istiyordu fakat donanım maliyetleri dayanılacak seviyeyi geçmişti. Tam bu noktada MoE mimarisi sahneye çıktı.
MoE yaklaşımında devasa bir model birden fazla küçük uzmana bölünür. Her uzman aslında kendi başına bir sinir ağıdır. Gelen soru tüm uzmanlara aynı anda gitmez. Bunun yerine bir yönlendirici mekanizma soruyu en uygun iki veya dört uzmana gönderir. Geri kalan uzmanlar ise boşta bekler. Bu basit fikir, hesaplama maliyetini dramatik şekilde düşürürken modelin toplam kapasitesini korur.
MoE fikri aslında yeni değil. Temel kavram 1991 yılında Robert Jacobs, Michael Jordan, Steven Nowlan ve Geoffrey Hinton'un yayımladığı bir makaleye dayanıyor. O günden bu yana ölçek değişti, ama temel mantık aynı kaldı: Böl ve özelleş.
MoE Mimarisi Nasıl Çalışır? Çekirdek Mekanizmalar
MoE sisteminin kalbi «seyrek kapılama» olarak adlandırılan mekanizmadır. Bu yapı, girdi verisini değerlendirip hangi uzmanın işe koyulacağına karar verir. Klasik bir sinir ağı katmanında her nöron her girdiyi işler. MoE katmanında ise kapı mekanizması bir tür trafik polisi görevi görür.
Soru metni modele girdiğinde yönlendirici bu metni bir vektöre dönüştürür. Daha sonra her uzmanın uzmanlık alanını temsil eden vektörlerle karşılaştırma yapar. Matematiksel olarak bu, basit bir iç çarpım işlemidir. En yüksek skoru alan uzmanlar seçilir ve yalnızca onlar hesaplama yapar.
Google'ın 671 milyar parametreli modelinde bu yapı 256 yönlendirilmiş uzman ve bir paylaşılan uzmandan oluşuyor. Her MoE katmanında yönlendirici girdiyi yalnızca sekiz uzmana gönderir. Bu sayede 671 milyar parametreden oluşan devasa bir ağ, her tahminde yalnızca 37 milyarını aktif eder. Geri kalan 634 milyar parametre adeta uyku modundadır.
Mixtral 8x7B ise daha basit bir yapı kullanıyor. Sekiz uzmanı olan bu modelde her belirteç yalnızca iki uzmana yönlendiriliyor. Toplam 46,7 milyar parametreye sahip olmasına rağmen, çıktı hızı 13 milyar parametreli bir yoğun modelle neredeyse aynı.
Uzman Seçiminde Kararsızlık Sorunu
MoE mimarisinin en çok eleştirilen yanı, yönlendiricinin uzman seçimindeki tutarsızlıktır. Araştırmacılar bunu «uzman çöküşü» olarak adlandırıyor. Yönlendirici belirli bir uzmanı sürekli tercih etmeye başlarsa diğer uzmanlar zamanla işlevsiz hale gelir. Bu durum modelin çeşitliliğini bozar ve devasa parametre havuzunun büyük kısmını gereksiz kılar.
Bunu önlemek için geliştiriciler «gürültü faktörü» ekliyor. Yönlendiricinin hesapladığı skorlara rastgele bir gürültü değeri karıştırılıyor. Bu yöntem, az kullanılan uzmanlara da şans veriyor. Buna ek olarak yük dengeleme kaybı adı verilen bir ceza fonksiyonu kullanılıyor. Sistem, uzmanlar arasındaki yük dağılımının eşit olmasını zorluyor. Modern MoE modellerinde bu iki teknik birlikte uygulanıyor.
Başka bir sorun ise uzman kapasite limiti. Her uzman bir işlem grubunda işleyebileceği belirteç sayısı bakımından üst sınıra sahip. Bu sınırı aşan belirteçler ya düşürülüyor ya da yedek bir uzmana yönlendiriliyor.
MoE Modellerin Gerçek Dünyadaki Performansı
Teorik avantajlar güzel görünür fakat gerçek dünya sonuçları daha da çarpıcı. DeepSeek ekibi V3 modeliyle bu mimarinin sınırlarını zorladı. Model 671 milyar toplam parametreye sahip olmasına rağmen her belirteç üretiminde 37 milyar aktif parametre kullanıyor. Eğitim sürecinde 14,8 trilyon belirteçlik devasa bir veri seti işlendi.
Bu yapı, modelin kodlama ve matematik gibi zorlu görevlerde bile üst düzey performans göstermesini sağlıyor. DeepSeek, kodlama görevlerinde birçok rakibini geride bırakıyor. Matematik problemlerinde ise adım adım muhakeme yeteneği dikkat çekiyor. Kısacası yoğun bir 70 milyar parametreli modelin altına düşmemek kaydıyla, çok daha geniş bir bilgi birikimine erişiyor.
Bunun temel sebebi her uzmanın farklı bilgi türüne odaklanması. Bir uzman kodlama sözdizimini öğrenirken diğeri matematiksel mantığı içselleştirir. Yönlendirici sorunun türüne göre doğru uzmanı seçtiğinde model, soruya özelleşmiş bir beyinle yanıt verir. Yoğun modellerde ise tek bir ağ tüm bilgiyi aynı anda işlemek zorunda kalır.
DeepSeek-R1'in eğitimi yaklaşık 5,6 milyon dolara mal oldu. Buna karşılık GPT-4'ün eğitiminin 50 ile 100 milyon dolar arasında olduğu tahmin ediliyor. Bu farkın en büyük mimari sebebi, MoE sayesinde hesaplama maliyetlerinin ciddi oranda düşmesi.
MoE Mimarisinin Maliyet ve Altyapı Etkisi
Donanım tarafında MoE farklı bir mühendislik düşünüşü gerektiriyor. Yoğun bir model tek bir güçlü ekran kartında çalışabilir. MoE modeli ise birden fazla karta yayılmayı zorunlu kılıyor. Çünkü uzmanlar fiziksel olarak farklı bellek birimlerinde tutuluyor ve herhangi bir belirteç herhangi bir uzmana gidebileceğinden, tüm uzmanların bellekte hazır bulundurulması şart.
Bu durum başlangıçta bir dezavantaj gibi görünür. Bellek tüketimi yüksek çünkü tüm parametreler GPU belleğinde yer almalı. Ancak ölçek arttığında denge değişir. Aynı hesaplama bütçesiyle çok daha büyük bir model eğitebilirsiniz. Yani elinizdeki ekran kartı sayısı sabitken MoE kullanarak modelin toplam kapasitesini katbekat artırabilirsiniz.
Enerji verimliliği başka bir kritik faktör. Her belirteç üretimi için tüm ağı çalıştırmak yerine küçük bir kısmını çalıştırmak ciddi bir enerji tasarrufu sağlıyor. Optimize edilmiş donanımlarda MoE modelleri, yoğun modellere kıyasla iki ile beş kat daha hızlı çıktı üretebiliyor. Veri merkezleri için bu doğrudan elektrik faturasına yansıyan bir fark demek.
2026 başına gelindiğinde, açık kaynaklı sınır modellerinin yüzde yetmişinden fazlası MoE mimarisini benimsemiş durumda. Bu oran, mimarinin bir niş teknik olmaktan çıktığını ve sektör standardı haline geldiğini net bir biçimde gösteriyor.
Gelecek: MoE Sınırlarını Zorluyor
Şu anda en yaygın uygulama, her soru için iki veya sekiz uzman seçmek. Ancak araştırmacılar bu sayıyı artırmanın yollarını arıyor. Daha fazla uzman aktif etmek modelin daha zengin bağlamlar kurmasını sağlayabilir. Buna karşın uzman sayısı arttıkça yönlendiricinin işi de zorlaşır.
Fine-grained MoE adı verilen yeni yaklaşımda az sayıda büyük uzman yerine çok sayıda küçük uzman kullanılıyor. Bu yapı yönlendiricinin daha hassas seçimler yapmasına imkan tanıyor. Her küçük uzman çok dar bir alana odaklandığından uzmanlık derecesi artıyor. Böylece belirteç düzeyinde çok daha ince ayarlı yönlendirmeler mümkün hale geliyor.
Araştırmacılar ayrıca yönlendiriciyi eğitmenin zorluklarını da çözüyor. Geleneksel gradyan iniş yöntemleri MoE yapılarında istikrar sorunu yaratabiliyor. Bu yüzden özel optimizasyon algoritmaları geliştiriliyor. Amaç, yönlendiricinin uzmanları dengeli kullanmasını sağlarken modelin genel öğrenme kalitesini korumak.
2026'da MoE, hibrit ve çok modlu yapılara da uzanıyor. GPT-5 gibi modeller, kodlama muhakemesi veya görsel işleme gibi farklı yeteneklere sahip uzmanları dinamik olarak devreye sokabiliyor. Bu sayede tek bir model çok farklı görev türlerinde uzmanlaşabiliyor.
671 milyar parametreye sahip bir modelin her soruda yalnızca 37 milyarını kullanması, yapay zeka ölçeklemesinde yeni bir sayfa açtı. Bu yaklaşım sayesinde devasa modeller artık yalnızca büyük şirketlerin değil, daha geniş bir topluluğun erişimine uzanıyor. Sizce MoE mimarisi gelecekte yoğun modellerin yerini tamamen mi alacak, yoksa ikisi yan yana mı var olmaya devam edecek?
yorumlar