oku
Teknoloji

Mixture of Experts: Transformer'ı Yenecek Mimari mi?

Mavi ışıklarla aydınlatılmış veri merkezi sunucuları, Mixture of Experts mimarisini temsil ediyor.
Mavi ışıklarla aydınlatılmış veri merkezi sunucuları, Mixture of Experts mimarisini temsil ediyor.

Yaklaşık otuz beş yıl önce yapay zeka araştırmacıları, tek bir devasa modele her şeyi öğretmenin yerine, farklı konularda uzmanlaşmış küçük modelleri bir araya getirmenin daha verimli olabileceğini öne sürdü. 1991 yılında Robert Jacobs, Michael Jordan, Steven Nowlan ve Geoffrey Hinton, «Adaptive Mixtures of Local Experts» başlıklı çalışmada bu fikri sesli dile getirdi. O dönemde donanım bu yaklaşımı hayata geçirecek kadar güçlü değildi. Bugünse Mixture of Experts (Uzman Karışımı) adıyla büyük dil modellerinin kalbine yerleşmiş durumda. 2025 itibarıyla en güçlü on açık kaynaklı modelin tamamı MoE mimarisini kullanıyor.

Transformer'dan Uzman Karışımına: Mimari Değişimin Arkasındaki İhtiyaç

Klasik büyük dil modelleri «yoğun» (dense) yapıdadır. Yani modele bir soru sorduğunuzda, içindeki her parametre hesaplamaya katılır. Tıpkı basit bir kan çekme işlemi için tüm hastane personelinin ameliyathaneye girmesi gibidir: cerrah, hemşire, temizlik görevlisi hepsi aynı anda aynı işi yapar. Bu durum devasa bir israf yaratır.

Google araştırmacıları 2017 yılında transformer mimarisini yayımladığında, dikkat mekanizması sayesinde dil işlemede devrim niteliğinde bir sıçrama sağlandı. Ancak transformerın yoğun yapısı, model büyüdükçe hesaplama maliyetini katlanarak artırdı. Bir modelin parametre sayısını iki katına çıkardığınızda, eğitim ve çalıştırma maliyeti de buna yakın oranda yükseliyor. Yüzlerce milyar parametreli modellerde bu durum sürdürülebilir hale gelmiyor.

İşte bu noktada Uzman Karışımı devreye giriyor. MoE mimarisi, modelin içinde birden fazla «uzman» alt ağ barındırır. Her uzman farklı bir konuda daha yetkin hale gelir. Modelin girişine gelen veri önce bir yönlendirici (router) adıverilen bileşene ulaşır. Bu yönlendirici, verinin içeriğine bakar ve hangi uzmanın bu işi en iyi yapabileceğine karar verir. Sadece seçilen uzmanlar aktif olur, geri kalanlar boşta kalır.

Uzman Karışımı Nasıl Çalışır? Temel Bileşenler ve Mekanizma

MoE mimarisinin dört temel bileşeni vardır: uzmanlar, seyreklik (expert sparsity), yönlendirici ve çıktı birleştirme mekanizması. Uzmanlar aslında birer küçük yapay sinir ağıdır. Her birinin kendine özgü ağırlıkları vardır. Bir MoE katmanında 8, 16, 64 hatta 256 adet uzman bulunabilir. DeepSeek-V3 modelinde 256 uzman yer alıyor ve her hesaplama adımında sadece 8'i aktif olarak çalışıyor. Toplam parametre sayısı 671 milyar olan bu model, her token için yalnızca 37 milyar parametreyi devreye sokuyor.

Yönlendirici MoE'nin beynidir. Gelen kelime veya token vektörünü alır, her uzmanın bu vektörü ne kadar iyi işleyebileceğini puanlar. Genellikle en yüksek puan alan iki uzman seçilir ve sonuçları yönlendiricinin güven oranına göre ağırlıklarak birleştirilir. Bu sayede model, tıbbi bir soru geldiğinde tıp uzmanını, hukuki bir soru geldiğinde hukuk uzmanını devreye sokar.

Yoğun modellerde 70 milyar parametreli bir model her token için 70 milyar hesaplama yapar. MoE mimarisindeyse toplam parametre sayısı 46,7 milyar olan Mixtral 8x7B, her token için yalnızca 12 milyar parametrelik bir yoğun model kadar hesaplama yapar. Bu durum, modelin bilgi kapasitesini korurken çalıştırma maliyetini dramatik şekilde düşürür.

Yük Dengesizliği ve Uzman Çöküşü Problemi

MoE mimarisinin en büyük zayıflığı yönlendiricinin davranışından kaynaklanır. Yönlendirici zamanla belirli uzmanları aşırı tercih etmeye başlayabilir. Örneğin 64 uzmandan 5'i sürekli çalışırken 59'u neredeyse hiç kullanılmaz. Bu duruma «uzman çöküşü» (expert collapse) adı verilir.

Uzman çöküşü olduğunda model etkinliğini kaybeder. Çünkü MoE'nin gücü, uzmanların farklı alanlara uzmanlaşmasından gelir. Hepsi aynı işi yapmaya başlarsa, sistem bir yoğun modele dönüşür fakat yönlendirici ek yükü yüzünden yoğun modelden daha yavaş çalışır.

Araştırmacılar bu sorunu çözmek için iki temel teknik geliştirdi. Birincisi «yük dengeleme kaybı» (load balancing loss): yönlendiricinin kayıp fonksiyonuna ek bir ceza terimi eklenir. Bu ceza, yönlendiriciyi uzmanların kullanımını eşit dağıtmaya zorlar. İkincisi «uzman kapasite sınırı»: her uzmanın bir toplu işte (batch) işleyebileceği maksimum token sayısı belirlenir. Sınırı aşan tokenlar ya düşürülür ya da yedek bir uzmana yönlendirilir.

Ancak yük dengeleme kendi içinde bir ikilem yaratır. Çok güçlü bir dengeleme, modelin uzmanlaşma yeteneğini kırar. Çok zayıf bir dengeleme ise uzman çöküşüne yol açar. DeepSeek-V3 bu dengeyi ayarlamak için dinamik bir yük dengeleme mekanizması kullanıyor ve yönlendiriciye gürültü katmanı ekleyerek keşfetme alanını genişletiyor.

Dağıtık Çalıştırma: MoE'nin Pratikteki En Büyük Engeli

MoE mimarisini teoride anlamak kolaydır. Pratikte çalıştırmak ise ciddi bir mühendislik problemidir. 671 milyar parametreye sahip bir MoE modelini tek bir grafik işlemci kartına sığdırmak imkansızdır. Modeli birden fazla karta dağıtmanız gerekir.

Dağıtık çalıştırma, modelin farklı bölümlerinin farklı donanım birimlerinde çalışmasıdır. Yoğun modellerde bu işlem nispeten daha basittir; tüm parametreler ardışık olarak işlemciye aktarılır. MoE'de ise durum farklıdır. Yönlendirici kararı verdikten sonra, ilgili uzmanın bulunduğu karta veri gönderilmelidir. Bu iletişim süresi, özellikle uzmanlar farklı sunuculardaysa ciddi bir gecikme yaratır.

Uzmanların hafıza üzerindeki yerleşim planı bu yüzden kritik önem taşır. Sık kullanılan uzmanlar hızlı erişime sahip bellek birimlerinde tutulmalıdır. Az kullanılan uzmanlar ise daha yavaş ama daha büyük depolama alanlarına yerleştirilebilir. Bu optimizasyon yapılmazsa, MoE'nin teorik hız avantajı pratikte kaybolur.

Google'ın Switch Transformer çalışmasında uzman sayısını 2048'e kadar çıkardılar. Ancak bu ölçekte yönlendirici iletişim maliyeti o kadar arttı ki, modelin toplam hızında belirgin bir iyileşme sağlayamadılar. Bu durum, MoE tasarımında «daha fazla uzman her zaman daha iyi değildir» gerçeğini gözler önüne seriyor.

Transformer'ın Yerini Alabilir mi? Gerçekçi Bir Değerlendirme

MoE'nin transformerı tamamen değiştireceğini söylemek abartılı olur. Daha doğru bir ifade, MoE'nin transformerın içindeki yoğun katmanları değiştirdiğidir. Günümüzdeki MoE modelleri hala transformer mimarisinin dikkat mekanizmasını kullanıyor. Fark, dikkat katmanlarının ardından gelen besleme (feed-forward) katmanlarının uzmanlara bölünmüş olmasıdır.

Küçük ölçekli görevlerde MoE'nin bir avantajı yoktur. Yönlendirici ek yükü, küçük modellerde saf performans düşüşüne neden olur. MoE belirli bir parametre eşiğinin üzerinde anlamlı bir kazanç sağlar. Ayrıca MoE modellerini ince ayar (fine-tuning) etmek, yoğun modellere kıyasla daha zordur. Çünkü ince ayar sırasında uzmanların özgün uzmanlıklarını korumak, yönlendirici kararlarını bozmamak gerekir.

Buna karşın MoE, yapay zekanın demokratikleşmesi açısından önemli bir adım. DeepSeek-V3'ün 5,6 milyon dolara eğitildiği, GPT-4'ün ise 50 ila 100 milyon dolar arasında bir maliyete mal olduğu düşünülürse bu mimarinin ne denli dönüşümcü olduğu daha net anlaşılır. Daha büyük modelleri daha az hesaplama gücüyle çalıştırabilmek, daha fazla geliştiricinin ve araştırmacının güçlü modeller üretmesini sağlayabilir.

MoE mimarisi, yapay zekanın evriminde bir son değil, bir araçtır. Yönlendirici optimizasyonu, uzman çöküşü ve dağıtık çalıştırma gibi sorunlar çözüldükçe bu mimari daha yaygın hale gelecektir. 2026'da neredeyse tüm sınır modeli (frontier model) olarak adlandırılan sistemler MoE tabanlı çalışıyor. Sizce gelecekte her büyük dil modeli MoE yapısına geçecek mi, yoksa yoğun modeller belirli kullanım alanlarında yerini korumaya devam edecek mi?

kaynaklar

Etiketler

Bu makaleyi başkalarının da görmesi gerekiyor.

Faydalı bulduysan 10 saniyede başkalarına ulaşabilirsin. Bilgi paylaştıkça büyür.

okuma ayarları

yorumlar