Tam elli bir yıl önce, yapay zeka araştırmacıları tek bir modeli eğitmek için aylarını veriyordu. Bugün ise o modellerin binlerce parçaya bölündüğü, yalnızca ihtiyaç duyulan bölümlerinin çalıştığı bir mimariyle karşı karşıyayız. Mixture of Experts, yani uzman karışımları yaklaşımı, geçtiğimiz aylarda arXiv üzerinde yayınlanan 51 yeni makaleyle ölçekleme yasalarını yeniden tanımlıyor.
MoE Mimarisi ve Ölçekleme Yasalarının Temelleri
Büyük dil modelleri genellikle yoğun yapıda çalışır. Yani soru ne olursa olsun, modelin tüm parametreleri hesaplama yapar. Bu durum devasa modellerde gözle görülür bir verimsizliğe yol açar. MoE mimarisi tam bu noktada devreye girer. Model, bir yönlendirici mekanizma aracılığıyla gelen girdiyi değerlendirir ve görevi en iyi yapabilecek «uzman» alt modele iletir. Geri kalan uzmanlar ise bu süreçte hiç çalışmaz, boşta kalır.
Ölçekleme yasaları ise yapay zeka dünyasında nispeten yeni kavramlaşan bir alan. Basitçe anlatmak gerekirse, model büyüdükçe performansın nasıl arttığını matematiksel olarak açıklamaya çalışır. Geleneksel yoğun modellerde bu ilişki oldukça tahmin edilebilirdi. Parametre sayısını iki katına çıkardığınızda belirli bir kazanç elde ederdiniz. Ancak MoE mimarisinde durum farklıdır. Çünkü aktif parametre sayısı ile toplam parametre sayısı birbirinden ayrışır. Bir model 100 milyar parametreye sahip olabilir ama tek bir soruyu yanıtlarken yalnızca 10 milyarını kullanıyor olabilir.
Bu ayrışık yapı, araştırmacıların mevcut ölçekleme yasalarını MoE için baştan yazmasını gerektirdi. Yeni yayınlanan 51 makale de tam olarak bu boşluğu doldurmaya yönelik bir çaba olarak öne çıkıyor (FAQToids). Araştırmacılar, aktif parametre sayısı, uzman sayısı ve yönlendirici kapasitesi gibi değişkenlerin birbirleriyle nasıl etkileşime girdiğini detaylı şekilde inceliyor.
51 Yeni Makalenin Ortak Buluşları ve Kanıtları
Yayınlanan çalışmaların büyük çoğunluğu tek bir noktada hemfikir. MoE modellerinde toplam parametre sayısının tek başına bir anlam taşımadığı, asıl belirleyicinin aktif parametre oranı olduğu. Örneğin, 200 milyar toplam parametreye sahip bir MoE modeli, 50 milyar parametreli yoğun bir modelle kıyaslandığında, aktif parametre sayısı 50 milyarın altındaysa daha kötü performans gösterebiliyor. Bu bulgu, alanın uzun süredir tartıştığı «daha fazla parametre her zaman daha iyi» inancını ciddi şekilde sarsıyor.
Uzman sayısının artırılmasının ise beklenenden farklı sonuçlar doğurduğu görülüyor. Araştırmacılar, uzman sayısını belirli bir eşiğin üzerine çıkardıklarında kazancın hızla azaldığını fark ettiler (Simpli). Sekiz uzmandan on altı uzmana geçişte kayda değer bir performans artışı elde edilirken, bu sayıyı 64'e çıkarmak genellikle marjinal bir iyileşme sağlıyor. Üstelik yönlendiricinin daha fazla uzman arasından doğru seçimi yapması ek bir hesaplama maliyeti doğuruyor. Dolayısıyla uzman sayısında «az ama öz» ilkesinin geçerli olduğu söylenebilir.
Yönlendirici mekanizmanın rolü üzerine yapılan analizler ayrı bir öneme sahip. Geleneksel yönlendiriciler basit bir eşleştirme algoritmasıyla çalışır. Yeni makalelerde ise bu mekanizmanın öğrenme kapasitesinin, modelin genel başarısını doğrudan etkilediği gösteriliyor (Smarter). Zayıf bir yönlendirici, doğru uzmanı bulamadığında geri kalan uzmanların ne kadar güçlü olduğunun bir önemi kalmıyor. Araştırmacılar, yönlendiriciyi daha karmaşık hale getirmenin, daha fazla uzman eklemekten çok daha etkili bir strateji olduğunu vurguluyor.
Eğitim Verisi ve Uzman Dağılımı Arasındaki İlişki
Makalelerin bir alt grubu özellikle veri tarafına odaklanıyor. MoE modellerinin eğitim sürecinde uzmanların yükünün dengesiz dağıldığı bilinen bir sorun. Yönlendirici, belirli uzmanları sürekli tercih ettiğinde bu uzmanlar aşırı öğrenmeye maruz kalırken, diğerleri yeterince eğitim göremiyor. Yeni araştırmalar, bu dengesizliğin ölçekleme yasalarını bozan en büyük etkenlerden biri olduğunu ortaya koyuyor (Reference). Dengesiz uzman kullanımında, modelin toplam kapasitesinin yalnızca küçük bir bölümünden faydalanılmış oluyor.
Buna karşı önerilen çözümler arasında yük dengeleme kayıpları ve uzman bırakma yöntemleri bulunuyor. Yük dengeleme kaybı, yönlendiriciye her uzmanı eşit oranda kullanması için bir ceza puanı ekliyor. Uzman bırakma ise seyrek kullanılan uzmanları devre dışı bırakarak modeli küçültmeyi amaçlıyor. Her iki yöntemin de ölçekleme eğrilerini olumlu yönde etkilediği, ancak maliyet açısından farklı trade-off'lar sunduğu belirtiliyor.
Gelecek Perspektifi ve Sektörel Etkiler
Bu bulguların endüstriyel yansımaları oldukça geniş kapsamlı. Şu anda büyük teknoloji şirketleri, MoE tabanlı modellerini servis ederken donanım optimizasyonuna büyük önem veriyor. Yeni ölçekleme yasaları, bu optimizasyon sürecinin temel varsayımlarını değiştirme potansiyeli taşıyor. Örneğin, aktif parametre oranının belirleyici olması, donanım tasarımcılarının bellek bant genişliğini yeniden düşünmelerini gerektirebilir (ConsumerSearch). Çünkü artık toplam model boyutu değil, bir anda hareket eden parçanın boyutu belirleyici olacak.
Araştırma topluluğunda gelecek adımın «dinamik uzman oluşturma» olarak adlandırılabilecek bir yaklaşım olabileceği tartışılıyor. Sabit sayıda uzman yerine, modelin görev gereği anında yeni uzmanlar türetmesi veya birleştirmesi fikri, şu anki ölçekleme yasalarının tamamen geçersiz kalabileceği bir senaryo çiziyor. Bu yaklaşımda parametre sayısı sabit bir büyüklük olmaktan çıkıp, sürekli değişen bir akışkan yapıya dönüşebilir.
Öte yandan, 51 makalenin tamamının arXiv üzerindeki ön baskı olduğunu unutmamak gerekiyor. Bu çalışmaların büyük kısmı hala akran değerlendirmesinden geçmedi. Dolayısıyla bugün dile getirilen ölçekleme yasalarının bir kısmı, gelecekteki daha kapsamlı deneylerle revize edilebilir. Bununla birlikte, bu kadar fazla araştırma grubunun benzer bulgulara ulaşması, elde edilen sonuçların sağlamlığına dair önemli bir işaret olarak değerlendiriliyor.
MoE mimarisi, yapay zekanın verimlilik sorununa sunduğu çözümle dikkat çekmeye devam ediyor. Ancak bu çözümün doğru uygulanabilmesi, ölçekleme yasalarının derinlemesine anlaşılmış olmasına bağlı. Geleneksel «daha büyük, daha iyi» mantığının MoE dünyasında geçerli olmadığı artık oldukça net. Peki, sizce bu yeni bulgular ışığında şirketler devasa MoE modelleri inşa etmeye devam etmeli mi, yoksa daha küçük ama daha iyi yönlendirilmiş modellere mi yönelmeli?
yorumlar