Sebastian Raschka, yapay zeka araştırma dünyasında 853 paylaşım ve sayısız atıfla tanınan bir isim. Yaklaşık yedi yıl önce GPT-2 piyasaya çıktığında dil modelleri basit metin tamamlayıcılar olarak öne çıkıyordu. Bugün ise DeepSeek V3 ve GLM-5 gibi modeller, milyarlarca parametreyle insan düzeyinde çıktılar üretebiliyor. Bu köklü değişim tek bir bileşene değil, mimari tasarımın kendisine dayanıyor.
Transformer'dan MoE'ye: Dil Modellerinin Yapısal Dönüşümü
2017 yılında Google araştırmacıları Transformer mimarisini yayınladığında, dikkat mekanizması kavramı herkesin gündemine girdi. O dönemde modeller cümledeki her kelimeyi diğer tüm kelimelerle eşleştirerek anlam çıkarıyordu. GPT-2 bu yapıyı benimsedi ve 1,5 milyar parametreyle çalıştı. Tüm parametreler her kelime üretiminde devreye giriyordu; bu da hesaplama maliyetini hızla yükseltti.
Araştırmacılar farklı bir yol aramaya başladı. Basit bir tarih sorusu için koskoca modeli çalıştırmak israf gibi duruyordu. Bu düşünce yapısı, Uzman Karışımı yani MoE fikrini doğurdu. MoE mimarisi modeli birden fazla uzman alt ağa bölüyor. Gelen sorunun türüne göre sadece ilgili uzmanlar aktif hale geliyor. Böylece toplam parametre sayısı artsa bile her işlemde kullanılan aktif parametre miktarı sabit kalıyor.
DeepSeek V3 tam olarak bu mantık üzerine kuruldu. Toplam parametre sayısı 671 milyar, ancak her soruda yalnızca 37 milyar parametre devrede kalıyor. Bu sayede devasa bir modelin bilgi birikiminden yararlanılırken küçük bir modelin hızında çalışmak mümkün oluyor. Model 256 uzman arasında yönlendirme yapıyor; her adımda 1 paylaşımlı ve 8 yönlendirilmiş olmak üzere toplam 9 uzman aktif ediliyor. Paylaşımlı uzman her zaman devrede kalıp genel örüntüleri işlerken, uzmanlar daha dar kapsamlı bilgilere odaklanıyor.
DeepSeek V3 ve GLM-5: İki Farklı Mimari Yaklaşım
DeepSeek V3'in mimarisini incelediğimizde araştırmacıların dikkat mekanizmasını nasıl optimize ettiğini net görüyoruz. Standart bir Transformer'da dikkat hesaplamaları parametre sayısıyla doğru orantılı olarak büyür. DeepSeek ekibi bu sorunu çözmek için Çok Başlı Potansiyel Dikkat mekanizmasını kullanıyor. MLA, anahtar ve değer tensörlerini daha düşük boyutlu bir alana sıkıştırarak KV önbelleğinde saklıyor. Çıkarım sırasında bu tensörler geri projeksiyonla elde ediliyor. Bu işlem bir matris çarpımı eklesede KV önbelleği belleğini dramatik ölçüde azaltıyor; üstelik standart çok başlı dikkatten daha iyi kıyaslama sonuçları veriyor.
GLM-5 ise farklı bir strateji izliyor. Model hem İngilizce hem Çince verilerle eğitildiği için çok dilli işlemlerde güçlü çıkıyor. Mimari tasarımında dil özelliklerini yakalayan özel katmanlar yer alıyor. Bu katmanlar farklı dillerdeki gramer yapılarını aynı temsil alanında eşleştiriyor. Sonuç olarak GLM-5, tek bir dilde değil, dil geçişli görevlerde kendini gösteriyor.
Eğitim Verisi ve Token İşleme Stratejileri
Mimari tasarım kadar önemli olan bir diğer konu, eğitim verisinin nasıl işlendiği. DeepSeek V3 çok aşamalı bir eğitim sürecinden geçiyor. İlk aşamada geniş bir metin kümesiyle temel dil bilgisi öğreniliyor. Ardından ikinci aşamada daha kaliteli ve işlenmiş verilerle ince ayar yapılıyor. Token seçiminde bilimsel makaleler, kod parçacıkları ve çok dilli metinler önceliklendiriliyor.
GLM-5 tarafında ise veri karıştırma oranı farklı bir noktaya çekilmiş. Modelin eğitiminde Çince içerik oranı belirgin şekilde yüksek tutuluyor. Bu durum Çince görevlerde üstün performans göstermesine yol açıyor. İngilizce görevlerde de rekabetçi sonuçlar alabiliyor çünkü mimari yapı, diller arası bilgi transferini destekleyecek şekilde tasarlanmış.
Yedi Yılda Ne Değişti, Ne Değişmedi?
Sebastian Raschka'nın karşılaştırma çalışmasında öne çıkan en ilginç tespit, bu yedi yıllık süreçte temel yapının aslında pek değişmemiş olması. GPT-2'den günümüze konumsal gömüler mutlaktan dönel yapıya geçti. Çok Başlı Dikkat büyük ölçüde yerini Grup Sorgulu Dikkata bıraktı. SwiGLU, GELU gibi eski aktivasyon fonksiyonlarının yerine geldi. Bunlar önemli iyileştirmeler, ancak Transformer'un temel iskeleti hâlâ ayakta. Raschka'nın ifadesiyle, temeli yeniden inşa etmekten ziyade var olan yapıyı parlatıyoruz.
Buna karşın MoE mimarisi ve KV önbelleği sıkıştırma gibi yenilikler, bu temel iskelet üzerinde ciddi verimlilik kazançları sağlıyor. Örneğin MLA, standart dikkat mekanizmasının bellek darboğazını hedef alırken kayan pencere dikkati ve kısmi RoPE gibi teknikler uzun bağlam çıkarımında optimizasyon sunuyor. Doğrusal dikkat yenilikleri ise Gated DeltaNet ve Mamba-2 melezleriyle ikinci dereceden karmaşıklığa alternatif oluşturuyor.
Gelecek Perspektifi: Mimaride Sınırları Zorlamak
Raschka'nın çalışması, açık ağırlıklı modellerin kapalı modellerle arasındaki farkın hızla kapandığını gösteriyor. DeepSeek V3 ve GLM-5 açık kaynaklı olmalarına rağmen ticari modellerle yarışabiliyor. Bu durum yapay zeka endüstrisinin geleceğini şekillendirecek bir trendin habercisi.
MoE mimarisinin yaygınlaşmasıyla birlikte daha küçük ekiplerin devasa modeller üretmesi mümkün hale geliyor. Eğitim maliyetleri hâlâ yüksek olsa da çıkarım maliyeti önemli ölçüde düşüyor. Kullanıcı açısından bu durum daha hızlı ve daha ucuz yapay zeka hizmetleri anlamına geliyor. Öte yandan MoE yapılarının yönetimi daha karmaşık. Uzman atama mekanizması doğru çalışmadığında modelin performansı ciddi şekilde düşebiliyor. Bu yüzden gelecek dönemde araştırmacıların odaklanacağı temel sorun MoE modellerinin kararlılığını artırmak olacak.
DeepSeek V3 ve GLM-5, dil modeli mimarisinin nereye doğru evrildiğini net bir şekilde gösteriyor. GPT-2 döneminde her şey tek bir yapı etrafında dönüyordu. Şimdi farklı ihtiyaçlara göre farklı mimari tercihler yapılıyor. MoE ile verimlilik, MLA ile uzun metin desteği, özel dil katmanları ile çok dillilik mümkün oluyor. Sizce bu mimari çeşitlilik ileride her kullanım alanı için özel tasarlanmış modellerin yaygınlaşmasına yol açacak mı, yoksa tek bir evrensel mimari tüm işleri üstlenebilecek mi?
yorumlar