Trinity Large Thinking: 400B MoE Modeli Nasıl Çalışıyor?

Yapay zeka dünyasında son bir yılda yaşanan en önemli dönüşüm, modellerin sadece metin üretmekle kalmayıp adım adım düşünmeye başlaması. OpenAI'in o1 serisiyle başlayan bu akım, kısa sürede tüm sektöre yayıldı. Ancak düşünme yeteneğine sahip güçlü modeller neredeyse tamamıyla kapalı kaynaklıydı; yani geliştiriciler modelin ağırlıklarına erişemiyor, sadece API üzerinden kullanabiliyordu. Arcee AI, 1 Nisan 2026'da yayımladığı Trinity Large Thinking ile bu tabloyu değiştirdi. 398 milyar parametreye sahip bu modeli Apache 2.0 lisansıyla tamamen açık kaynak olarak sundu ve herkesin indirip değiştirebilmesine olanak tanıdı.

MoE Mimarisi: Neden 398 Milyar Parametrenin Sadece 13 Milyarı Çalışıyor?

Dil modelleri dünyasında iki temel yaklaşım söz konusu. Yoğun (dense) modeller, her soruyu yanıtlarken tüm parametrelerini devreye sokar. Bu durum doğal olarak büyük hesaplama gücü gerektirir. Seyrek uzman modelleri (MoE) ise sorunun türüne göre sadece ilgili "uzman" alt ağları aktif hale getirir. Sonuç olarak modelin toplam parametre sayısı yüksek görünür, fakat her tahminde yalnızca küçük bir kesim çalışır.

Trinity Large Thinking tam olarak bu mantık üzerine kuruldu. 256 uzmandan oluşan model, her token üretiminde sadece 4 uzmanı devreye sokuyor. Bu da toplam 398 milyar parametrenin sadece yaklaşık 13 milyarının aktif olduğu anlamına geliyor. Seyreklik oranı yüzde 1,56 ile sektördeki en düşük değerlerden birine ulaşmış durumda. Model böylece devasa bir bilgi birikimine sahip olmasını sağlarken, çalışma maliyetini küçük bir model düzeyinde tutabiliyor.

Bu yaklaşımın en büyük avantajı çıkarım hızında ortaya çıkıyor. Benzer boyuttaki yoğun modellere kıyasla iki ila üç kat daha hızlı çalışan Trinity Large Thinking, aynı donanım üzerinde çok daha fazla istek işleyebiliyor. Yani model, 398 milyarlık kapasitesini kullanabildiği halde yanıt üretirken 13 milyar parametrelik bir model kadar kaynak tüketiyor.

Eğitim Süreci: 33 Gün, 2048 GPU ve 20 Milyon Dolar

Trinity Large Thinking, Trinity-Large-Base üzerine inşa edildi. Temel model 17 trilyon token üzerinde eğitildi ve bunun 8 trilyondan fazlası sentetik veriden oluşuyordu. Veri kürasyon sürecini DatologyAI üstlendi; veri seti programlama, STEM, akıl yürütme ve 14 farklı İngilizce dışı dili kapsıyordu.

Eğitim süreci tek başına bir hikaye. Arcee AI, 2048 adet NVIDIA B300 Blackwell GPU'dan oluşan bir kümede 33 günlük bir çalışma gerçekleştirdi. Bu çalışma bugüne kadar kamuya açıklanmış en büyük B300 ön eğitimi çalışması olarak kayıtlara geçti. Maliyet? Yaklaşık 20 milyon dolar, yani şirketin toplam yatırımının neredeyse yarısı. Ön eğitimde Muon optimizörü kullanıldı ve süreç boyunca sıfır kayıp sıçraması yaşanmadı, bu da modelin kararlılığının göstergesi.

Uzun Süreçli Ajan Görevlerinde Araç Kullanımı

Trinity Large Thinking'i sıradan MoE modellerinden ayıran en önemli özellik, uzun süreçli ajan görevleri için özel olarak tasarlanmış olması. Model, çok adımlı akıl yürütme gerektiren işlerde dış araçları kullanarak veri kaynaklarına erişebiliyor. Örneğin karmaşık bir yazılım geliştirme görevi verdiğinizde model, önce problemi alt parçalara bölüyor, ardından her parça için uygun aracı seçiyor ve sonuçları birleştirerek nihai yanıtı oluşturuyor.

Modelin düşünme süreci de dikkat çekici. Yanıtı üretmeden önce açıkça zincirleme düşünme (chain of thought) izleri oluşturuyor. Bu izler, modelin çoklu tur konuşmalarında bağlam bütünlüğünü koruması için kritik önem taşıyor. Öyle ki, düşünme blokları çıkarıldığında modelin performansı belirgin şekilde düşüyor. Her adımda hangi uzmanın devrede olacağını yeniden değerlendirmesi, özellikle çok aşamalı problem çözmede büyük avantaj sağlıyor.

Seyrek MoE yapılarında uzman seçiminin kalitesi doğrudan başarıyı etkiler. Yönlendirici ağ yanlış uzmanı seçerse model doğru yanıtı üretmekte zorlanır. Arcee AI bu sorunu çözmek için iki önemli yenilik getirdi. Yoğun katman sayısını 3'ten 6'ya çıkararak yönlendirme kararlılığını artırdı. Daha da önemlisi, SMEBU (Soft-clamped Momentum Expert Bias Updates) adlı yeni bir yük dengeleme tekniği geliştirdi. Bu yöntem, aşırı seyreklik altında uzman çökmesini önlüyor ve modelin tüm uzmanlarını dengeli biçimde kullanmasını sağlıyor.

Performans: Claude Opus 4.6'ya Karşı İkinci Sıra

Benchmark sonuçları modelin iddialarını destekler nitelikte. Trinity Large Thinking, ajan yeteneklerini ölçen PinchBench'te yüzde 91,9 puanla ikinci sıraya yerleşti. İlk sırada Claude Opus 4.6 bulunuyor. tau-2-Bench'te ise yüzde 94,7 puan aldı. MMLU'da 87,2 ve AIME 2025'te 24,0 skorlarıyla matematik, kodlama ve bilimsel akıl yürütme görevlerinde rakipleriyle yarışır düzeyde performans gösterdi.

Maliyet tarafı ise daha çarpıcı. Arcee API üzerinden Trinity Large Thinking kullanırken milyon token başına 0,90 dolar ödüyorsunuz. Aynı görevler için Claude Opus 4.6'yı kullandığınızda bu rakam yaklaşık 22,50 dolara çıkıyor. Yani yüzde 96 daha düşük maliyetle, frontier seviyesine yakın bir performans elde edebiliyorsunuz.

Model 512 bin tokenlık yerel bağlam penceresi destekliyor. Bu özellik, uzun belge analizi ve çoklu tur ajan iş akışları için ideal bir alan açıyor. Kullanıcılar, yüzlerce sayfalık belgeleri tek seferde işleyebilir veya uzun süre çalışan ajan döngülerinde bağlamı kaybetmeden çalışmaya devam edebilir.

Apache 2.0 Lisansı ve Açık Kaynak Ekosisteme Etkisi

Apache 2.0 lisansı, yapay zeka ekosisteminde ciddi bir serbestiyet anlamına geliyor. Kullanıcılar modeli indirip kendi sunucularında çalıştırabiliyor, ağırlıkları ticari ürünlerine entegre edebiliyor ve mimariyi ihtiyaçlarına göre değiştirebiliyor. Özellikle veri egemenliği ve gizlilik konusunda hassas olan kurumlar için bu durum kritik bir değer taşıyor. Arcee AI, modelin tamamını Amerika Birleşik Devletleri'nde geliştirdiğini vurgulayarak, veri yerellik gereksinimleri olan şirketler için ek bir avantaj sunduğunu belirtiyor.

Öte yandan 398 milyar parametrelik bir modeli çalıştırmak ciddi donanım gerektiriyor. Seyrek yapı sayesinde çıkarım maliyeti düşmüş olsa da modelin tamamını belleğe yüklemek için yeterli grafik işlemci kapasitesine ihtiyaç var. Bu durum, modelin bireysel kullanıcılar yerine daha çok kurumsal ekipler ve araştırma laboratuvarları için pratik bir seçenek olduğunu gösteriyor. Model ağırlıkları Hugging Face üzerinden üç varyantta sunuluyor: Preview (talimatla ayarlanmış), Base (tam 17T token kontrol noktası) ve TrueBase (10T token, talimat verisi içermeyen erken sürüm).

Açık kaynak reasoning modellerinin çoğalması, kapalı modellerle olan rekabeti giderek artırıyor. Geliştiriciler artık düşünme yeteneğine sahip modelleri kendi altyapılarında barındırabiliyor. Bu durum API maliyetlerini ortadan kaldırırken modeli özel verilerle ince ayar yapma imkanı da sunuyor. Trinity-Large-Preview'in OpenRouter'da Amerika'da en çok kullanılan açık model olması ve zirve günlerde 80 milyardan fazla token sunması, bu talebin büyüklüğünü net bir şekilde ortaya koyuyor.

Trinity Large Thinking, MoE mimarisinin verimlilik potansiyelini somut bir şekilde gözler önüne seriyor. 398 milyar parametrenin bilgi birikimini 13 milyar parametrenin maliyetiyle sunmak, büyük dil modellerinin geleceği hakkında önemli ipuçları veriyor. Arcee AI'nin küçük bir startup olmasına rağmen 20 milyon doları bu modele yatırması, açık kaynak reasoning alanında rekabetin sadece büyük şirketlerin tekelinde olmadığını gösteriyor. Modelin uzun süreçli ajan görevlerindeki performansı ve düşük çıkarım maliyeti, bu ekosistemi yeni bir seviyeye taşıyabilir. Sizce seyrek MoE yapıları yoğun modellerin yerini tamamen alacak mı, yoksa her iki yaklaşım da kendi niş alanında varlığını sürdürecek mi?

Trinity Large Thinking: 400B MoE Modeli Nasıl Çalışıyor?

MoE Mimarisi: Neden 398 Milyar Parametrenin Sadece 13 Milyarı Çalışıyor?

Eğitim Süreci: 33 Gün, 2048 GPU ve 20 Milyon Dolar

Uzun Süreçli Ajan Görevlerinde Araç Kullanımı

Performans: Claude Opus 4.6'ya Karşı İkinci Sıra

Apache 2.0 Lisansı ve Açık Kaynak Ekosisteme Etkisi

kaynaklar

LLM'lerde Araç Kullanımı Nasıl Tahmin Edilir?

Nanbeige4.1-3B: 3 Milyar Parametreyle Akıl Yürütme ve Kodlama

Spiking Sinir Ağları 2026: Beyin Tarzı Çiplere Geçiş Neden Kaçınılmaz?

MoE Mimarisi: Neden 398 Milyar Parametrenin Sadece 13 Milyarı Çalışıyor?

Eğitim Süreci: 33 Gün, 2048 GPU ve 20 Milyon Dolar

Uzun Süreçli Ajan Görevlerinde Araç Kullanımı

Performans: Claude Opus 4.6'ya Karşı İkinci Sıra

Apache 2.0 Lisansı ve Açık Kaynak Ekosisteme Etkisi

kaynaklar

Etiketler

ilgili içerikler

ilgili içerikler

LLM'lerde Araç Kullanımı Nasıl Tahmin Edilir?

Nanbeige4.1-3B: 3 Milyar Parametreyle Akıl Yürütme ve Kodlama

Spiking Sinir Ağları 2026: Beyin Tarzı Çiplere Geçiş Neden Kaçınılmaz?