oku
Teknoloji

MLPerf Inference v6.0: GPT-OSS Benchmark Devrimi

MLPerf Inference v6.0 GPT-OSS testleri için optimize edilmiş yüksek performanslı yapay zeka sunucu rafı
MLPerf Inference v6.0 GPT-OSS testleri için optimize edilmiş yüksek performanslı yapay zeka sunucu rafı

MLCommons, Mart 2026'da MLPerf Inference v6.0 sürümünü duyurdu. Bu güncellemeyle birlikte açık ağırlıklı büyük dil modellerini değerlendirmek amacıyla GPT-OSS adlı tamamen yeni bir kıyaslama kategorisi hayata geçirildi. Yaklaşık bir yıl önce DeepSeek R1'in piyasaya çıkmasıyla başlayan gecikme optimizasyonu yarışı, artık standartlaştırılmış bir ölçüm çerçevesine kavuştu. Bu durum, yapay zeka donanımının gerçek dünya performansını anlama biçimimizi kökten değiştiriyor.

MLPerf Inference v6.0 ve GPT-OSS Kıyaslaması

MLPerf Inference, yapay zeka modellerinin çıkarım hızını ölçen endüstri standardı. Sürüm 6.0'a kadar bu kıyaslamalar çoğunlukla kapalı kaynaklı ticari modeller üzerinden yürütülüyordu. MLCommons bu sürümle birlikte GPT-OSS kategorisini devreye aldı ve ağırlıkları herkese açık olan modelleri hedef alan ilk kapsamlı çerçeveyi sundu.

GPT-OSS kıyaslamasının merkezinde GPT-OSS 120B modeli yer alıyor. Toplam 117 milyar parametreye sahip olan bu model, uzman karışımı (MoE) mimarisi sayesinde her token için yalnızca 5,1 milyar parametreyi aktif hale getiriyor. Bu yapı, matematik, bilimsel akıl yürütme ve kodlama gibi alanlarda üstün performans gösterirken donanım yükünü en aza indiriyor. Model, tek bir H100 GPU üzerinde bile çalıştırılabilecek kadar verimli tasarlanmış.

Kıyaslamanın en dikkat çekici yeniliği, performans ve doğruluk veri kümelerinin ilk kez ayrılması. Geleneksel yöntemde tek bir veri kümesi hem hız hem doğruluk için kullanılıyordu. GPT-OSS'ta ise rutin özetleme gibi düşük çaba gerektiren görevler için performans veri kümesi, zorlu akıl yürütme problemleri için ise ayrı bir doğruluk veri kümesi oluşturuldu. Üstelik modelin akıl yürütme çabası, sistem komutları aracılığıyla düşük, orta ve yüksek seviyeler arasında ayarlanabiliyor.

Böylece farklı donanım sağlayıcıların aynı model üzerindeki performansı yan yana konulabiliyor. Şirketler pazarlama söylemlerinin ötesine geçerek somut, karşılaştırılabilir verilere erişiyor. MLCommons'un bu adımı, yapay zeka ekosisteminde şeffaflık açısından önemli bir dönüm noktası.

DeepSeek R1 ve Gecikme Optimizasyonu

GPT-OSS kıyaslamasında öne çıkan bir diğer güncelleme ise DeepSeek R1 için düşük gecikmeli etkileşimli senaryonun eklenmesi. Bu senaryo, gerçek zamanlı akıl yürütme uygulamalarını hedef alıyor ve MLPerf tarihinde spekülatif kod çözmenin standartlaştırıldığı ilk örnek olma özelliğini taşıyor.

DeepSeek R1, yayımlandığı günden bu yana çıkarım sürecini hızlandırmak için dikkat çekici yöntemler kullandı. Alan Turing Enstitüsü'nden Sarah Mercer ve meslektaşlarının hazırladığı analiz, modelin kaynak tüketimini nasıl optimize ettiğini detaylı olarak ele alıyor. Mercer, uzman karışımı mimarisi ve pekiştirmeli öğrenme tekniklerinin DeepSeek R1'in yeteneklerindeki kilit rolüne dikkat çekiyor.

Model, karmaşık soruları yanıtlarken adım adım düşünme stratejisi izliyor. Bu yaklaşım doğruluğu artırıyor ancak doğal olarak yanıt süresini uzatıyor. Geliştiriciler bu sorunu çözmek için önbellekleme ve dikkat kaybı gibi teknikleri devreye soktu. Bu teknikler sayesinde model, önceki adımların çıktılarını tekrar hesaplamıyor ve toplam gecikme önemli ölçüde düşüyor.

Donanım Yanıtları ve Nvidia'nın Konumu

MLPerf Inference v6.0 sonuçlarına göre Nvidia, GPT-OSS kategorisinde açık ara önde yer alıyor. Şirketin Blackwell Ultra platformu ve GB300 NVL72 sistemi, yeni eklenen tüm test ve senaryolarda sonuç sunan tek platform oldu. DeepSeek R1 çevrimdışı modunda saniyede 2,49 milyonun üzerinde token, sunucu modunda ise saniyede 1,55 milyon token işleme kapasitesine ulaşıldı. GPT-OSS 120B için çevrimdışı modda saniyede 1,04 milyon, sunucu modunda ise saniyede 1,09 milyon token üretilerek rekor kırıldı.

Bu başarı yalnızca çip mimarisinden kaynaklanmıyor. Nvidia, TensorRT-LLM ve dağıtık çerçeve Dynamo üzerindeki optimizasyonlarla altı ay önce tanıtılan aynı GB300 NVL72 sistemini bile önemli ölçüde hızlandırdı. Yani donanım tek başına yetmiyor; yazılım optimizasyonları da en az donanım kadar etkili.

Bununla birlikte bir uyarıyı göz ardı etmemek gerekiyor. MLPerf, tüm üretim yüklerini birebir simüle eden bir araç değil. Standartlaştırılmış ve denetlenebilir bir kıyaslama ortamı sunuyor. Elde edilen rakamlar belirli bir ticari uygulamanın veya karmaşık kullanıcı ortamlarının doğrudan yansıması olmayabilir. MLCommons da bu sonuçların evrensel performansın otomatik bir tahmini olmadığını, sistem karşılaştırması için sağlam bir temel oluşturduğunu vurguluyor.

Model Boyutu ve Gecikme Arasındaki İlişki

Kingy AI'ın yayımladığı karşılaştırma analizinde GPT-OSS 120B, Qwen3-235B-A22B ve DeepSeek R1 bir araya getirildi. Bu üç model, açık ağırlıklı büyük dil modellerinin keskin kenarını temsil ediyor ancak tasarım felsefeleri birbirinden belirgin şekilde ayrılıyor.

Model boyutunun gecikme üzerinde doğrudan bir etkisi olduğunu söylemek mümkün. Daha fazla parametreye sahip modeller genellikle daha yavaş yanıt veriyor. Ancak GPT-OSS 120B'in MoE mimarisi bu kuralı esnetiyor: 117 milyar toplam parametreye karşın her token için yalnızca 5,1 milyarını aktive ederek büyük bir modelin hızını küçük bir modele yakın seviyeye çekiyor.

Qwen3-235B ise farklı bir yol izliyor. 128 uzman arasında dinamik yönlendirme yapan model, 262 bin token uzun bağlam desteği sunuyor ve çok dilli görevlerde öne çıkıyor. DeepSeek R1 ise devasa parametre sayısı, gelişmiş pekiştirmeli öğrenme teknikleri ve tokenizasyon yenilikleriyle zincir düşünme akıl yürütmesinde üstün performans hedefliyor. Her üç model de gecikme optimizasyonunda kendine özgü bir tasarım felsefesi benimsiyor.

Açık Kaynaklı Yapay Zekada Rekabetin Yeni Düzeni

Kevin Xu'nun Substack'te yayımladığı analiz, DeepSeek R1'den GPT-OSS'a uzanan süreçte ABD ve Çin arasında yapıcı bir rekabet ortamının oluştuğuna dikkat çekiyor. Geçmişte bu iki ülke arasındaki yapay zeka yarışı tamamen korumacı politikalar üzerine kuruluydu. Şimdi ise her iki taraftaki araştırmacılar, açık ağırlıklı modeller üzerinden ortak standartlar belirlemeye başladı.

Xu, DeepSeek R1'in açık ağırlıklı bir akıl yürütme modeli olarak yayınlanmasının GPT-OSS'un nasıl açık kaynaklanacağını doğrudan etkilediğini vurguluyor. Her iki model de izin verici lisanslar kullanıyor: DeepSeek R1 MIT lisansıyla, GPT-OSS ise Apache 2.0 lisansıyla sunuluyor. Üstelik her ikisi de tam zincir düşünme sürecini kullanıcıya gösteriyor. Bu şeffaflık, DeepSeek R1'in öncülük ettiği bir kullanıcı deneyimi iyileştirmesi olarak öne çıkıyor.

Standartlaştırılmış kıyaslamalar sayesinde şirketler gerçek performans verilerine dayalı karar alabiliyor. Araştırmacılar modellerin zayıf noktalarını daha kolay tespit edip geliştirme yapabiliyor. MLCommons'un GPT-OSS kıyaslaması bu ekosistemin temel taşı konumunda.

Gelecekte gecikme optimizasyonunun daha da kritik hale geleceği açık. Özellikle gerçek zamanlı uygulama senaryolarında, modelin doğruluğu ile hızı arasında hassas bir denge kurmak gerekiyor. MLPerf Inference v6.0, bu dengenin ölçülebilmesi için güçlü bir çerçeve sunuyor. Donanım üreticileri, model geliştiricileri ve kıyaslama kuruluşlarının iş birliği, yapay zekanın güvenilir kullanımının ön koşulu.

GPT-OSS kıyaslaması ve DeepSeek R1'in gecikme optimizasyonu, açık ağırlıklı yapay zekanın artık sadece bir araştırma konsepti olmadığını kanıtlıyor. Bu modeller ticari ürünlerin omurgasını oluşturacak kadar olgunlaştı. Sizce gelecek beş yıl içinde açık ağırlıklı modeller kapalı kaynaklı alternatifleri tamamen geçecek, yoksa her iki yaklaşım da belirli kullanım alanlarında kendine özgü avantajlarını koruyacak mı?

kaynaklar

Etiketler

Bu makaleyi başkalarının da görmesi gerekiyor.

Faydalı bulduysan 10 saniyede başkalarına ulaşabilirsin. Bilgi paylaştıkça büyür.

okuma ayarları

yorumlar