Explainers

LLM Kıyaslamaları Yetersiz Kalıyor, Yeni Araç İş Akışı Sorun

LLM kıyaslamalarının bir yapay zekanın gerçek bir işi yapıp yapamayacağını test ettiğini mi sanıyorsunuz? Tekrar düşünün. Yeni bir araç, laboratuvar testleri ile gerçek, karmaşık iş akışları arasındaki devasa boşluğu ortaya çıkarıyor.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
Genel LLM değerlendirmesi ile gerçek dünya iş akışı performansı arasındaki boşluğu gösteren diyagram.

Key Takeaways

  • Genel LLM kıyaslamaları, gerçek dünya iş akışlarında yaygın olan kritik 'yargısal hataları' yakalayamıyor.
  • Tenacious-Bench v0.1, bu iş akışına özgü hata modlarını özel olarak test etmek için tasarlanmış yeni bir kıyaslamadır.
  • Sadece metin üretimi yerine yargı tutarlılığına odaklanmak, bir eleştirmen modelinde önemli doğruluk iyileştirmelerine yol açtı.

Peki, biz yapay zeka testinde mi kötüyüz artık? Çünkü yapay zeka endüstriyel kompleksinden gelen son duyuruları inceledikten sonra aklıma takılan soru bu oluyor. En son çıkan… buna ‘yenilik’ diyelim… SignalForge ve Tenacious ekibinden geliyor. Bunlar giden iş akışları için tasarlanmış bir sistem üzerinde çalışıyorlar. Görünüşe göre standart LLM değerlendirme yöntemleri, yani güzel grafikler ve etkileyici doğruluk rakamları sunanlar, bir yapay zekanın gerçek dünyada gerçekten, ne bileyim, işe yarar bir şey yapıp yapamayacağını anlamak için çikolatalı cezveden farksız.

Artık gramatik olarak doğru cümleler kurmak mesele değil. Kolay kısım bu. Hafta 10’daki kanıtlar gösteriyor ki asıl büyük hatalar metin üretimiyle ilgili değilmiş. Hayır. Bunlar yargısal hatalarmış. Zayıf verilere dayanarak fazla iddialı konuşmak, odak grupları tarafından yazılmış gibi duran muğlak kurumsal konuşmalara kaymak veya – bu klasik bir örnek – müşteri etkileşimlerini çok erken bir randevu aşamasına taşımak gibi şeyler. Hatta yeni bir CTO ile konuşurken teknik olarak mantıklı ama sosyal açıdan uyumsuz ses çıkarmaktan bahsetmişler. Bu sektörde beş dakikadan fazla vakit geçiren herkes bu tür hataları anında tanır. Bunlar, genel bir asistan kıyaslamasının yakalayabileceği sorunlar değil. Bu, bir savaş pilotunun becerilerini bir sınıfta kağıttan uçak uçurarak test etmeye benziyor.

Asıl bomba ne mi? Bu spesifik iş akışı aksaklıklarına odaklanarak, geliştirilmiş “Path B eleştirmeni”nin tutulan verilerdeki doğruluğu şaşırtıcı bir şekilde %48.84 puan artırdığı söyleniyor. Bu kusursuzluk iddiası değil elbette ama genel geçer ifadelerden kaçıp yargı ve değerlendirmeye derinlemesine dalma konusunda doğru yolda olduklarına dair oldukça güçlü bir kanıt bu.

Mevcut Kıyaslamalar Neden Şaka Gibi (Gerçek İşler İçin)

Bakın, bunu 20 yıldır yapıyorum. Jargonların bir girişimin ilk fonlamasından daha hızlı gelip geçtiğini gördüm. Bize sürekli bu yeni yapay zeka modellerinin her şeyi değiştireceği söyleniyor. Bazen değiştiriyorlar da. Ama çoğu zaman? Sadece aynı eski sorunların daha parlak bir ambalajda, yeni terimlerle süslenmiş hali oluyor. Mevcut genel LLM kıyaslamaları da aynen buna benziyor. Konuşkanlık, akıcılık, temel görev tamamlama gibi şeyleri test ediyorlar, evet. Ama bir bütün projeyi raydan çıkarabilecek veya bir müşteri ilişkisini bozabilecek nüanslı, çoğu zaman derinlemesine insani hataları tamamen gözden kaçırıyorlar.

Zayıf halka sinyallerinden fazla iddialı konuşmak. Genel dış kaynak diline kaymak. Erken rezervasyona geçmek. Fiyatlandırma elden teslimatlarını yanlış yapmak. Teknik olarak mantıklı ama sosyal olarak yanlış ses çıkarmak. Bunlar soyut kavramlar değil. Bunlar şirketlere para kaybettiren ve itibarlarını zedeleyen gerçek dünya hata modları. Ve Tenacious-Bench v0.1‘i geliştirenler bu boşluğu açıkça görmüşler.

Bu, geniş bir asistan kıyaslamasının veya perakende-ajan kıyaslamasının kolayca hafife alabileceği türden bir davranıştır.

Bu kadar basit ve bu kadar acımasız. Bir sohbet robotunun kedi hakkında şiir yazma yeteneğini test etmek için tasarlanmış bir kıyaslama, size bir müşteriye hayal dünyasına ait bir şey vaat edip etmeyeceğini söylemeyecek. Amaçlar arasında temel bir uyumsuzluk var.

Daha İyi Bir Tuzak İnşa Etmek: Tenacious Yaklaşımı

Peki, ne yaptılar? Kendi kıyaslamalarını yaptılar: Tenacious-Bench v0.1. Ve bu sadece rastgele bir komut istemi topluluğu değil. Bu sistem, özellikle bu iş akışı düzeyindeki hata modları etrafında tasarlanmış. Toplamda 225 görevi var, eğitim, geliştirme ve tutulan kümeler olarak ayrılmış. Ancak asıl lezzet, veriyi nasıl ürettiklerinde gizli:

  • İz Tabanlı: Gerçek dünya verileri.
  • Programatik: Kontrollü parametre taramaları.
  • Çoklu-LLM Sentezi: Karmaşık vakalar üretmek için yapay zekayı kullanma.
  • Elle Yazılmış: Çekişmeli, insan dokunuşu.

Bu karışım kritik öneme sahip. Sentetik yuva doldurma veya sadece anekdotlardan ibaret bir kıyaslama istemediler. Gerçek izlerden, sistematik taramalardan, çekişmeli vakalardan ve daha basit şablonların kaçıracağı üretilmiş vakalardan kapsama alanı istediler. İşte bu şekilde iş etkileşimlerinin karmaşık gerçekliğini yaklaştırmaya başlarsınız.

Buradaki temel karar, Path B: tercih ayarlı yargıç veya eleştirmen adını verdikleri şeye yönelmek oldu. Bu moda bir seçim değildi; temel üreticinin darboğaz olmadığını gözlemlemeye pragmatik bir yanıt oldu. Sistem iyi taslaklar üretebiliyordu. Sorun, bu taslakların tehlikeli alana geçtiğini tanıma konusundaki yeteneksizlikleriydi. Bu yüzden, üreticiyi ‘daha akıcı’ hale getirmeye çalışmak yerine, yargı tutarlılığına odaklandılar. Açıkçası çözmesi daha akıllıca bir sorun.

Bu pratikte ne anlama geliyor? Tenacious’a özgü başarısızlıklara odaklanmak, bir çıktının onaylandığı ve diğerinin düşürüldüğü tercih çiftleri oluşturmak, hafif bir eleştirmen modeli eğitmek ve ardından bu eleştirmeni tutulan veriler üzerinde eski sezgisel temele karşı yarıştırmak anlamına geliyor. Kıyaslama, her görev için meta verilerle yapılandırılmış: source_mode, dimension, task_type. Girdileri, aday çıktıları, doğru bilgiyi ve bir puanlama cetvelini içeriyor. Hatta tutulan verilerin yanlışlıkla eğitim veya geliştirme kümelerine sızmadığından emin olmak için bir kirlilik kontrolü bile eklemişler.

Sonuçlar oldukça çarpıcı. Bütün bunlardan sonra, hafif bir yerel eleştirmen – henüz nihai, daha güçlü GPU destekli adaptörleri bile değil – devasa bir gelişme gösterdi. Tutulan temel doğruluk 0.5116 iken, eğitilmiş doğruluk 1.0000’e fırladı. Bu, neredeyse 49 puanlık bir artış. Ve önemli olan şu ki, bu sadece genel bir kalite puanı değil. Kıyaslamayı yakalamak için tasarladıkları tam işe özel hata modlarındaki ölçülmüş bir gelişme. Bu, gerçek dünyada gerçekten önemli olan hedefe yönelik bir gelişme türüdür.

Elbette hiçbir proje kusursuz değil. Kalan en büyük sınırlama prosedürel olarak belirtilmiş: bir hakemler arası çalışma ikinci bir incelemeye tabi. Ancak bu uyarıya rağmen, buradaki çalışma, bu giderek güçlenen yapay zeka modellerinin kullanıma hazır olup olmadığını veya sadece aynı eski hataları yapmaya devam edip etmeyeceklerini değerlendirme zahmetli görevinde önemli bir adım ileriye işaret ediyor.

Buradan çıkarılacak ders ne mi? Basit: Karmaşık, gerçek dünya iş akışları için yapay zeka geliştiriyorsanız, o genel kıyaslamalara güvenmeyi bırakın. Size yalan söylüyorlar. Kendi kıyaslamanızı yapın, alanınız için önemli olan belirli hata modlarına odaklanın ve yapay zekanızın gerçekten işini yapmaya başladığını görebilirsiniz. Ve daha da önemlisi, muhteşem, yargı odaklı hatalar yüzünden para kaybetmek yerine para kazanmaya başlayabilir.


🧬 İlgili İçgörüler

Written by
DevTools Feed Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Developer Tools stories of the week in your inbox — no noise, no spam.

Originally reported by dev.to