Cloudflare'ın Unweight'ı: Kalite Kaybı Olmadan %22 LLM Sıkıştırma [Şüpheci Bakış]
Bir sonraki yapay zeka sorgunuz daha ucuza mal oldu — belki de. Cloudflare'ın Unweight'ı, LLM'leri %22 oranında kalite kaybı olmadan sıkıştırarak kitleler için daha hızlı çıkarım vaat ediyor. Ama henüz şampanyaları patlatmayalım.
⚡ Key Takeaways
- Unweight, fazlalık oluşturan BF16 üstellerini hedefleyerek %22 kayıpsız LLM sıkıştırması elde ediyor, H100'lerde yaklaşık 3GB VRAM tasarrufu sağlıyor. 𝕏
- Çip içi paylaşılan bellekte açma işlemi, tensor çekirdeği boş zamanını örtüşerek kalite kaybı olmadan daha hızlı çıkarım sağlıyor. 𝕏
- Açık kaynaklı çekirdekler yeniliği teşvik ediyor, ancak en çok Cloudflare'ın ekosisteminde parlıyor — ince bir hendek inşa edici. 𝕏
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by Cloudflare Blog