Verimli Büyük Dil Modellerinin Tüketici Donanımlarında Etkin Yürütülmesi İçin Yeni Stratejiler

Son yıllarda Büyük Dil Modellerinin (BDM) yaygın olarak kullanılması, bu modellerin tüketici donanımlarında çalıştırılması için verimli yolların bulunmasını gerektirmiştir. Hızlı token oluşturma imkanı sağlayan seyrek uzmanlar karışımı (MoE) mimarilerinin kullanılması, daha yoğun karşıtlarına göre daha hızlı bir şekilde çalıştırma yapılabilmesine olanak tanıyan umut vaat edici bir yaklaşımdır. Ancak, bu modellerin yüksek kaliteli GPU’lar olmaksızın yürütülmesi zorlaşan çok sayıda “uzman”ın mevcudiyeti nedeniyle artan model boyutunda bir zorluk bulunmaktadır.

Bu zorluğa çözüm olarak, son bir makale, MoE BDM’lerin doğal özelliklerinden yola çıkarak yeni bir strateji önermektedir. Yazarlar, büyük MoE dil modellerinin tüketici donanımlarında çalıştırılması sorununa derinlemesine bir şekilde değinir ve model parametrelerini sıkıştırma ve bunları RAM veya SSD gibi daha ucuza mal olan bir depolama ortamına aktararak en uygunlaştırma üzerinde iki ana yol keşfeder. Bu optimizasyonların eğitimden çok daha çok çıkarım hedefli olduğunu belirtmek önemlidir.

Makalede sunulan ana stratejilerden biri olan parametre depolama, model parametrelerini daha ucuz bir belleğe taşıyarak hesaplama için gerektiğinde zamanında yüklenmelerini sağlar. Bu yaklaşım özellikle sabit bir katman sırasına sahip derin öğrenme modelleri için etkilidir ve bir sonraki katmanın parametrelerinin önceden gönderilmesine imkan tanır.

Makale aynı zamanda Uzman Yerellik ve LRU Önbellekleme kavramını da tanıtmaktadır. MoE modellerinde gözlemlenen deseni kullanarak, bireysel uzmanların farklı alt görevlere atanmasını sağlar. Gelecekteki tokenlar için aktif uzmanları GPU belleğinde bir “önbellek” olarak tutarak, çağdaş MoE modellerinin çıkarımında önemli bir hız artışı gözlenir.

Uzman yükleme süresi zorluğunu ele almak için, yazarlar Spekülatif Uzman Yükleme önermektedir. Bu yaklaşım, önceki katmanın gizli durumlarının geçiş işlevine dayanarak olası bir sonraki uzmanları tahmin etmeyi içerir, böylece bir sonraki katman için çıkarım sürecini hızlandırır.

Makalede keşfedilen başka bir strateji de MoE Nicelleştirmesi’dir, burada sıkıştırılmış modellerin GPU’ya yüklenmesi daha az zaman alır. Yazarlar, uzmanları daha düşük bit genişliğine nicelleştirirken daha iyi kalite-boyut ticareti yapılabilmesi için Veri-Free Nicelleştirme (HQQ) kullanır.

Sonuç olarak, popüler MoE modelleri kullanılarak önerilen stratejilerin değerlendirilmesi, tüketici sınıfı donanımda üretilen hızda önemli bir artış göstermektedir. Bu optimizasyonlar, büyük MoE modellerinin araştırma ve geliştirmeye daha erişilebilir hale gelmesini sağlar ve pratik uygulamalar için yeni olanaklar sunar.