🔹️#انویدیا سری جدیدی از مدلهای زبان کوچک به نامهای Minitron 4B و 8B رو معرفی کرده که به واسطه هرس کردن و فشردهسازی اطلاعات، فرآیند آموزش مدلها رو تا ۴۰ برابر سریعتر کرده.
🔹️این روش جدید روی هرس ساختاری تمرکز داره و به صورت سیستماتیک نورونها، لایهها یا سرهای توجه (Attention) رو براساس اهمیت محاسبهشده اونها حذف میکنه. هدف این روش حفظ عملکرد مدل اصلی با کاهش چشمگیر هزینه و زمان آموزشه.