🔬 تحولی در مدلهای چندرسانهای: همکاری متا و استنفورد با Mixture-of-Transformers (MoT)
● مدلهای بزرگ زبانی (LLMs) از پردازش متن به تحلیل چندرسانهای شامل متن، تصویر و گفتار توسعه یافتهاند. اما چالش اصلی این مدلها، نیاز به منابع محاسباتی عظیم است.
● راهحل چیست؟
معماری Mixture-of-Transformers (MoT) که یک معماری پراکنده و مقیاسپذیر است که هزینههای محاسباتی را کاهش داده و عملکردی همسطح با مدلهای متراکم ارائه میدهد.
● ویژگیهای کلیدی MoT:
○ جداسازی پارامترهای خاص هر مدالیت برای پردازش بهتر
○ دستیابی به کیفیت متنی و تصویری مشابه با صرف ۴۷.۲% زمان محاسباتی کمتر
○ عملکرد عالی در تولید متن، تصویر و گفتار با ۵۵.۸% از FLOPs مورد نیاز مدلهای سنتی
● در نتیجه MoT عملکردی همسطح یا بهتر از مدلهای متراکم نشان داده است. این معماری پتانسیل تحول در مدلهای چندرسانهای را دارد.
#مقاله #MoT
در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱
| @DataScience_Association |