View in Telegram
2411.04996v1.pdf
15.9 MB
🔬 تحولی در مدل‌های چندرسانه‌ای: همکاری متا و استنفورد با Mixture-of-Transformers (MoT) ● مدل‌های بزرگ زبانی (LLMs) از پردازش متن به تحلیل چندرسانه‌ای شامل متن، تصویر و گفتار توسعه یافته‌اند. اما چالش اصلی این مدل‌ها، نیاز به منابع محاسباتی عظیم است. ● راه‌حل چیست؟ معماری Mixture-of-Transformers (MoT) که یک معماری پراکنده و مقیاس‌پذیر است که هزینه‌های محاسباتی را کاهش داده و عملکردی هم‌سطح با مدل‌های متراکم ارائه می‌دهد. ● ویژگی‌های کلیدی MoT: ○ جداسازی پارامترهای خاص هر مدالیت برای پردازش بهتر ○ دستیابی به کیفیت متنی و تصویری مشابه با صرف ۴۷.۲% زمان محاسباتی کمتر ○ عملکرد عالی در تولید متن، تصویر و گفتار با ۵۵.۸% از FLOPs مورد نیاز مدل‌های سنتی ● در نتیجه MoT عملکردی هم‌سطح یا بهتر از مدل‌های متراکم نشان داده است. این معماری پتانسیل تحول در مدل‌های چندرسانه‌ای را دارد. #مقاله #MoT در کانال انجمن علوم داده شبکه نخبگان ایران با ما همراه باشید 🌱 | @DataScience_Association |
Telegram Center
Telegram Center
Channel