View in Telegram
Forwarded from Tensorflow(@CVision) (Alister ☄️)
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌ تره. این مدل رو می‌ شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.   https://arxiv.org/pdf/2410.10629 معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه استفاده از توجه خطی(Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه. این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.
Telegram Center
Telegram Center
Channel