مدل Sana-0.6B میتونه با مدلهای بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع تره. این مدل رو می شه روی کارت گرافیک لپ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می کنه.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.