🔥Новая Text-to-image модель ERNIE-ViLG 2.0 дает прикурить Dalle-2 и SD!
Baidu сделали новую модель, результаты которой просто ошеломляют! Это результаты моих генераций без черепика! Ни
SD, ни DALLE-2 так не умеет.
За основу взята архитектура Unet от SD, но с приколами:
- Mixture of Denoising Experts: Обучили 10 сеток вместо одной. Каждая отвечает только за определенные шаги диффузии.
- Textual knowledge: Автоматически перевзвесили слова в запросе. Ключевые слова получают больший вес.
- Visual knowledge: Во время обучения детектировали объекты на промежуточных результатах генерации и увеличивали вес функции потерь на регионах с объектами.
В итоге вышла самая большая на планете модель text-2-im с 24 млрд параметров (×10 больше чем SD).
*
"flame, giant cat, girl, futuristic, high-definition, 3d, delicate face, cg sense, ancient style, beautiful, fine hair, upper body painting". Но лучше делать запрос на китайском.
❱❱
Статья
❱❱
Халявное Demo
@artem