Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на
AIJ и
рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу.
Представляем
Malvina.
Multimodal Artificial Language VIsion Neural Assistant.
Мальвина — функциональное расширение
GigaChat, которое открывает возможность
любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода.
Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя.
Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска.
Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии.
Немного по технике.
Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях.
Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна.
Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым.
Так что, задача очень сложная и амбициозная, ждите релиза!