Мы долго держали под NDA информацию о разработке... / The Layer / Telegram Center

Мы долго держали под NDA информацию о разработке флагманского проекта команды, но теперь, после демонстрации работы на AIJ и рассказа Сергея Маркова (второй поток), наконец можем немного приоткрыть завесу. Представляем Malvina. Multimodal Artificial Language VIsion Neural Assistant. Мальвина — функциональное расширение GigaChat, которое открывает возможность любым образом редактировать изображения через текстовый запрос. И это самое приятное: нужен только промпт, никаких дополнительных масок, точек или другого ввода. Одновременно это не ControlNet'ы, преобразования ограничиваются только фантазией пользователя. Ещё некоторое время проект останется в закрытой альфе – мы хотим его доработать и отполировать до блеска. Но уже на конференции мы развернули демо-стенд, где можно было посмотреть работу технологии. Немного по технике. Архитектура спроектирована с использованием сильных сторон LLM-ассистента и всей мощи генеративных моделей. Сейчас за генерацию изображения отвечает диффузионка, но мы также очень заинтересованы в авторегрессионных решениях. Фокус изначально был взят на максимальную гибкость — мы круто инвестировали в собственные и качественные данные и заложили себе возможность для быстрой смены всех модульных частей пайплайна. Мальвина умеет работать и со сгенерированными, и с реальными изображениями. Со вторыми, конечно, сложнее: они могут находиться за пределами аппроксимированного моделью распределения, и потому очень сложно как точно инвертировать изображение в гиперпространство модели, так и осуществлять в нём «навигацию». Это затрудняет процесс редактирования и делает его менее предсказуемым. Так что, задача очень сложная и амбициозная, ждите релиза!

https://t.center/layercv/136

684 viewsGrigoriy Aleksejenko, edited Dec 13 at 17:02

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily