Немного напишу про CLIP, как это работает и что с ним можно сделать.
Как все уже слышали, OpenAI в начале января анонсировала (но не выложила и даже пока толком не описала) модель DALL-E, которая (судя по отобранным примерам) очень неплохо рисует картинки по текстовому описанию.
Поиграть с отобранными примерами можно на странице проекта, но это не так интересно. Интереснее, что они выложили отдельную модель
CLIP, которую использовали в DALL-E. Этот самый CLIP умеет переводить тексты и картинки в вектора одного общего латентного многомерного пространства. Другими словами, он сопоставляет любой картинке или любому тексту вектор чисел фиксированной длины, причём так, что у надписи, подходящей к картинке, числа будут близкими к числам самой картинки. Вот тут можно
посмотреть на случайные области картинок в этом пространстве.
С момента публикации народ начал пытаться использовать CLIP для генерации картинок. В открытом доступе есть много неплохих GAN-моделей, использующих своё собственное латентное многомерное пространство, каждой точке которого соответствует картинка, а близким точкам -- близкие картинки. (Там бывают и осмысленные направления, о которых пишутся
научные статьи, но нам сейчас это не так важно.) К сожалению, пространства CLIP и какого-нибудь GAN никак не связаны. Но всё равно можно организовать поиск подходящей картинки, упрощённо говоря, так: начинаем из любой точки пространства GAN, делаем из неё картинку, картинку отдаём CLIP и смотрим, насколько далеко мы от точки в пространстве CLIP, заданной целевым текстом, и куда надо сдвинуться в пространстве GAN. И так ползём в сторону текста.
Самое бодрое из таких попыток, что я видел за этот месяц — проект
Райена Мёрдока The Big Sleep на базе BigGAN. Народ вроде собирается поднять для проекта отдельный сайт, а пока
можно поиграться в авторский колаб (или
в русскую адаптацию колаба от
@bomze). Работает оно жутко медленно и довольно криво, и конкретные объекты (особенно не из ImageNet-а) ему даются плохо. Но если проявить воображение и набрасывать абстрактные запросы, то можно наловить неплохих картинок.
В следующей пачке картинок одна — от автора модели ("a cityscape in the style of Van Gogh"), остальные — мои: "8-bit forest", "Escher's space", "Sierpinski hat" и "Hokusai Christmas".