PuLID: Pure and Lightning ID Customization via Contrastive Alignment @ ByteDance, 2024
Статья про identity-preserving генерацию (генерация с учетом черт лица человека / фигуры и пр).
Ключевые моменты:
1) SDXL-Lightning архитектура. 4 долгих шага на генерацию
2) Contrastive alignment: в архитектуре есть 2 ветки — одна обуславливается на prompt фичи, вторая на prompt + ID фичи.
Первая ветка выступает в качестве референса для второй (фичи этих веток выравниваются в течении обучения). Мотивация в том, чтобы сохранить non-ID области между 2-я путями как можно близкими И не зависимыми от ID.
=> Изменение лица (ID) при подаче в модель влияет минимальным образом на background/стиль генерации.
3) ID-loss == cosine similarity между фичами лиц исходной фотки + сгенерированной (второй ветки)
Примеры в статье черри пикаются как СОТА. На практике в генерациях есть артефакты в области глаз (которые пытаются фиксить негативным промптом).
Демо где можно погенерировать себяСтатьяРепо