JEST — новая итерация в эволюции
CLIP-like моделей (ранжировщики картинок к english описаниям, и наоборот)
Всё началось с
CLIP (@ OpenAI, 2021), использующий softmax-based contrastive loss.
Следующим заметным шагом стал
SigLIP (@ Google, 2023), использующий sigmoid-based contrastive.
Затраты на обучение, по-видимому, заняли в
10-40 раз меньше, чем для CLIP (сложно точно оценить из-за разницы между обучениями на TPUv3 и TPUv4 для CLIP и SigLIP соответственно).
Также были сети, по типу
FLIP (маскирование ViT-патчей),
LiT (тюнинг text tower под замороженный ViT).
Но в июне Google DeepMind сделали
JEST (
Joint
Example
Selec
Tion), позволяющий обучиться в 4-10 раз быстрее, чем SigLIP (зависит от конфигурации).
Актуальная цепочка:
CLIP (2021) ->
LiT (2021) ->
FLIP (2022) ->
SigLIP (2023) ->
JEST (2024)
📜 Arxiv: https://arxiv.org/abs/2406.17711