View in Telegram
JEST — новая итерация в эволюции CLIP-like моделей (ранжировщики картинок к english описаниям, и наоборот) Всё началось с CLIP (@ OpenAI, 2021), использующий softmax-based contrastive loss. Следующим заметным шагом стал SigLIP (@ Google, 2023), использующий sigmoid-based contrastive. Затраты на обучение, по-видимому, заняли в 10-40 раз меньше, чем для CLIP (сложно точно оценить из-за разницы между обучениями на TPUv3 и TPUv4 для CLIP и SigLIP соответственно). Также были сети, по типу FLIP (маскирование ViT-патчей), LiT (тюнинг text tower под замороженный ViT). Но в июне Google DeepMind сделали JEST (Joint Example SelecTion), позволяющий обучиться в 4-10 раз быстрее, чем SigLIP (зависит от конфигурации). Актуальная цепочка: CLIP (2021) -> LiT (2021) -> FLIP (2022) -> SigLIP (2023) -> JEST (2024) 📜 Arxiv: https://arxiv.org/abs/2406.17711
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily