2️⃣вклад авторов — training cost reduiction.
Авторы в части своих экспериментов, заменяют ViT в JEST-модели на Flexi-ViT, который прекрасно работает с 16 и 32 patch sizes (ps). Авторы сосредотачиваются на vision-ветке, потому что в ней больше всего вычислений.
Когда авторы делают forward на большой super-батч (для получения матрицы), они делают это с ps=32 (падение FLOPs на 72% по сравнению с ps=16).
Multi-Res Training: когда наступает backward-итерация, то половина батча обрабатывается моделью с ps=16, а половину с ps=32 (по сравнению с Full-Res — это 64% FLOPs).
Reference-моделью в статье выступает SigLIP, затюненный на high quality сэмплах WebLI-curated датасета (100М сэмплов). Данные для него фильтруют не только CLIP-скорами, но и [как-то] фильтруют тексты.
Также авторы вводят WebLI-curated++ датасет, который добавляет 600М наскрапленных фоток, которые описывают моделью PALI, и описывают до тех пор пока описание не будет хорошие (на основе CLIP-скора).
Соответсвенно, JEST — модель притягиваемая к 1-ому SigLIP, а JEST++ — модель, притягиваемая к SigLIP, который затюнен на WebLI-curated++.
Как итог, Flexi-JEST++ догоняет SigLIP по метрикам, используя в 9 раз меньше FLOPs на обучение (статья: таблица 1). Данных используют в 10 раз меньше (для backward-а!).
JEST воспроизводится, и на softmax, и на sigmoid-contrastive лоссах. При любом размере Vision части (пробовали Base и Large).
Filter_ratio авторы выставляют 0.8 по умолчанию, и фильтруют им super-батч из 163_840 элементов (=> 32_768 элементов в hard-батче)