View in Telegram
2️⃣ вклад авторов — training cost reduiction. Авторы в части своих экспериментов, заменяют ViT в JEST-модели на Flexi-ViT, который прекрасно работает с 16 и 32 patch sizes (ps). Авторы сосредотачиваются на vision-ветке, потому что в ней больше всего вычислений. Когда авторы делают forward на большой super-батч (для получения матрицы), они делают это с ps=32 (падение FLOPs на 72% по сравнению с ps=16). Multi-Res Training: когда наступает backward-итерация, то половина батча обрабатывается моделью с ps=16, а половину с ps=32 (по сравнению с Full-Res — это 64% FLOPs). Reference-моделью в статье выступает SigLIP, затюненный на high quality сэмплах WebLI-curated датасета (100М сэмплов). Данные для него фильтруют не только CLIP-скорами, но и [как-то] фильтруют тексты. Также авторы вводят WebLI-curated++ датасет, который добавляет 600М наскрапленных фоток, которые описывают моделью PALI, и описывают до тех пор пока описание не будет хорошие (на основе CLIP-скора). Соответсвенно, JEST — модель притягиваемая к 1-ому SigLIP, а JEST++ — модель, притягиваемая к SigLIP, который затюнен на WebLI-curated++. Как итог, Flexi-JEST++ догоняет SigLIP по метрикам, используя в 9 раз меньше FLOPs на обучение (статья: таблица 1). Данных используют в 10 раз меньше (для backward-а!). JEST воспроизводится, и на softmax, и на sigmoid-contrastive лоссах. При любом размере Vision части (пробовали Base и Large). Filter_ratio авторы выставляют 0.8 по умолчанию, и фильтруют им super-батч из 163_840 элементов (=> 32_768 элементов в hard-батче)
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily