Смотреть в Telegram
Apple и Computer Vision 💔 Пересказывал своим чувакам на работе статью Data Filtering Networks (DFN), в которой инженеры Apple применили гениальный подход: Как выбить лучшую метрику на бенчмарке? — Нужно просто потюнить модель на датасете, который сдвинут по домену к этому бенчмарку. Даже несмотря на то, что эта модель — CLIP. CLIP — это прекрасно генерализуемая и универсальная модель на большинство доменов БЕЗ дообучения (исключения - медицина, фэшион). Смысл такой модели обучить ее на непридвзятом large-scale датасете и смотреть на zero-shot перформанс на downstream задачах. В Apple пошли другим путем: они сделали DFN — сеть, которая качественно 😳 фильтрует данные. Архитектурно, DFN — это CLIP, который они потюнили на ImageNet, Flickr и на MS COCO training датасетах*. Далее этой моделью отфильтровали большой датасет (DataComp-12.8B) по косинусному расстоянию между image/text эмбеддингами (=> получили отфильтрованный набор данных). На нём обучили новый CLIP, достигнув СОТЫ на бенчмарке, в который входит, и ImageNet, и Flickr, и MS COCO, и скоррелированные с ними 😎. Не удивлен тем, что авторы не оставили свою почту в статье) * В этом действии есть вероятность забывания исходного набора данных и подгонки под эти 3 домена (зависит от LR и прочих факторов), но универсальность модели как классификатора теряется.
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств