Apple и Computer Vision 💔
Пересказывал своим чувакам на работе статью
Data Filtering Networks (DFN), в которой инженеры Apple применили гениальный подход:
Как выбить лучшую метрику на бенчмарке? — Нужно просто потюнить модель на датасете, который сдвинут по домену к этому бенчмарку. Даже несмотря на то, что эта модель — CLIP.
CLIP — это прекрасно генерализуемая и универсальная модель на большинство доменов БЕЗ дообучения (исключения -
медицина,
фэшион). Смысл такой модели обучить ее на непридвзятом large-scale датасете и смотреть на zero-shot перформанс на downstream задачах.
В Apple пошли другим путем: они сделали DFN — сеть, которая качественно
😳 фильтрует данные. Архитектурно, DFN — это CLIP, который они потюнили на ImageNet, Flickr и на MS COCO training датасетах*.
Далее этой моделью отфильтровали большой датасет (DataComp-12.8B) по косинусному расстоянию между image/text эмбеддингами (=> получили отфильтрованный набор данных).
На нём обучили новый CLIP, достигнув СОТЫ на бенчмарке, в который входит, и ImageNet, и Flickr, и MS COCO, и скоррелированные с ними
😎.
Не удивлен тем, что авторы не оставили свою почту в статье)
* В этом действии есть вероятность забывания исходного набора данных и подгонки под эти 3 домена (зависит от LR и прочих факторов), но универсальность модели как классификатора теряется.