Смотреть в Telegram
Наткнулся на интересное исследование с ICLR – Vision Transformers Need Registers. Оказывается, визуальные трансформеры в процессе обучения смекают, что не все токены одинаково полезны и учатся использовать малосодержательные для своих личных технических нужд – для сохранения туда глобальной информации об изображении. Речь идёт об участках карт признаков, в которых чего-то полезного изначально мало (вроде заднего фона). На первой картинке можно увидеть визуализацию артефактов в этих областях. Эффект появляется примерно в средних слоях, только в достаточно больших трансформерах (ViT >= L, OpenCLIP и DeiT-III >= B) и при достаточно долгих тренировках. Эти артефакты вносят искажения и могут ухудшать результаты в некоторых downstream задачах. Авторы делают логичный вывод - если модель вынуждена так хитро изворачиваться, значит ей чего-то в жизни явно не хватает. Поэтому в качестве регистров добавляют обучаемые токены (см. пикчу 2), которые непосредственно в предсказании не участвуют, но выполняют техническую функцию (делать ViT счастливым). После этого изменения эффект пропадает. Ну и доказывается экспериментально, что в большинстве случаев от использования регистров есть прирост качества. Самый интересный вопрос, будет ли этот эффект возникать в гибридных моделях, особенно в таких, где для подготовки патчей используются блоки со свёрточными слоями? Можно предположить, что естественные свойства свёрток и более качественные, плотные, инвариантные признаки сильно уменьшают вероятность возникновения этого эффекта. Было бы интересно исследовать, но, к сожалению, авторы вопроса гибридов совсем никак не касаются. На лично нашей практике, такие модели показывают себя очень хорошо, по крайней мере на специальных задачах, сочетая все плюсы двух миров: хорошо и быстро сходятся, требуют намного меньшие объёмы данных и достигают как минимум сравнимой точности. MiVOLO как раз именно из их числа 😄
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств