Visual Transformer (ViT)
Вот и кульминация серии постов про attention
🚀 Разобрали первый трансформер для изображений ViT. Это очень полезный материал, который поможет вам разобраться в трансформерах.
Прочитав нашу большую статью, вы узнаете/вспомните:
- из каких частей состоит ViT и что делает каждая из них;
- почему в ViT перепутаны слои энкодера; *интрига*
- что такое Multi-Head Self-Attention;
- зачем нужен [cls]-токен;
- чем отличается BatchNorm от LayerNorm.
Также каждую часть трансформера мы реализовали в коде, который вы можете повторить, чтобы глубже разобраться в архитектуре.
Читайте и делитесь с коллегами, приятного чтения:
https://deepschool-pro.notion.site/ViT-a6854b69af4945a89870cfc497654bf1