Презентация по трансформерам 🤔
В середине июня я
упоминал, что готовлю презентацию по трансформерам внутри команды. Так вот в начале августа я её успешно провёл!
Изначально планировал, что уложусь в 1.5 часа... По итогу пришлось рассказывать в течение рабочего дня в два этапа примерно по 2 часа — 4 часа в общей сложности! Зато и команда осталась довольна, да и я сам кайфанул от результата.
Хотелось бы упомянуть инструменты и источники, которые помогли перелопатить большие объёмы статей!
Инструменты 🤥
•
arxivdiff — чтобы сравнивать версии статей и подсвечивать внесённые правки. Актуально, потому что Google к примеру совсем недавно обновили Attention Is All You Need
•
connected papers — чтобы выстраивать граф упоминаний между статьями и быстро находить первоисточники каких-то идей или смотреть общую траекторию развития направления
•
paperswithcode/methods — хороший кодификатор модификаций отдельных блоков DL, лично я смотрел модификации Attention
•
zotero — чтобы быстро под рукой хранить изучаемые статьи, делать выделения, оставлять комментарии в PDF и экспортировать такие хайлайты в вашу PKM тип того же
logseq или obsidian
Упражнения 😓
Кроме того, я всё-таки прорешал
те самые упражнения на реимплементацию BERT и Llama моделек. Там, конечно, не обошлось без сюрпризов, но об этом как-нибудь расскажу отдельно. Мои решения залиты на GitHub
[BERT, Llama], но не списывайте точь-в-точь! Крайне рекомендую, оказалось весьма полезно для понимания.
Сейчас в планах чуть адаптировать и проработать материал, а потом провести лайв-презентацию для вас, здесь на канале. Пока же для самых нетерпеливых прилагаю PDF версию слайдов, может быть полезно для ознакомления уже сейчас!
Отдельная благодарность YouTube, вебинарам DeepSchool и Илье Гусеву — благодаря нему много узнал про особенности позиционного кодирования.
За остальным велком в презу!
#Review #Links