🥺После дискуссии в комментариях, считаю своим долгом... / что-то на DL-ском / Telegram Center

🥺После дискуссии в комментариях, считаю своим долгом написать обзор на Your Transformer is Secretly Linear И доказать!!! Как сильно отличается подход в текущей статье от сегодняшнего предыдущего обзора ❤️Авторы обнаружили (ща отмечу исходный обзор автора, чтобы вы пошли почитали туда. Потому что моя то главная цель только что-то там доказать в интернете), что преобразования между слоями LLM-ок почти линейно по метрике Прокруста 🩰🩰Такая фигня, которая помогает измерить сходство наборов, например векторов, после выравнивания ❤️В ходе анализа появилось наблюдение, что на претрене линейность уменьшалась, а на дообучении возрастала, ввиду гибкости трансформеров при адаптации ❤️Обнаружения в первом и втором пункте привели к исследованиям в сторону регуляризации на основе косинусного сходства, чтобы снизить линейность и удаления наиболее линейных слоев Итак, теперь вернемся к тому, что статья вообще про другое!!! ❤️В предыдущей статье внимание акцентировалось на том, что attention в 50% случае избыточен, а тут на том, что мы можем избавиться от слишком линейных слоев ❤️Метрики разные, очев, да? ❤️Тут исследовались методы регуляризации на претрене, в то время, как у предыдущей статьи авторы дропали слои уже на посттреин ❤️А еще в этой статье слои не только удаляются, но еще и заменяются линейными аппроксимациями, что минимизирует потерю производительности после удаления 😬 Все, думайте 😐Пользуясь случаем подведу к тому, что в предыдущей статье главный поинт для меня был в том, что attention можно дропать частично, в то время, как предыдущие исследования показывают его важность. Тем не менее, в комментах к предыдущему посту накидали 4 довольно похожие статьи на ту же идею с attention. Приходите читать, ссылки в чате 📖Папир

🖥

Код

Please open Telegram to view this post

VIEW IN TELEGRAM

что-то на DL-ском

What Matters in Transformers? Not All Attention is Needed

Занятная статья про исследование важности слоев в трансформере для ускорения и довольно неожиданный результат, ⢄⠍⠨ ⢐⠓⡊⡂⡘⠚⡢ ⠕⠜⢰ ⢁⣈⡠⠔

🪄Цель: проверить избыточность компонент в LLM для ускорения без…

https://t.center/nadlskom/500

2.8K viewsedited Nov 10 at 17:16

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily