После дискуссии в комментариях, считаю своим долгом написать обзор на
Your Transformer is Secretly Linear
И доказать!!! Как сильно отличается подход в текущей статье от
сегодняшнего
предыдущего обзора
❤️Авторы обнаружили (ща
отмечу исходный обзор автора, чтобы вы пошли почитали туда. Потому что моя то главная цель только что-то там доказать в интернете), что преобразования между слоями LLM-ок почти линейно по метрике Прокруса
🩰🩰Такая фигня, которая помогает измерить сходство наборов, например векторов, после выравнивания
❤️В ходе анализа появилось наблюдение, что на претрене линейность уменьшалась, а на дообучении возрастала, ввиду гибкости трансформеров при адаптации
❤️Обнаружения в первом и втором пункте привели к исследованиям в сторону регуляризации на основе косинусного сходства, чтобы снизить линейность и удаления наиболее линейных слоев
Итак, теперь вернемся к тому, что статья вообще про другое!!!
❤️В предыдущей статье внимание акцентировалось на том, что attention в 50% случае избыточен, а тут на том, что мы можем избавиться от слишком линейных слоев
❤️Метрики разные, очев, да?
❤️Тут исследовались методы регуляризации на претрене, в то время, как у предыдущей статьи авторы дропали слои уже на посттреин
❤️А еще в этой статье слои не только удаляются, но еще и заменяются линейными аппроксимациями, что минимизирует потерю производительности после удаления
😬 Все, думайте
😐Пользуясь случаем подведу к тому, что в предыдущей статье главный поинт для меня был в том, что attention можно дропать частично, в то время, как предыдущие исследования показывают его важность. Тем не менее, в комментах к предыдущему посту накидали 4 довольно похожие статьи на ту же идею с attention. Приходите читать, ссылки в чате
📖Папир
🖥Код