View in Telegram
🥺После дискуссии в комментариях, считаю своим долгом написать обзор на Your Transformer is Secretly Linear И доказать!!! Как сильно отличается подход в текущей статье от сегодняшнего предыдущего обзора ❤️Авторы обнаружили (ща отмечу исходный обзор автора, чтобы вы пошли почитали туда. Потому что моя то главная цель только что-то там доказать в интернете), что преобразования между слоями LLM-ок почти линейно по метрике Прокруста 🩰🩰Такая фигня, которая помогает измерить сходство наборов, например векторов, после выравнивания ❤️В ходе анализа появилось наблюдение, что на претрене линейность уменьшалась, а на дообучении возрастала, ввиду гибкости трансформеров при адаптации ❤️Обнаружения в первом и втором пункте привели к исследованиям в сторону регуляризации на основе косинусного сходства, чтобы снизить линейность и удаления наиболее линейных слоев Итак, теперь вернемся к тому, что статья вообще про другое!!! ❤️В предыдущей статье внимание акцентировалось на том, что attention в 50% случае избыточен, а тут на том, что мы можем избавиться от слишком линейных слоев ❤️Метрики разные, очев, да? ❤️Тут исследовались методы регуляризации на претрене, в то время, как у предыдущей статьи авторы дропали слои уже на посттреин ❤️А еще в этой статье слои не только удаляются, но еще и заменяются линейными аппроксимациями, что минимизирует потерю производительности после удаления 😬 Все, думайте 😐Пользуясь случаем подведу к тому, что в предыдущей статье главный поинт для меня был в том, что attention можно дропать частично, в то время, как предыдущие исследования показывают его важность. Тем не менее, в комментах к предыдущему посту накидали 4 довольно похожие статьи на ту же идею с attention. Приходите читать, ссылки в чате 📖Папир 🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily