Better & Faster Language Models via Multi-token prediction
Только ленивый не восхитился статей с multi-token на линкедине, быстренько разберемся в чем соль.
0️⃣ Помните, мы говорили про speculative decoding? папир
Его можно делать как self, то есть когда вы предсказываете несколько токенов сразу -> blockwise parallel decoding. Это когда вы параллельно предсказываете следующие токены, но используете только один контекст. То есть для генерации 10-ого слова у вас есть 9 предыдущих, для генерации 11-ого слова у вас также есть 9 предыдущих, для генерации 12-ого тоже только 9. И так вы считаете в параллель. Но если мы можем предсказывать без ближайшего контекста, то почему мы не можем также тренировать?
1️⃣ Почему это может быть выгодно?
Мы можем генерить быстрее. Вроде бы этого достаточно, но! Нужно же качество
чтобы все снова сравнивали с мозгом, так увеличение до 4 токенов для маленьких помогает в задаче induction (предсказать токен-пару), улучшает метрики для algorithmic reasoning и лечит кукуху.
2️⃣Как это сделать?
Авторы предлагают шарить несколько частей: общий trasformer truck и unembedding matrix (впервые видела, чтобы так называли...). Что не шарим? N-голов, каждая из голов отвечает за следующую x+n позицию, но каждой голове известен один и тот же контекст. Собственно почему бы не перестать делать несколько n прогонов? Так и делают, после прохода через shared truck, мы идем по головам и собственно считаем лоссы, как прошлись посчитали предыдущий лосс с shared truck'a.
Картинка в комментариях
3️⃣А разве раньше уже не показали, что это неверный подход?
Да, как раз авторы показывают, что такой кейс появляется только с usefullness only on scale. Так показатели повышаются только с увеличением модели от 3B. (Figure 3)
4️⃣Почему это может работать?
Одно из объяснений - это lookahead reinforces choice points, то есть для предсказания сложного токена мы увидим цепочку n раз, а не 1. Например, сложно предсказать 5 токен. Раньше мы видели его как 4 токен -> 5 токен. А теперь с предсказанием по 3 токена мы увидим его в 2 -> 5, 3 -> 5, 4 -> 5. Там еще формул накидали за information-theoretical argument, но кажется смысл тот же.
папир
#grokaem_nlp