Смотреть в Telegram
Эквивалент GPT-2 Small теперь тренируют за 12 минут Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов. Поменяли функцию активации на relu^2, а норму - на RMSNorm. Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента). Projection matrices инициализируют теперь нулями. Добавили норму к QK-проекциям. Паддят эмбеддинг-матрицу до размерности, кратной 64. Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная. Код для тренировки, кстати, всего 500 строк. https://github.com/KellerJordan/modded-nanogpt @ai_newz
Telegram Center
Telegram Center
Канал