ну, и чтобы два раза не вставать, вот вкратце и следующие
эпатажные естественные утверждения:
1. в отличие от фазы обучения, инференс во всяких GPT- образных архитектурах уже не пахнет диффурами. Всё уже надёжно укатано в асфальт прямого распространения по сеточке.
2. в рекурентных сеточках (типа mamba-архитектуры) даже в момент инференса мы без проблем можем видеть работу диффуров.
(краткое
объяснение с которым я в сути согласен).
3. в GPT-архитектуре нет "дифференциальной" жизни после обучения. Она убита при деплое для инференса. Но её туда можно вернуть. Первое, что нужно — это легализовать изменение весов в рамках инференса в ходе обратного (рекурентного) распространения.
4. да, как сказано выше в п.2, в рекуррентных сеточках "дифференциальная жизнь" есть даже в фазе инференса, но (так же, как и в п3 случае выше)
нет обучения весов при рекуррентном ходе.5. autoGrad и символьное дифференцирование — не такой уж уникальный ингредиент успешного обучения нейронных сеточек. Всё великолепно обошлось бы и без этих двух крепких парней. Вы ведь любите softmax? Ну, так что ж вы не берёте даром брошенное приданное? Там же производная считается на раз плюнуть:
f'(x) = f(x)(1-f(x))
make damn sigmoid great again!
🤓ну или сразу сделайте уж softmax great наконец, он этого достоин!