View in Telegram
о фундаментальном
Спасибо @che_shr_cat за обзор отличной статьи. Печально, что мы все еще рассматриваем softmax просто как «удобный инструмент для нормализации». Softmax имеет гораздо более глубокое значение. Это обобщение логистической функции. Когда мы используем softmax…
ну, и чтобы два раза не вставать, вот вкратце и следующие эпатажные естественные утверждения:

1. в отличие от фазы обучения, инференс во всяких GPT- образных архитектурах уже не пахнет диффурами. Всё уже надёжно укатано в асфальт прямого распространения по сеточке.

2. в рекурентных сеточках (типа mamba-архитектуры) даже в момент инференса мы без проблем можем видеть работу диффуров.

(краткое объяснение с которым я в сути согласен).

3. в GPT-архитектуре нет "дифференциальной" жизни после обучения. Она убита при деплое для инференса. Но её туда можно вернуть. Первое, что нужно — это легализовать изменение весов в рамках инференса в ходе обратного (рекурентного) распространения.

4. да, как сказано выше в п.2, в рекуррентных сеточках "дифференциальная жизнь" есть даже в фазе инференса, но (так же, как и в п3 случае выше) нет обучения весов при рекуррентном ходе.

5. autoGrad и символьное дифференцирование — не такой уж уникальный ингредиент успешного обучения нейронных сеточек. Всё великолепно обошлось бы и без этих двух крепких парней. Вы ведь любите softmax? Ну, так что ж вы не берёте даром брошенное приданное? Там же производная считается на раз плюнуть: f'(x) = f(x)(1-f(x))

make damn sigmoid great again! 🤓
ну или сразу сделайте уж softmax great наконец, он этого достоин!
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily