Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers
история с ссмками продолжает стремительно развиваться после
ссд и
дистилляции, и теперь решили сделать субквадратичную бидирекшнл модель
и сделали! только теперь к добавлению matrix mixer
shmixer терминологии они еще вставляют sequence aligned матрицы. вспоминают еще и другие способы subquadratic обработки токенов (типа тоэплица, вандермонда с чего-то там и тд), обобщают semiseparable матрицы (коими являются ссм) до квазисепарабельных (логичные нейминги) и таким образом делают двунаправленную некаузальную мамбу-2
с точки зрения имплементации это дважды применить операцию мамбы-2 - над прямой последовательностью и над развернутой, еще надо конечно не забыть про операции сдвига, но в общих чертах так
по скейлу тестили на base моделях и меньше (что грустненько) - обыгрывают, как и предполагалось. ну окей, смеем экстраполировать опыт из прошлых статей и сказать, что на большом скейле аттеншн возьмет свое уверенное главенство
итог: трансформеры пока так и не убили (и далеко не факт что убьют), но вайбовая экосистема ссмок начинает приобретать заметные очертания
👀LINK