Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей.
Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке.
О чем это я? Да вот есть новый концепт
Nested experts. Работа опирается на следующее.
На разном уровне вложенности в слоях модели, мы получаем разный details описываемого. Загнул дядя? Ща поясню. Для задач с картинками, как в примере к статье (а тут берут ViT) на входе в модель мы имеем векторное представление картинки, которое представляет весь объект в целом,но чем глубже мы проносим это представление от входа по слоям к выходу, тем более сложные детали изображения мы кодируем. По этому поводу есть разные исследования и для текстовых моделей в тч. Таким образом, чем дальше от начала мы берем эмб объекта, тем более тонкие материи он кодирует.
При чем тут эксперты спросите вы? А вот тут как раз вступает процедура нарезки модели на такие вот части разной глубины кодирования. Вся модель e2e — это первый эксперт. Далее, мы берем, допустим вырезаем середину модели,но берем не полную размерность от эмба — это эксперт два и в конце режем совсем малую подсетку от конца к некотором слою -L и при этом еще и также режем размерноть на -М. Для примера, авторы делают нарезку в К раз, где К =2 , те второй эксперт меньше модели по числу слоев и размеру эмбов в х2 раз, а третий в 4 раза. Тут мы имеем сразу два гиперпараметра и размер нарезки и стратегию нарезки (какие слои брать в эксперта).
Далее авторы берут ViT нарезают image на токены и кормят экспертам их по стратегии: сначала себе выбирает топN токенов вся модель, далее из тех что остались разыгрывается топN для второй серединной модельки и оставшиеся остаются "малышу" на розыгрыш.
MHA магия. Все это далее шизо-образом идет в MultiHead (картинка ниже прилагается). Для фулл модели токены имеют фулл размерность, и идут по классике в MHA. А вот для "урезанных" представлений эмбов идут в урезанные до их же размера QKV веса модуля внимания. Для того чтобы взаимодействовать с другими токенами в MHA с большим размером эмбов, их всех приводят к размеру исходной модели засчет доп. отображения. Пройдя интеракции и получив влияние от окружения такие токены идут в MLP приводящий их снова к размеру урезанного эмба и все повторяется снова.
Выводы:
Так и для чего эта вся магия была нужна? А для того, по мнению дяди, чтобы получить PCA (метод главных компонент) на максималках. Тк мы имеем экспертов с разным масштабом вложенности, да еще и с разными участками-токенами картинки, мы можем анализировать какой эксперт какую долю информации по участкам взял на себя для принятия решения. И это показано в статье в виде картинок: исходник и что на Ком эксперте. Выглядит во многом логично, но есть примеры, где модель аттендится не на те участки, что выбрал бы я сам как "главные компоненты".
Вот такая интересная статья, надо бы примериться к текстам с таким подходом. Остается незакрытым вопрос стратегии выбора подсеток (вот тут мб и Lottery tickets в помощь) ибо я сходу могу предложить несколько, но какая лучше тут еще есть место для ablation study и новой статьи.
P. S. Название красивое кстати MoNE.