Transferring Knowledge from Large Foundation Models to Small Downstream Models
авторы задались довольно хорошим вопросом и смогли ответить на него технической реализацией: почему во время knowledge distillation мы заставляем студента выучивать вообще все, что делает тичер, а не только полезное?
и в общем идея такая - давайте вычленять только те фичи, что полезны для downstream таски, при этом не ругать модель за то, что она забыла некоторые фичи большой модели, но только за “лишние” фичи
делают это все через формализацию mutual information + variational encoder + полируют это все через кернел дистанс
из интересного еще стоит отметить, что легко можно дистиллить знания из нескольких моделей одновременно, просто конкатив их фичи - формулы остаются те же + авторы докладывают о том, что это полезнее для св, чем для нлп. спекулируют, что нлп фаундейшн модели в бОльшей степени похожи между собой, чем св модели. в принципе довольно логично и по архитектурам, и по токенайзерам, и по датасетам, но недостаточно (та может это и не так важно, но просто интересно). но, например,
здесь про такой феномен ничего не говорят
имхо стоит попробовать в своих задачах
👀LINK