Кофаундер датабрикса, помимо работы СТО в компании, еще и статьи пишет -
WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH BLOCKWISE RINGATTENTIONВыглядит как отчёт о работе нормальных инженеров, которые решили попробовать что-то новое и описали результаты на arXiv.
Берут Blockwise Ring Attention, аннотируют данные (включая видео и текст) по-разном, постепенно скармливают всё это в модель, увеличивают контекст до миллиона токенов и радуются.
Из интересного – используют
Masked Sequence Packing.Предположим, у нас есть текст длиной 500 токенов, видео длиной 1 000 токенов и книга длиной 10 000 токенов. Вместо того чтобы обрабатывать каждую последовательность отдельно (с огромным количеством padding), модель объединяет их в один батч и добавляет маску, чтобы в каждый момент времени была видна только соответствующая часть каждой последовательности.
Затем лосс от каждого токена перевзвешивают по длине секции. Без этого самая длинная последовательность перевесила бы всё остальное. И радуются жизни.
В целом прорыва нет, просто разумная инструкция