у меня года два чесался вопрос:
а работают ли языковые модели, если входной текст скармливать в модель не жирными токенами, не посимвольно, и даже не по байтам, а экстремально — по
битам?
я всё ждал появления папир по этой теме, но вот сегодня меня достало ждать и я проверил: оказывается всё работает
😳
Если вам интересно, то вот
исходники, а вот Google Colab
Notebook.
Возможно вам будет забавно:
1. в основу взят знаменитый nanoGPT (автор Андрей Карпатый).
2. за 2 часа (!) при помощи Cursor AI + Claude-3.5-Sonnet, я прикрутил к nanoGPT побитовый токенизатор, обучил и протестировал.
Код не пришлось писать вообще! и я от этого немножко в шоке...