Прочёл сегодня на канале NLP Core Team любопытный пост про... / Pavel Zloi / Telegram Center

Прочёл сегодня на канале NLP Core Team любопытный пост про модельку SmallThinker-3B-Preview, представляет она из себя Qwen2.5-3b-Instruct которую обучали на датасетах типа thinking/reflection, но не абы как, а сначала в SFT режиме в полторы эпохи на датасете PowerInfer/QWQ-LONGCOT-500K с цепочками рассуждений, а потом добавили ещё и датасет PowerInfer/LONGCOT-Refine-500K и обучали на этих данных ещё две эпохи. Модельку уже квантовали и залили на ollama, так что можно скачивать и пробовать:

ollama run smallthinker:3b

(будет загружена q8_0 версия) В карточке модели сказано, что её обучали на английских данных, но русский язык она знает, правда быстро срывается и "переходит на китайский", плюс часто случаются бесконечные циклы и модель по кругу генерит одно и тоже. Пощупал её на некоторых моих задачках, модель на вид очень многословна, в датасетах не предусмотрели теги типа <reflection/> <thinking/> <output/> чтобы можно было хоть как-то отличать "рассуждения" от фактического ответа, ещё в датасетах много где ответ описан в \boxed() блоке, что удобно при тестировании через бенчмарки. В общем странное впечатление у меня, как и ожидалось чуда 3B модель показать не смогла.

NLP Core Team

🔥SmallThinker-3B-Preview

Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и…

https://t.center/evilfreelancer/1178

739 viewsedited Jan 6 at 13:20

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily