Прочёл сегодня на канале NLP Core Team любопытный
пост про модельку
SmallThinker-3B-Preview, представляет она из себя
Qwen2.5-3b-Instruct которую обучали на датасетах типа thinking/reflection, но не абы как, а сначала в SFT режиме в полторы эпохи на датасете
PowerInfer/QWQ-LONGCOT-500K с цепочками рассуждений, а потом добавили ещё и датасет
PowerInfer/LONGCOT-Refine-500K и обучали на этих данных ещё две эпохи.
Модельку уже квантовали и
залили на ollama, так что можно скачивать и пробовать:
ollama run smallthinker:3b
(будет загружена q8_0 версия)
В карточке модели сказано, что её обучали на английских данных, но русский язык она знает, правда быстро срывается и "переходит на китайский", плюс часто случаются бесконечные циклы и модель по кругу генерит одно и тоже.
Пощупал её на некоторых моих задачках, модель на вид очень многословна, в датасетах не предусмотрели теги типа <reflection/> <thinking/> <output/> чтобы можно было хоть как-то отличать "рассуждения" от фактического ответа, ещё в датасетах много где ответ описан в
\boxed()
блоке, что удобно при тестировании через бенчмарки.
В общем странное впечатление у меня, как и ожидалось чуда 3B модель показать не смогла.