View in Telegram
Прочёл сегодня на канале NLP Core Team любопытный пост про модельку SmallThinker-3B-Preview, представляет она из себя Qwen2.5-3b-Instruct которую обучали на датасетах типа thinking/reflection, но не абы как, а сначала в SFT режиме в полторы эпохи на датасете PowerInfer/QWQ-LONGCOT-500K с цепочками рассуждений, а потом добавили ещё и датасет PowerInfer/LONGCOT-Refine-500K и обучали на этих данных ещё две эпохи. Модельку уже квантовали и залили на ollama, так что можно скачивать и пробовать:
ollama run smallthinker:3b
(будет загружена q8_0 версия) В карточке модели сказано, что её обучали на английских данных, но русский язык она знает, правда быстро срывается и "переходит на китайский", плюс часто случаются бесконечные циклы и модель по кругу генерит одно и тоже. Пощупал её на некоторых моих задачках, модель на вид очень многословна, в датасетах не предусмотрели теги типа <reflection/> <thinking/> <output/> чтобы можно было хоть как-то отличать "рассуждения" от фактического ответа, ещё в датасетах много где ответ описан в \boxed() блоке, что удобно при тестировании через бенчмарки. В общем странное впечатление у меня, как и ожидалось чуда 3B модель показать не смогла.
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily