Не забыли DeepSeek и про простых смертных - компания выпустила целую линейку дистиллированых из R1 моделей.
Даже 1.5B моделька показывает себя лучше Sonnet и оригинальной 4o на математических бенчмарках, 14B уверенно обходит QwQ, а 32B - o1-mini (правда отстаёт на Codeforces).
Вместо дистилляции пробовали учить напрямую через RL на маленькой модельке, но результаты были сильно хуже. С дистилляцией модель может напрямую учиться у большей модели размышлять, а не самой искать эффективные способы размышления.
Интеллект для всех, даром, и пусть никто не уйдёт обиженный!Qwen 1.5BQwen 7BLlama 8BQwen 14BQwen 32BLlama 70B@ai_newz