🌈 SmallThinker-3B-Preview
Языковая модель с 3,4 миллиардами параметров, разработанная на основе Qwen2.5-3B-Instruct.
✨Ключевые особенности:
•
Компактность и эффективность: Благодаря небольшому размеру, модель идеально подходит для использования на устройствах с ограниченными ресурсами, обеспечивая при этом высокую производительность.
•
Ускоренная генерация: В тестах с использованием llama.cpp модель показала ускорение на 70% (с 40 токенов/с до 70 токенов/с) по сравнению с аналогичными моделями.
•
Обучение: Модель была обучена с использованием 8 GPU H100, с глобальным размером батча 16, в течение 3 эпох.
Ограничения:
•
Языковые возможности: Модель обучена только на англоязычных данных, поэтому её способности в других языках ограничены.
•
Непредсказуемые ответы: Из-за своего размера и вероятностного характера генерации, модель может выдавать неожиданные результаты; рекомендуется проверять ответы на точность.
•
Повторения: При ответах на сложные вопросы модель склонна к повторениям; увеличение параметра repetition_penalty может помочь смягчить эту проблему.
🔗 Попробовать по
ссылке