View in Telegram
Бенчмарк Qwen 2.5 и DeepSeek 2.5 Недавно вышедший Qwen 2.5 72B Instruct оказался неожиданно хорош. Это первая локальная модель, которая побила Claude 3.5 Sonnet на продуктовых задачах из моих бенчмарков. Он еще и стоит меньше всех остальных моделей в топах. Стоимость прогона рассчитана на базе цен из OpenRouter. Qwen 2.5 72B внимательно следует инструкциям (в отличие от того же Sonnet и старых версий GPT-4) и может похвастаться довольно неплохим Reason. У этой китайской модели есть провалы в задачах работы с кодом (но там делают отдельную модель) и с английскими текстами (Marketing). А вот DeepSeek 2.5 оказался не так хорош. Параметров - 236B, а точность выполнения задач из продуктов с LLM под капотом - на уровне Mistral Large 123B и старой модели GPT-4 Turbo. И это потрясающие новости, что все больше локальных моделей подбирается к планке GPT-4 Turbo. А то, что ее так далеко преодолела модель на 72B - это повод для отдельного праздника 🚀 Я думаю, в этом году это не последняя подобная модель. Ваш, @llm_under_hood 🤗 🔗 Бенчмарк GPT o1 PS: Для тех, кто видит эти бенчмарки впервые, напомню - это закрытые продуктовые бенчмарки на основе набора задач из рабочих систем. Мы тестируем не то, как красиво модели болтают, а насколько качественно они выполняют конкретные задачи из продуктов с LLM под капотом. Про структуру и примеры бенчмарков можно прочитать в лабах или на официальном сайте бенчмарков.
Telegram Center
Telegram Center
Channel