DeepSeek 2.5 оказался лучшей моделью для автокомплита кода
Спустя всего пару недель после запуска, подъехали результаты с
Copilot Arena. На удивление для всех, топовой моделью там оказался
DeepSeek 2.5, опередив Claude Sonnet, Codestral и Llama 3.1 405B. А вот модели от OpenAI заметно отстают. GPT 4o-mini — худшая модель из всех, которые тестили, причём отставание огромное.
Что примечательно, дешевле DeepSeek 2.5 лишь Gemini Flash, и то до учёта context caching'а, который у DeepSeek автоматически хранится сутки и сбивает цену инпута в 10 раз. В реальном использовании она дешевле всех, да к тому же единственная полностью открытая модель из топа (у Codestral драконовская лицензия).
o1 и o1-mini тут не участвовали, потому что задержка там слишком высокая для автокомплита, а новая Qwen 2.5 Coder просто не успела на лидерборд. Не хватает и более специализированных моделей — вроде Cursor Tab или Supermaven, которые создатели Cursor недавно купили. Они явно будут похуже чисто из-за размеров, но вопрос, насколько.
@ai_newz