Mistral обновили Codestral
Новая версия 25.01 значительно умнее и в два раза быстрее, из-за обновлённого токенизатора и улучшенной архитектуры. Окно контекста расширили до 256к токенов. Заявляют первое место на
Copilot Arena, но результаты пока что не опубликовали.
С бенчами опять шалят - Qwen 2.5 Coder в сравнении отсутствует, семейство Llama тут представляет не Llama 3.3, а Codellama 70B полуторагодичной давности.
С моделями DeepSeek, на этот раз, всё же сравнивают, но только с моделями меньше 100B параметров, из-за чего сильные MoE модели из сравнения выпадают. А ведь Codestral стоит на уровне скидочных цен DeepSeek V3 - $0.09/$0.30 за вход/выход, не на уровне моделек поменьше. Но у Mistral нету context caching, что сильно повышает цену при реальном использовании модели в кодинге (в Copilot сценариях часто входных токенов 95%+). Ждём независимых бенчей чтобы понять реально соотношение цены и качества.
Весов в открытый доступ не дают, даже по кастрированной лицензии. Попробовать бесплатно можно через плагин
continue.dev, он доступен для VS Code и JetBrains.
@ai_newz