Вчера у зарубежного LMSYS вышли значительные обновления.
Самое главное - внедрение фильтра
style control.
В июле
возникло много критики и непонимания почему малая модель GPT-4o mini обогнала в рейтинге все большие модели, такие как GPT-4, Claude 3.5 Sonnet и т.д.
Автор канала "эйай ньюз"
выдвинул следующую гипотезу: "
4o mini просто даёт более детальные ответы относительно быстро. Людям влом всё это всё читать и они голосуют за 4o mini, не особо проверяя корректность".
Вчера LMSYS подтвердил эту гипотезу, выложив статью "
Does style matter? Disentangling style and substance in Chatbot Arena”. Краткое содержание на русском доступно
тут.
Мы уже в процессе добавления фильтра
style control на
llmarena.ru, планируем выкатить на следующей неделе! Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!