Эта арена сломалась, несите новую
Что-то GPT-4o mini
слишком высоко на арене. Видимо, OpenAI начали слишком сильно тюнить модели для арены (если кто не знал, lmsys публикует 20% чатов, которые случаются на арене, OpenAI этого было достаточно). Что ж, закон Гудхарта в действии.
Кстати, с последнего раза, когда я писал об арене, топ-1 опенсорс модель успела смениться несколько раз. Сначала Nemotron 340B от Nvidia обошёл Llama 3.0 70B, после этого его уже обскакала
Gemma 2, а сейчас лидирует новая версия
DeepSeek V2. Llama 3.1 там ещё нет, но результаты должны быть уже скоро.
Узнать подробнее, что за Арена можно в этом посте.
@ai_newz