Всем привет! Врываемся к вам с апдейтами и новостями за последний месяц.
Новость 1: Сегодня мы обновили
лидерборд, сузили интервалы для новых моделек Llama 3.1, добавили на него модели T-lite, Gemma 2 27B.
Новость 2: По аналогии с зарубежным LMSYS, мы
открываем прием заявок на получение доступа к данным, по которым строится лидерборд. Чтобы вы сами могли изучить на каких данных основывается бенчмарк и детальнее изучить логи каждой из 28 моделей.
Новость 3: Добавили фильтры
"crowdsourcing / simple prompts" и
"site visitors / medium prompts".
"crowdsourcing / simple prompts" - ответы юзеров с краудсорсинговых платформ. Эта когорта юзеров далека от опытного пользователя LLM, в основном задает информационные вопросы.
"site visitors / medium prompts" - обычные пользователи
llmarena.ru с более сложными промптами.
Новость 4: За последний месяц посещаемость сайта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали
Коммерсантъ,
ITZine,
Machinelearning,
Tproger,
ХАЙТЕК,
RSpectr,
hi-tech,
газета.ru,
Хабр,
Lenta.ru. Крайне рады что наша работа важна и интересна людям, и очень круто, что появляется комьюнити вокруг бенчмарка.
Если у вас есть вопросы, либо хотите участвовать в развитии бечмарка - вступайте в наш
чат.