И конечно же хочу поделиться итогами по LLM Arena!Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.
Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно
😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что
без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.
И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов
всегда оставалась любимой задачей.
Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.
Почему мы пошли по пути LMSYS Chatbot ArenaНа это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был
сертифицированным партнером Толоки, преподавателем крауда в
ВШЭ и
ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста,
разработчикам нужны бенчи на основе человеческого фидбека4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк
А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою
llmarena.ru 🎉Чего добились за эти полгода:• Добавили на
лидерборд 44 модели
• Выстроили репутацию, что даже
ЦБ о нас пишет• Получили
огромную огласку в СМИ• Запустили
мини-app LLM Arena в Telegram
•
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках
llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations
Как и в
AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!