И конечно же хочу поделиться итогами по LLM Arena! / Роман с данными / Telegram Center

И конечно же хочу поделиться итогами по LLM Arena! Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену. Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно. И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей. Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк. Почему мы пошли по пути LMSYS Chatbot Arena На это было несколько причин: 1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости. 2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею. 3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека 4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉 Чего добились за эти полгода: • Добавили на лидерборд 44 модели • Выстроили репутацию, что даже ЦБ о нас пишет • Получили огромную огласку в СМИ • Запустили мини-app LLM Arena в Telegram • Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей • В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку • Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ • Сплотились в дружную команду из 8 человек • Собрали более 50 000 оценок от юзеров • Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!

https://t.center/Roma_Data/128

565 viewsDec 31 at 10:07

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily