View in Telegram
На днях вышел новый мультимодальный бенчмарк SEED-Bench-2-Plus. Его цель – замер точности работы мультимодальных нейросетей на насыщенных текстом данных в трёх категориях: диаграммы, карты и веб-страницы. Бенчмарк позиционируется как дополнение к выпущенному теми же авторами основному SEED-Bench-2. Видимо поэтому не очень много примеров, всего 2.3к. Ну и, возможно, было решено, что они достаточно сложные. Не могут же они майнить Хирша, правда? 😳 Самое интересное в этой статье – сравнение реально всех SOTA моделей, даже ChatGPT и вышедшей за 3 дня 😳 до бенчмарка SEED-X. Всего проверяют 34 модели. Примеры состоят из вопросов по изображениям с 4 вариантами ответов, см. первую пикчу. А на следующей представлены итоговые результаты. Интересно, что ChatGPT не первая и даже не вторая модель в подзадаче с веб-страницами и проигрывает ОС моделям. Что ещё раз намекает, как бы ни славились MLLM универсальностью и генерализацией, как бы ни были хороши коммерческие решения, модель всё ещё нужно выбирать конкретно под решаемую задачу. В целом же, известно, что с такими данными все MLLM справляются со скрежетом и числа в лидерборде это лишний раз подтверждают.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily