На днях вышел новый мультимодальный бенчмарк
SEED-Bench-2-Plus. Его цель – замер точности работы мультимодальных нейросетей на насыщенных текстом данных в трёх категориях: диаграммы, карты и веб-страницы.
Бенчмарк позиционируется как дополнение к выпущенному теми же авторами основному
SEED-Bench-2. Видимо поэтому не очень много примеров, всего 2.3к. Ну и, возможно, было решено, что они достаточно сложные.
Не могут же они майнить Хирша, правда? 😳
Самое интересное в этой статье – сравнение реально всех SOTA моделей, даже ChatGPT и вышедшей за 3 дня
😳 до бенчмарка
SEED-X.
Всего проверяют 34 модели.
Примеры состоят из вопросов по изображениям с 4 вариантами ответов, см. первую пикчу.
А на следующей представлены итоговые результаты.
Интересно, что ChatGPT не первая и даже не вторая модель в подзадаче с веб-страницами и проигрывает ОС моделям. Что
ещё раз намекает, как бы ни славились MLLM универсальностью и генерализацией, как бы ни были хороши коммерческие решения, модель всё ещё нужно выбирать конкретно под решаемую задачу.
В целом же, известно, что с такими данными все MLLM справляются со скрежетом и числа в лидерборде это лишний раз подтверждают.