Если вы активный пользователь больших визуальных (мультимодальных) моделей, таких как
Google Gemini или
ChatGPT-4V 🗯, которые принимают на вход не только текст, но и изображение, то вероятно, что вы уже привыкли решать через них множество разных задач.
Используют их в хвост и гриву не только целевые пользователи, но и исследователи: через LVM (они же в нашем контексте MLLM, LMM) чего только не вытворяют: от
сегментации объектов до
редактирования изображений.
Несмотря на то, что стоимость \ время инференса этих моделей может превышать стоимость специализированных решений
в тысячи раз, всё равно это выглядит привлекательно.
Судите сами:
Вместо того, чтобы каждый раз собирать тонну данных, чистить их, исследовать задачу, заниматься бесконечной инженерной работой, не говоря о том, что нужно обладать некоторыми знаниями и опытом, достаточно просто правильно подобрать промт и развернуть модель \ заплатить за API.
Множество стартапов так и живут.
Работает всё иной раз так хорошо, что кажется, что через них можно решить буквально что угодно. С точки зрения науки, тем не менее, не совсем понятно, действительно это уже так или пока ещё вопрос ближайшего будущего. В каких-то задачах данные есть и они говорят, что да, в других задачах выходит, что нет, в большинстве ничего не понятно.
В процессе разработки
второй версии MiVOLO мы об этом много думали и экспериментировали. Было интересно, на что уже способны лучшие из MLLM, что можно выжать из них для нашей задачи в максимуме и есть ли вообще ещё смысл в спец. моделях? Ответов накопилось на статью
😁 Вчера выпустили препринт:
📖 https://arxiv.org/abs/2403.02302