Смотреть в Telegram
Если вы активный пользователь больших визуальных (мультимодальных) моделей, таких как Google Gemini или ChatGPT-4V 🗯, которые принимают на вход не только текст, но и изображение, то вероятно, что вы уже привыкли решать через них множество разных задач. Используют их в хвост и гриву не только целевые пользователи, но и исследователи: через LVM (они же в нашем контексте MLLM, LMM) чего только не вытворяют: от сегментации объектов до редактирования изображений. Несмотря на то, что стоимость \ время инференса этих моделей может превышать стоимость специализированных решений в тысячи раз, всё равно это выглядит привлекательно. Судите сами: Вместо того, чтобы каждый раз собирать тонну данных, чистить их, исследовать задачу, заниматься бесконечной инженерной работой, не говоря о том, что нужно обладать некоторыми знаниями и опытом, достаточно просто правильно подобрать промт и развернуть модель \ заплатить за API. Множество стартапов так и живут. Работает всё иной раз так хорошо, что кажется, что через них можно решить буквально что угодно. С точки зрения науки, тем не менее, не совсем понятно, действительно это уже так или пока ещё вопрос ближайшего будущего. В каких-то задачах данные есть и они говорят, что да, в других задачах выходит, что нет, в большинстве ничего не понятно. В процессе разработки второй версии MiVOLO мы об этом много думали и экспериментировали. Было интересно, на что уже способны лучшие из MLLM, что можно выжать из них для нашей задачи в максимуме и есть ли вообще ещё смысл в спец. моделях? Ответов накопилось на статью😁 Вчера выпустили препринт: 📖 https://arxiv.org/abs/2403.02302
Please open Telegram to view this post
VIEW IN TELEGRAM
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств