📊 LLaVA-CoT: новый уровень визуального мышления для ИИ
Это мощный визуальный языковой модель (VLM), способный логически рассуждать шаг за шагом на основе изображений.
⭐ Почему это круто?
Превзошла Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B на 6 сложнейших мультимодальных задачах.
Описывает проблему, интерпретирует изображение, логически рассуждает и выдаёт корректный ответ. Всё это — в одном процессе.
🌻 Реальный пример:
Представьте задачу: «Сколько объектов останется, если убрать все маленькие блестящие шары и все фиолетовые предметы?»
LLaVA-CoT не просто угадывает, она:
1️⃣ Сначала анализирует изображение и описывает, что на нём видно.
2️⃣ Делит процесс на этапы: считает объекты, отнимает нужные и в конце выдает результат.
3️⃣ Объясняет, как пришла к своему выводу.
📎 Ссылка на гитхаб