📊 LLaVA-CoT: новый уровень визуального мышления для ИИ / Proglib.academy

📊

LLaVA-CoT: новый уровень визуального мышления для ИИ Это мощный визуальный языковой модель (VLM), способный логически рассуждать шаг за шагом на основе изображений. ⭐ Почему это круто? Превзошла Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B на 6 сложнейших мультимодальных задачах. Описывает проблему, интерпретирует изображение, логически рассуждает и выдаёт корректный ответ. Всё это — в одном процессе. 🌻 Реальный пример: Представьте задачу: «Сколько объектов останется, если убрать все маленькие блестящие шары и все фиолетовые предметы?» LLaVA-CoT не просто угадывает, она: 1️⃣ Сначала анализирует изображение и описывает, что на нём видно. 2️⃣ Делит процесс на этапы: считает объекты, отнимает нужные и в конце выдает результат. 3️⃣ Объясняет, как пришла к своему выводу. 📎 Ссылка на гитхаб

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/proglib_academy/2338

204 viewsJan 10 at 07:06

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily