👀 AI теперь видит и сделает за вас рутинные задачи
Раньше для автоматизации действий в браузере этого требовалось цепляться к html-элементам, четко задавать последовательность шагов, из-за этого существовал порог входа. Теперь у GPT появилась способность видеть и открылось новое пространство решать эту задачу. Разберемся, какие новые подходы уже доступны на рынке автоматизаций.
Adept: еще до ChatGPT хайпа показали свою
модель для превращения запроса пользователя в действия. Недавно открыла бету в свой первый продукт
Experiments и закрыли раунд на $350mln. Важно, они пока не заявляли про поддержку «видения» в своих продуктах, но это явно вписывается в их стратегию построить AGI.
Induced AI: у этих ребят только $2.3 mln. инвестиций, но зато инвестировал Сэм Альтман. Они также предлагают продукт для автоматизации рутинных задач. Для этого планируют использовать смешанный подход: облачное решение, интеграции с сервисами по API, но в тоже время хотят использовать виртуальый браузер, в котором понадобится возможность «видеть». Для этого сейчас нанимают эксперта в
Chromium.
VimGPT: опен-сорсная демка и единственный продукт из подборки, который можно по настоящему попробовать. Проект позволяет управлять виртуальным браузером через команды «найди в гугле все ai+sales продукты и прочитай их контент». GPT получает скриншот страницы, анализирует его и составляет очередность действий. Демка очень сырая, но дает понимание текущих возможностей.
😎 Официально GPT Vision используется только в последнем проекте, но я все равно вынес это в заголовок. «Видение» в перспективе станет ключевой технологий на рынке автоматизаций. На наших глазах появиласть возможность автоматизировать любые действия на сайтах без привязок к API или html-элементам. AI-работникам из предыдущего
поста понадобится такой же визуальный инпут, чтобы эффективно решать задачи реального мира. Уже придумали какие задачи будете автоматизировать в первую очередь?
@prod1337