Агенты OpenAI
Нам показывают Operator:
https://openai.com/index/introducing-operator/
агент для работы в вебе на базе новой модельки
Computer-Using Agent - это типа GPT-4o + ризонинг
🎹 (учился с помощью reinforcement learning),
работает с внутренним браузером смотрит на скриншоты и выполняет действия с GUI как делал бы человек используя клаву + мышку, а когда надо - рассуждает (если что-то не выходит сделать например), а если совсем никак - отдает управлению юзеру.
Ну т.е. эту штуку можно просить делать что угодно что в интернетике через браузер можно делать. (и кстати это самая развитая область сегодня - вебагенты)
При этом он научен просить пользователя самого работать с задачами типа логина и ввода капчи. (security)
Пишут, что sota на
WebArena и
WebVoyager
Ссылочки
https://openai.com/index/operator-system-card/
https://openai.com/index/computer-using-agent/