Пока OpenAI
начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!),
китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс
Он называется UI-TARS и вышел под лицензией Apache 2.0 (
репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B,
вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.
Самое интересное:
в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.
На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.
Статья здесь