UI-TARS: Нативный ИИ-агент для работы с интерфейсами
Он превосходит GPT-4o и Claude, используя
только скриншоты — без API или текстовых меток!
Чем уникален:
▫️ Видит как человек
🌟 Распознаёт элементы интерфейса, их состояние и связи через 50+ млрд токенов данных
🌟 Точно определяет координаты кнопок, полей и меню
▫️ Думает системно
🌟 Использует двухэтапное мышление (System-2): анализ → действие
🌟 Автоматически исправляет ошибки через DPO-обучение
▫️ Работает на любых платформах
🌟 Единый алгоритм для Windows, Android, веб-интерфейсов
🌟 Клики, скроллы, ввод текста — как живой пользователь
Почему это прорыв?
🌟 На 27% точнее GPT-4o в тестах OSWorld/AndroidWorld
🌟 Сквозная архитектура: от скриншота → к действию без посредников
🌟 Самообучается на виртуальных машинах, улучшаясь с каждой ошибкой
⛓ Подробнее:
github
@gen_i_i
#полезное