Microsoft представила компактную ИИ-модель Fara-7B для управления пользовательскими интерфейсами через визуальный ввод. По словам компании, модель работает только с изображениями, анализируя скриншоты интерфейса без доступа к его структуре или HTML-коду. Модель действует циклично: наблюдает за тремя последними скриншотами, оценивает прошлые действия и пользовательский ввод, затем определяет координаты клика или необходимые нажатия клавиш.
Fara-7B работает локально на устройстве, потому что использует лишь 7 миллиардов параметров, что обеспечивает низкую задержку и повышает приватность — данные не покидают устройство.
Крупная проблема для таких ИИ — недостаток подходящих обучающих данных. Microsoft решила её с помощью синтетического сбора данных, используя свою систему Magentic-One: агент-Оркестратор создает план решения задачи, а агент WebSurfer выполняет его. Компания собрала около 145 000 успешных действий из миллиона шагов и обучила на них Fara-7B.
Также Microsoft представила собственный бенчмарк WebTailBench, который включает типы задач, слабо представленные в других тестах, например, сравнение цен и поиск работы.
На собственных тестах Microsoft Fara-7B показал 73,5% успешных выполнений (WebVoyager benchmark), опередив UI-TARS-1.5-7B и даже коммерческий GPT-4o от OpenAI на этом тесте. В независимой проверке Browserbase результат составил 62%.
Компания отмечает, что Fara-7B выполняет задачи в среднем за 16 шагов – конкуренты тратят более 40 шагов. Это напрямую влияет на стоимость эксплуатации.
Microsoft предупреждает, что модель может ошибаться, неправильно понимать инструкции или фантазировать. Поэтому Fara-7B программно останавливается перед важными действиями (например, отправкой письма или переводом денег), чтобы пользователь подтвердил операцию.
Модель доступна в виде открытых весов под MIT-лицензией на Hugging Face и Microsoft Foundry и для тестирования на Copilot+ ПК с Windows 11.
OpenAI, Anthropic, Google и Manus AI тоже работают в этом направлении, но их агенты часто выполняют задачи медленно или неэффективно и подвержены таким проблемам, как внедрение вредоносных подсказок.
Как отмечают исследователи, повышение эффективности и безопасности возможно за счёт специализированных интерфейсов для ИИ, а не только визуальных входных данных. Уже ведётся работа по стандартам взаимодействия агентов с компьютерами.






















