Hugging Face выпустила новый open-source AI агент — Open Computer Agent, который может выполнять простые действия на компьютере через браузер. Агент работает с такими приложениями, как Firefox на виртуальной Linux-машине и умеет просматривать сайты и искать информацию.
Ограничения системы заметны сразу. Даже разработчики Hugging Face отмечают медленную работу агента, частые сбои на капчах и необходимость регулярных перезагрузок. По умолчанию агент ведёт логи запросов для улучшения проекта, однако эту функцию можно отключить.
Визуальное исполнение выделяется стилем, вдохновленным сериалом Apple “Разделение”. Интерфейс агента выглядит ретрофутуристично и содержит эффект “Innie/Outie”, который можно включать и отключать.
Во время демонстрации сотрудник Hugging Face Аймерик Руше показал, как агент отвечает на вопрос о маршруте солдат Александра Македонского — пример сложной поисковой задачи.
Агент построен на фреймворке smolagents, который Hugging Face представила в декабре 2024 года. С помощью этой библиотеки разработчики могут создавать agентов с минимальным количеством кода, позволяя ИИ напрямую писать Python-код вместо команд в JSON.
В работе агент использует модель Qwen-VL от Alibaba, распознающую элементы на изображениях и помогающую ИИ взаимодействовать с интерфейсами. Последняя версия Qwen2.5-VL-32B по ряду задач даже превзошла более крупные модели, показав хорошую работу с визуальной информацией.
Запуск Open Computer Agent продолжает серию open-source инициатив Hugging Face, в которых компания ориентируется на коммерческие продукты. Например, в феврале они представили Open Deep Research — конкурент OpenAI Deep Research, собранный всего за сутки.
По данным KPMG, 65% компаний уже экспериментируют с ИИ-агентами. Несмотря на интерес бизнеса, Open Computer Agent пока остаётся экспериментом для разработчиков и исследователей. Агенты, которые управляют компьютерами “по-человечески”, ещё далеки от готовности к массовому использованию.