Bytedance, разработчик TikTok, выпустила экспериментальную систему Agent TARS для автоматизации сложных задач за счет визуального восприятия веб-страниц и взаимодействия с командной строкой и файловой системой. Agent TARS сейчас доступен только для macOS.
Продукт построен на агентной архитектуре. Он сам определяет и выполняет последовательность шагов для поиска, просмотра и перехода по ссылкам. Все действия показываются в режиме реального времени через поток событий.
Agent TARS визуально анализирует сайты, а для работы с системными инструментами использует Model Context Protocol (MCP) от Anthropic. Версия для Windows находится в разработке.
Пользователи видят все, что делает агент: открытые документы, браузеры и результаты процесса. Также можно в любой момент дать новую команду и корректировать работу агента по ходу выполнения.
На сайте проекта есть несколько демонстраций, включая технический анализ акции Tesla, подборку трендовых проектов ProductHunt, баг-репорт для репозитория Lynx и недельный маршрут по Мехико.
Семейство Agent TARS позволяет экспортировать сессии в локальный HTML-файл или загружать на сервер для получения ссылки. В последнем случае агент отправляет HTML-бандл через POST-запрос и получает обратно ссылку для совместного доступа.
Для запуска Agent TARS через GitHub потребуется указать API-ключи выбранной модели и поисковых сервисов. Для Azure OpenAI нужны дополнительные параметры — apiVersion или deploymentName. Больше всего Agent TARS подходит для работы с Claude. Поддержка моделей OpenAI пока нестабильна.
Разработчики отметили, что Agent TARS и UI TARS Desktop — разные продукты. UI TARS Desktop автоматизирует работу с графическим интерфейсом и работает на macOS и Windows, а Agent TARS предназначен для браузерной автоматизации только на macOS. Эти программы несовместимы.
Система в стадии технической предпросмотра, использовать её в продуктивных задачах пока не рекомендуют. Команда Bytedance приглашает пользователей к тестированию и обсуждению на GitHub, Discord и X. Подробности о развитии и дорожная карта появятся позже — разработчики называют целью открытый сервис для управления цифровыми задачами с помощью мультимодальных агентов.
В последнее время самостоятельные ИИ-агенты на базе мультимодальных языковых моделей становятся все популярнее для автоматизации рутинных задач. Подобные решения есть у OpenAI, Manus и Google, но даже самые продвинутые агенты пока часто сталкиваются с непредсказуемым поведением.