Bytedance представила Agent TARS ― экспериментального open-source агента для автоматизации сложных задач на macOS

Bytedance

Bytedance, разработчик TikTok, выпустила экспериментальную систему Agent TARS для автоматизации сложных задач за счет визуального восприятия веб-страниц и взаимодействия с командной строкой и файловой системой. Agent TARS сейчас доступен только для macOS.

Продукт построен на агентной архитектуре. Он сам определяет и выполняет последовательность шагов для поиска, просмотра и перехода по ссылкам. Все действия показываются в режиме реального времени через поток событий.

Agent TARS визуально анализирует сайты, а для работы с системными инструментами использует Model Context Protocol (MCP) от Anthropic. Версия для Windows находится в разработке.

Пользователи видят все, что делает агент: открытые документы, браузеры и результаты процесса. Также можно в любой момент дать новую команду и корректировать работу агента по ходу выполнения.

На сайте проекта есть несколько демонстраций, включая технический анализ акции Tesla, подборку трендовых проектов ProductHunt, баг-репорт для репозитория Lynx и недельный маршрут по Мехико.

Семейство Agent TARS позволяет экспортировать сессии в локальный HTML-файл или загружать на сервер для получения ссылки. В последнем случае агент отправляет HTML-бандл через POST-запрос и получает обратно ссылку для совместного доступа.

Для запуска Agent TARS через GitHub потребуется указать API-ключи выбранной модели и поисковых сервисов. Для Azure OpenAI нужны дополнительные параметры — apiVersion или deploymentName. Больше всего Agent TARS подходит для работы с Claude. Поддержка моделей OpenAI пока нестабильна.

Разработчики отметили, что Agent TARS и UI TARS Desktop — разные продукты. UI TARS Desktop автоматизирует работу с графическим интерфейсом и работает на macOS и Windows, а Agent TARS предназначен для браузерной автоматизации только на macOS. Эти программы несовместимы.

Система в стадии технической предпросмотра, использовать её в продуктивных задачах пока не рекомендуют. Команда Bytedance приглашает пользователей к тестированию и обсуждению на GitHub, Discord и X. Подробности о развитии и дорожная карта появятся позже — разработчики называют целью открытый сервис для управления цифровыми задачами с помощью мультимодальных агентов.

В последнее время самостоятельные ИИ-агенты на базе мультимодальных языковых моделей становятся все популярнее для автоматизации рутинных задач. Подобные решения есть у OpenAI, Manus и Google, но даже самые продвинутые агенты пока часто сталкиваются с непредсказуемым поведением.

Источник

Оцените статью
Gimal-Ai