Будущее AI-браузинга зависит от подхода разработчиков

Исследователи из TU Darmstadt представили VOIX — новый фреймворк, который добавляет на сайты два HTML-элемента и помогает AI-агентам распознавать доступные действия без визуального анализа сложных интерфейсов.

Элемент <tool> описывает действия, их параметры и содержит краткое описание. Элемент <context> сообщает AI текущее состояние приложения.

Пример: в списке задач может появиться <tool name=”add_task”>, который определяет нужные параметры, например “название” и “приоритет”, и напрямую подключается к логике приложения через JavaScript. Агент добавляет задачу с помощью этого инструмента, без поиска полей и кнопок на странице.

ВОIX разделяет задачи: сайт объявляет свои функции, браузерный агент связывает сайт с ИИ, а провайдер inference принимает решение о действии на основе структурированных данных.

Это сильно отличается от текущих AI-агентов, которые “видят” сайты глазами человека — такой подход часто дает сбои и может быть подвержен атакам.

Как отмечают авторы, “Агенты вынуждены угадывать возможные действия по интерфейсам для людей, из-за чего взаимодействие становится хрупким, неэффективным и небезопасным“. Архитектура VOIX улучшает приватность: браузерный агент напрямую отправляет диалог пользователя LLM-провайдеру, сайт не получает к нему доступ. Агент видит только те данные, которые явно открыты через VOIX, а не весь сайт. Всё работает на стороне клиента, владельцу сайта не нужно платить за работу LLM.

VOIX протестировали на хакатоне с 16 разработчиками в течение трёх дней: шесть команд создали разные приложения, большинство работали с этим впервые. Итог: показатель удобства System Usability Scale — 72,34, что выше среднего по отрасли (68). Разработчики также оценили высоко понятность системы и её производительность.

На хакатоне благодаря VOIX создали графический редактор, где можно отдавать команды голосом, например: “поверни объект на 45 градусов”. Фитнес-приложение за несколько секунд составляло программу тренировок по описанию пользователя. Были реализованы генератор аудиосред (“сделай звук как в тропическом лесу”) и Канбан-доска, создающая задачи на основе текста.

VOIX оказался гораздо быстрее обычных AI-агентов: время выполнения заданий — от 0,91 до 14,38 секунды против 4,25 секунды до 21 минуты у классических инструментов. Например, чтобы повернуть треугольник, VOIX требовал секунду, а Perplexity Comet — полтора минуты. Агентам “с компьютером зрения” часто приходится “угадывать” нужные действия и перепроверять результат, что тратит время, а некоторые сложные задачи не выполняются вовсе.

Исследователи отмечают, что для практического внедрения есть трудности. В крупных/старых проектах VOIX-элементы могут расходиться с интерфейсом. Разработчикам придётся заранее прорабатывать, какие действия откроются агенту. Балансировать между простыми функциями и сложными командами пока сложно.

В качестве примера создали расширение для Chrome с поддержкой чата и голосовых команд, работающее с любым совместимым с OpenAI API. Фреймворк работает как с облачными LLM, так и локально — тесты проходили на Qwen3-235B-A22B.

Компании OpenAI и Perplexity строят будущее, где чат-боты заменяют привычный веб-серфинг: AI-браузеры вроде Atlas и Comet смогут делать за пользователя всё что угодно, без специальных API для каждого сайта.

Но современные модели всё еще плохо справляются со сложными сайтами, а “prompt injection” по-прежнему угрожает безопасности. Чтобы агенты стали по-настоящему полезны, нужны новые стандарты структурирования данных для LLM. Популярность llms.txt и MCP-серверов показывает, что отрасль готова к переменам — и VOIX намерен стать частью этих изменений.

Источник

Оцените статью
Gimal-Ai