OpenAI выпустила BrowseComp — сложный бенчмарк для оценки ИИ-агентов с функцией веб-браузинга

browsecamp

OpenAI представила новый открытый бенчмарк BrowseComp (от Browsing Competition) для оценки ИИ-моделей, которые умеют искать информацию в интернете. В него входит 1 266 заданий, каждое из которых требует найти труднодоступный, но однозначно проверяемый факт.

Идея BrowseComp — проверить, насколько хорошо ИИ-агенты могут находить редкие или запутанные сведения, которые сложно найти стандартными способами. Такие задачи могут требовать просмотра десятков или сотен сайтов, объединения информации из разных источников и стратегического построения поисковых запросов.

Пример задания из BrowseComp:

«Назовите статью, опубликованную на конференции EMNLP в 2018–2023 годах, у которой первый автор учился в Дартмуте, а четвёртый — в Пенсильванском университете».
Ответ: Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021. Такой вопрос можно решить через интернет, но это требует изучения сотен публикаций и биографий авторов.

Как создавался бенчмарк:

  • Вопросы составлялись людьми, которым давали задание: придумать короткий, чёткий вопрос с однозначным ответом, который сложно найти, но легко проверить.
  • Перед публикацией каждое задание проверяли на то, чтобы даже GPT‑4o с браузингом и другие модели не могли его решить.
  • Проверяли, чтобы вопрос нельзя было решить за 10 минут обычным поиском.
  • Только 29% заданий оказались решаемыми даже для людей (без помощи ИИ). Остальные были слишком сложными — многие отказались от попыток после двух часов поиска.

Результаты тестирования моделей:

Модель Точность (%)
GPT‑4o 0.6
GPT‑4o с браузингом 1.9
GPT‑4.5 0.9
OpenAI o1 9.9
Deep Research (спец. агент) 51.5

Deep Research — это агент, обученный специально для работы с задачами, похожими на BrowseComp. Он умеет долго искать информацию, проверять источники, гибко менять стратегию поиска и объединять данные с разных сайтов. Он также показывает, что модель “понимает”, когда даёт правильный ответ — это видно по улучшению точности при использовании методов вроде best-of-N (выбор лучшего из 64 вариантов ответа).

Почему BrowseComp важен:

  • Он оценивает персистентность, креативность и стратегию поиска у моделей, а не только знание фактов.
  • Задания сложные, но их легко автоматически проверять (ответ всегда короткий и точный).
  • Он может стать аналогом Codeforces для агентов с браузингом: узкоспециализированный, но полезный индикатор уровня развития технологии.

Бенчмарк доступен в репозитории OpenAI Evals на GitHub, там же опубликована и исследовательская статья.

Оцените статью
Gimal-Ai