OpenAI представила новый открытый бенчмарк BrowseComp (от Browsing Competition) для оценки ИИ-моделей, которые умеют искать информацию в интернете. В него входит 1 266 заданий, каждое из которых требует найти труднодоступный, но однозначно проверяемый факт.
Идея BrowseComp — проверить, насколько хорошо ИИ-агенты могут находить редкие или запутанные сведения, которые сложно найти стандартными способами. Такие задачи могут требовать просмотра десятков или сотен сайтов, объединения информации из разных источников и стратегического построения поисковых запросов.
Пример задания из BrowseComp:
«Назовите статью, опубликованную на конференции EMNLP в 2018–2023 годах, у которой первый автор учился в Дартмуте, а четвёртый — в Пенсильванском университете».
Ответ: Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021. Такой вопрос можно решить через интернет, но это требует изучения сотен публикаций и биографий авторов.
Как создавался бенчмарк:
- Вопросы составлялись людьми, которым давали задание: придумать короткий, чёткий вопрос с однозначным ответом, который сложно найти, но легко проверить.
- Перед публикацией каждое задание проверяли на то, чтобы даже GPT‑4o с браузингом и другие модели не могли его решить.
- Проверяли, чтобы вопрос нельзя было решить за 10 минут обычным поиском.
- Только 29% заданий оказались решаемыми даже для людей (без помощи ИИ). Остальные были слишком сложными — многие отказались от попыток после двух часов поиска.
Результаты тестирования моделей:
Модель | Точность (%) |
---|---|
GPT‑4o | 0.6 |
GPT‑4o с браузингом | 1.9 |
GPT‑4.5 | 0.9 |
OpenAI o1 | 9.9 |
Deep Research (спец. агент) | 51.5 |
Deep Research — это агент, обученный специально для работы с задачами, похожими на BrowseComp. Он умеет долго искать информацию, проверять источники, гибко менять стратегию поиска и объединять данные с разных сайтов. Он также показывает, что модель “понимает”, когда даёт правильный ответ — это видно по улучшению точности при использовании методов вроде best-of-N (выбор лучшего из 64 вариантов ответа).
Почему BrowseComp важен:
- Он оценивает персистентность, креативность и стратегию поиска у моделей, а не только знание фактов.
- Задания сложные, но их легко автоматически проверять (ответ всегда короткий и точный).
- Он может стать аналогом Codeforces для агентов с браузингом: узкоспециализированный, но полезный индикатор уровня развития технологии.
Бенчмарк доступен в репозитории OpenAI Evals на GitHub, там же опубликована и исследовательская статья.