OpenAI представила PaperBench — новую проверку возможностей ИИ в области научных исследований.
Эталонная проверка требует, чтобы ИИ воспроизвёл 20 исследовательских работ, представленных на ICML 2024. Задача охватывает разнообразные направления, включая глубокое обучение и тестирование надёжности.
Для точной оценки OpenAI сотрудничала с авторами, создав подробную систему, включающую более 8,300 контрольных точек.
ИИ должен разработать собственную базу кода, так как у него нет доступа к оригинальному коду авторов. Каждый участник тестирования имеет 12 часов для выполнения задачи.
Оценка результатов — сложная задача: рецензирование одной работы требует десятки часов. Для ускорения OpenAI разработала систему оценки на базе ИИ. Модель o3-mini добивается точности на уровне 83 процентов при стоимости $66 за работу. Модель o1 была на чуть более точна (84 процента), но стоила $830.
Лидерам среди ИИ моделей было сложно воспроизвести исследования: Claude 3.5 Sonnet показала результат в 21 процент. Другие результаты ниже: GPT-4o — 4.1 процента, DeepSeek-R1 — 6 процентов, а Google’s Gemini 2.0 Flash — 3.2 процента.
OpenAI разработала IterativeAgent, чтобы улучшить результаты. Он заставляет модели ИИ использовать всё выделенное время и решать задачи поэтапно. У модели o1 успешность выросла с 13.2 до 24.4 процентов, а у o3-mini — с 2.6 до 8.5 процентов. Однако для Claude 3.5 Sonnet этот подход оказался менее эффективным.
Временное увеличение помогло o1 достичь 26 процентов. Это демонстрирует, как разные подходы влияют на результаты ИИ, однако увеличение вычислительных затрат делает его дорогостоящим.
Для установления «человеческой нормы» OpenAI привлекла восемь аспирантов из ведущих университетов. За 48 часов их успех составил 41.4 процента.
Исследование выявило основные отличия в подходах ИИ и человека к сложным задачам. ИИ создаёт код быстро, но не справляется со стратегическим планированием. Люди дольше вникают в суть, но имеют стабильно прогресс.
Большинство ИИ систем преждевременно завершали работу, лишь Claude 3.5 Sonnet использовала всё своё время.