LLM все еще не справляются с реальными научными исследованиями

Отличные оценки на экзаменах не делают искусственный интеллект хорошим исследователем. Новое исследование подтверждает, что это же справедливо и для больших языковых моделей (LLM).

Один из главных ожиданий отрасли — ускорение научных открытий с помощью ИИ. OpenAI планирует создать автономного помощника-исследователя к 2028 году.

Однако, как показывает исследование более 30 ученых из Cornell, MIT, Stanford, Cambridge и других организаций, до этой цели еще далеко. Среди авторов — китайская компания Deep Principle, специализирующаяся на применении ИИ в науке.

Высокие результаты на известных тестах вроде GPQA или MMMU не означают успех на сценарных исследовательских задачах. GPT-5 получает точность 0,86 на GPQA-Diamond, но на новом бенчмарке Scientific Discovery Evaluation (SDE) его точность падает до 0,60–0,75 в зависимости от направления.

Авторы объясняют разрыв тем, что простые вопросы из тестов не соответствуют реальной научной работе. Здесь важно умение понимать ситуацию, формулировать гипотезы и анализировать неполные данные — навыки, которые обычные тесты не проверяют.

По мнению исследователей, проблема в устройстве существующих бенчмарков. Они проверяют только отдельные факты, не требуя сложной работы с задачей целиком. В науке же важно пошаговое выдвижение и уточнение гипотез, интерпретация неполных наблюдений, а не простое знание отдельных фактов.

Чтобы закрыть этот пробел, команда создала SDE-бенчмарк с 1125 вопросами по 43 исследованиям в биологии, химии, материаловедении и физике. Главная особенность — каждый вопрос связан с реальным проектом, создан экспертами и проверен коллегами.

Примеры сценариев включают анализ химических реакций, расшифровку структур по ЯМР-спектрам, поиск генов, связанных с заболеваниями, и другие задачи, отражающие работу ученых.

Результаты показывают: в новых научных сценариях точность моделей заметно ниже стандартных тестов. GPT-5 выдает 0,85 при планировании ретросинтеза, но всего 0,23 — при расшифровке структур по ЯМР. Такое разнообразие сохраняется у всех моделей.

По мнению авторов, разделение задач только по предметам мало что дает. SDE-бенчмарк позволяет выявлять слабые и сильные стороны языковых моделей в конкретных научных сценариях.

Также проверили, помогает ли рост размера модели или увеличение времени на рассуждения. Ответ неоднозначен.

Рассуждения действительно иногда повышают точность. Например, Deepseek-R1 обходит Deepseek-V3.1, несмотря на одинаковую архитектуру. В задаче с правилом Липинского точность после рассуждений выросла с 0,65 до 1,00.

Однако дальнейшее увеличение ресурсов приносит все меньше пользы. Для GPT-5 переход с “среднего” на “высокий” уровень почти не меняет результат. К тому же GPT-5 хуже всех справился с восьмью задачами по сравнению с предыдущей версией.

Вывод: просто масштабировать модели и увеличивать вычисления уже малоэффективно для научных исследований.

Еще один итог: ошибки лучших моделей разных компаний — GPT-5, Grok-4, Deepseek-R1, Claude-Sonnet-4.5 — сильно совпадают. В химии и физике коэффициент корреляции ошибок превышает 0,8. Часто модели выдают одинаково неверные ответы на сложные вопросы.

Исследователи считают, что дело в похожем обучении и одинаковых целях оптимизации, а не в различиях архитектуры. Поэтому объединение моделей мало помогает в сложных случаях.

Для анализа именно сложных задач создали отдельное подмножество SDE-hard с 86 вопросами. Все стандартные модели показывают точность ниже 0,12. Только GPT-5-pro (в 12 раз дороже) достиг 0,224, ответив правильно на 9 вопросов, где остальные не справились.

SDE-бенчмарк позволяет оценивать не только отдельные вопросы, но и работу моделей на уровне всего проекта — с формулировкой гипотез, экспериментами и корректировкой выводов.

Анализ восьми научных проектов показывает, что ни одна модель не лидирует во всех задачах. Кто преуспел в одном проекте, может отставать в другом.

Не всегда успех в “тестах” гарантирует результат в настоящем проекте. Модели могут обнаружить правильное решение среди миллионов вариантов, не зная всю теорию, и наоборот — формально зная всё, но давая нефункциональные предложения.

Исследователи отмечают: важна не только точность знаний, но и умение искать новые решения и подходы.

Общий вывод: ни одна современная языковая модель не близка к “суперинтеллекту”. Однако LLM уже неплохо работают над конкретными задачами при поддержке специалистов и специализированных инструментов. Они помогают проводить эксперименты, находить необычные кандидаты для поиска и обрабатывать большие объемы информации.

Для реального прогресса ученые советуют уделять внимание специальным тренировкам — научиться формулировать задачи и выдвигать гипотезы. Также важно использовать разнообразные обучающие данные для уменьшения сходства ошибок, интегрировать инструменты, разрабатывать новые методы обучения с подкреплением, заточенные под научные задачи. Стандартные подходы из области программирования и математики не всегда работают с научными открытиями.

Рамки исследования пока охватывают четыре дисциплины. Геонауки, социальные науки и инженерия будут добавлены позже — архитектура SDE это позволяет. Исходные коды, скрипты и наборы данных команда выложила в открытый доступ.

Недавно OpenAI представила собственный бенчмарк FrontierScience, чтобы измерять успехи ИИ в науке за пределами простого Q&A. Результат схож: знание фактов — это ещё не умение работать над открытиями.

Источник

Оцените статью
Gimal-Ai