Появилась новая открытая платформа SciArena для оценки крупных языковых моделей (LLM) по задачам, связанным с научной литературой, на основе предпочтений людей. Первые результаты показывают, что между моделями есть заметные различия в качестве работы.
Платформу разработали исследователи из Йельского университета, Нью-Йоркского университета и Allen Institute for AI. SciArena позволяет сравнить, как справляются с научными задачами закрытые и открытые LLM — эта часть мало изучалась до настоящего момента.
В отличие от стандартных тестов, SciArena использует оценку реальными научными работниками, похожую на метод Chatbot Arena. Пользователь задает научный вопрос, получает два ответа от разных моделей с указанием источников и выбирает лучший. Вся литература подбирается через специальный инструмент на базе ScholarQA.
Уже собрано свыше 13 000 оценок от 102 ученых из естественных, технических, биологических и социальных наук. Вопросы бывают разными: от объяснения понятий до поиска публикаций.
В данный момент на первом месте в рейтинге модель o3 от OpenAI, её опережают Claude-4-Opus и Gemini-2.5-Pro. Среди открытых моделей выделяется Deepseek-R1-0528, которая показывает лучшие результаты, чем некоторые коммерческие решения.
По словам команды, o3 особенно хорошо показывает себя в задачах по естественным и техническим наукам.
Исследователи отметили, что для пользователей важнее правильная связь между утверждениями и цитируемыми источниками, а не просто число ссылок. Такие параметры, как длина ответа, играют меньшую роль для SciArena, чем для Chatbot Arena или Search Arena.
Разработчики также выпустили новый тест SciArena-Eval, который проверяет, насколько сами языковые модели умеют судить другие ответы. Даже лучшие из них совпадают с мнением людей лишь примерно в 65% случаев. Это говорит о текущих ограничениях систем, где одна ИИ-модель оценивает другую в научной области.
SciArena доступна всем, исходный код, данные и тест SciArena-Eval опубликованы как open source. Платформа продолжит поддерживать исследования и развитие моделей, которые лучше соответствуют человеческим ожиданиям в научной работе. В будущем появится поддержка исследовательских систем-агентов.