Три ключевых фактора, влияющих на интеллект ИИ-агентов

Исследователи из Национального университета Сингапура, Принстона и Университета Иллинойса в Урбана-Шампейн назвали три ключевых фактора развития ИИ-агентов: качество данных, архитектура алгоритма и стратегия рассуждения.

Они показали, что тщательно обученная модель с 4 миллиардами параметров может сравняться или даже превзойти аналоги с количеством параметров до 32 миллиардов.

Главный вывод — качество и тип данных для обучения дают максимальный прирост. Модели, обученные на реальных «траекториях обучения» (включающих промежуточные этапы рассуждений), давали куда лучшие результаты, чем модели, использовавшие только искусственные данные — там промежуточные шаги заменяются ответами инструментов.

На математических тестах AIME точность 4-миллиардной модели на реальных данных достигла 29,79%, а на синтетических была менее 10%. По словам авторов, реальные данные содержат полный ход размышлений: анализ до вызова инструмента, шаги выполнения, работу над ошибками и самоанализ. Синтетика этого воссоздать не может.

Разнообразие обучающего набора тоже оказалось важным. Если смешать 30 000 примеров из математики, естественных наук и программирования, обучение ускоряется: ИИ набрал 50% точности за 150 шагов, а если учить только на задачах по математике — для такого результата понадобилось 220 шагов.

Второй фактор — структура самого обучения. Исследователи тестировали три варианта алгоритма. Лучший результат показал GRPO-TCR: он объединяет поэтапную (token-level) оценку, расширение пространства поиска и систему бонусов, которая отсекает слишком длинные ответы.

Этот вариант показал 70,93% точности на одной из математических задач и 68,13% — на другой. Оценка по токенам дала прирост около 4% по сравнению с построчной проверкой. Такой подход позволяет модели и исследовать новые решения, и повышать точность через взаимодействия с инструментами.

Третий фактор касается стратегии рассуждений. Нашли два главных варианта: реактивная (короткие размышления, много обращений к инструментам) и рассудительная (долгие размышления, меньше инструментальных вызовов). Модели с рассудительной стратегией стабильно показывали больше 70% успешных операций с инструментами. Реактивные подходы работали хуже, потому что торопливые вызовы инструментов часто были ошибочны.

Интересно, что современные модели с длинным мышлением плохо комбинируются с инструментами. Хотя они заточены под глубокий анализ, на практике предпочитают не пользоваться вспомогательными средствами вообще.

Теорию проверили на практике — построили модель DemyAgent-4B с 4 миллиардами параметров. Она набрала 72,6% точности на AIME2024, 70% — на AIME2025, 58,5% — на тесте знаний GPQA-Diamond и 26,8% — на программировании LiveCodeBench-v6. Это сравнимо с результатами моделей на 14–32 млрд параметров. Вывод авторов: правильная подготовка побеждает масштаб.

Исходные данные и веса модели выложены в открытый доступ для других исследователей.

Источник

Оцените статью
Gimal-Ai