Исследователи из Китайского университета в Шэньчжэне и специалисты Alibaba’s Qwen и Шэньчжэньского института больших данных обнаружили, что модель OpenAI o1-mini способна улучшать свои результаты через самокритику, чего не удаётся большинству ИИ.
Особенно заметны успехи в математике. На задачах уровня колледжа производительность o1-mini улучшилась на 24%, а на задачах ARC — на 19,4%. Тесты также сравнивали o1-mini с GPT-4o, Qwen2.5, Mistral Large и Llama 3.1, но более крупные модели, такие как o1-Pro или Claude, не были включены.
RealCritic: новая методика тестирования
Для проверки самокритики исследователи разработали метод RealCritic. Этот подход не только выявляет ошибки, но и оценивает способность модели улучшить свой ответ. Критика засчитывается только если новый результат становится лучше предыдущего. Это позволяет напрямую измерять качество самокритики.
При самокритике большинство моделей ухудшали результаты. Исключением стала o1-mini, которая показала средний прирост на 3,3%. При критике решений других моделей улучшения достигли 15,6%, с o1-mini снова в лидерах.
На этапах многократного улучшения модели вроде LLaMA и Mistral либо переставали прогрессировать, либо начинали ошибаться больше. O1-mini продолжала улучшаться до третьего раунда, достигнув 67% точности. Модель Qwen2.5-72B-Instruct также показала стабильный рост, но её результаты остались ниже o1-mini.
Вывод: способность o1-mini эффективно использовать самокритику и критиковать других делает её сильным инструментом для задач, требующих многократного улучшения решений.