Tencent представила свою новую ИИ-модель Hunyuan-T1, которая способна конкурировать с лучшими системами OpenAI в области логических задач. При разработке модель активно использовала методику обучающего усиления, направляя 96,7% вычислительных мощностей после обучения на улучшение логического рассуждения и соответствие человеческим предпочтениям.
На тесте MMLU-PRO, оценивающем знания в 14 областях, Hunyuan-T1 набрала 87,2 балла, уступив лишь модели OpenAI o1. В научных задачах модель получила 69,3 балла на тесте GPQA-diamond. Особенные успехи заметны в математике — на MATH-500 модель набрала 96,2 балла, занимая второе место после Deepseek-R1.
При тренировке модель использовала методику обучения с постепенным увеличением сложности задач и систему самооценки, где ранние версии модели оценивали результаты новых версий для улучшения работы. Благодаря архитектуре Transformer Mamba, Hunyuan-T1 обрабатывает длинные тексты вдвое быстрее, чем традиционные модели в схожих условиях. Модель доступна через Tencent Cloud, а демо-версию можно найти на Hugging Face.
Выпуск модели следует за недавним представлением модели от Baidu, а ранее от Alibaba. Эти компании развивают стратегии с открытым исходным кодом. Бывший глава Google China, Кай-Фу Ли, называет такие разработки экзистенциальной угрозой для OpenAI.
В то время как лучшие модели достигают свыше 90% точности на стандартных тестах, Google Deepmind представила более сложный тест BIG-Bench Extra Hard (BBEH). Даже с ним лучшие модели испытывают трудности — например, топовая модель OpenAI o3-mini (high) достигла лишь 44,8% точности. Удивительно, что Deepseek-R1, несмотря на успехи, смогла набрать всего около 7% на этом тесте.