Allen AI представил Tülu 3 405B – открытую модель, конкурирующую с GPT-4o и DeepSeek V3

The Allen Institute for AI представил Tülu 3 405Bоткрытую языковую модель, которая, по их утверждению, достигает или превосходит DeepSeek V3 и GPT-4o. Ключом к успеху называют новый метод обучения RLVR (Reinforcement Learning with Verifiable Rewards), который поощряет модель только за проверяемо верные ответы. Это особенно эффективно в математических задачах, где результат легко проверить.

Tülu 3 405B построена на Llama 3.1 и имеет 405 миллиардов параметров. Обучение потребовало 256 GPU на 32 вычислительных узлах. Каждый шаг занимал 35 минут, а для снижения нагрузки использовали вспомогательную модель. Разработчики столкнулись с множеством технических проблем, которыми обычно не делятся создатели подобных моделей.

Несмотря на досрочное завершение обучения из-за вычислительных ограничений, Tülu 3 405B показывает лучшие результаты, чем другие открытые модели, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B. По данным AI2, модель сравнима или даже превосходит DeepSeek V3 и GPT-4o. В обучении применялись Supervised Finetuning, Direct Preference Optimization и RLVR, что напоминает тренировочный процесс Deepseek R1, особенно в аспекте использования обучения с подкреплением для крупных моделей.

Протестировать модель можно в AI2 Playground, код доступен на GitHub, а сами модели — на Hugging Face.

Источник

Оцените статью
Gimal-Ai