The Allen Institute for AI представил Tülu 3 405B — открытую языковую модель, которая, по их утверждению, достигает или превосходит DeepSeek V3 и GPT-4o. Ключом к успеху называют новый метод обучения RLVR (Reinforcement Learning with Verifiable Rewards), который поощряет модель только за проверяемо верные ответы. Это особенно эффективно в математических задачах, где результат легко проверить.
Tülu 3 405B построена на Llama 3.1 и имеет 405 миллиардов параметров. Обучение потребовало 256 GPU на 32 вычислительных узлах. Каждый шаг занимал 35 минут, а для снижения нагрузки использовали вспомогательную модель. Разработчики столкнулись с множеством технических проблем, которыми обычно не делятся создатели подобных моделей.
Несмотря на досрочное завершение обучения из-за вычислительных ограничений, Tülu 3 405B показывает лучшие результаты, чем другие открытые модели, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B. По данным AI2, модель сравнима или даже превосходит DeepSeek V3 и GPT-4o. В обучении применялись Supervised Finetuning, Direct Preference Optimization и RLVR, что напоминает тренировочный процесс Deepseek R1, особенно в аспекте использования обучения с подкреплением для крупных моделей.
Протестировать модель можно в AI2 Playground, код доступен на GitHub, а сами модели — на Hugging Face.