Nvidia представила новую базовую модель NitroGen для игровых агентов. Она обучена на 40 000 часов геймплейных видео из более 1 000 игр. Исследователи использовали ролики с YouTube и Twitch, где был виден оверлей контроллера. С помощью шаблонного сопоставления и доработанной SegFormer-модели они напрямую извлекли действия игроков из этих записей.
NitroGen базируется на робототехнической модели Nvidia GR00T N1.5. По словам авторов, это первая модель, которая показывает, что крупные модели для роботов могут быть универсальными агентами в виртуальных средах с разной физикой и графикой. NitroGen работает с разными жанрами — экшен-RPG, платформерами, рогаликами и другими.
При включении в незнакомые игры модель показывает на 52% лучший результат, чем обученные с нуля решения. Команда из Nvidia, Stanford, Caltech и других университетов опубликовала все материалы: датасет, веса, статью и код.





















