Веб-модели создают ИИ агентам стабильные среды для обучения

Исследователи из Принстонского университета, UCLA и Пенсильванского университета разработали подход, который дает агентам с искусственным интеллектом устойчивые виртуальные миры для исследований. Этот метод делит виртуальный мир на два слоя: слой кода и слой языковой модели.

Первый слой — это код на TypeScript. Он задает структуру мира, определяет возможные действия и правила, обеспечивая логическую последовательность событий. Например, игрок не сможет пройти через запертую дверь или потратить несуществующие деньги.

Второй слой создает языковая модель. Она отвечает за описания среды, диалоги персонажей и визуальные детали. Однако все действия ИИ строго ограничены правилами, прописанными в коде. Сначала проверяется, разрешено ли действие, и только потом AI его описывает. Это исключает нарушение установленных правил, даже если модель пытается проявить креативность.

Интересное решение затрагивает хранение данных. Мир не сохраняется — каждое место пересчитывается заново по координатам через хеш-функцию. Формула всегда дает одинаковый результат для одних и тех же координат, и игрок всегда возвращается на тот же самый “несохраненный” объект. Исследователи называют это «постоянством объекта без затрат на хранение».

Система работает и без участия AI. Если языковая модель зависла или отвечает медленно, платформа переходит на заранее заготовленные шаблоны. Мир теряет детализацию, но основные правила продолжают действовать. Это отличает данный подход от полностью генеративных систем, которые полностью зависят от языковой модели.

Для демонстрации возможностей ученые создали семь разных приложений. Например, «Infinite Travel Atlas» позволяет исследовать всю Землю: данные о местах и маршрутах генерируются кодом, описания — языковой моделью. Еще одна разработка, «Galaxy Travel Atlas», создает вымышленные вселенные с планетами, которые детализируются AI. Игроки получают информацию о рельефе, атмосфере и опасностях.

В карточной игре «AI Spire» пользователи могут создавать уникальные карты по описанию, а правила проверяет код. Есть и другие проекты: симуляция химических реакций («AI Alchemy»), 3D-исследователь планет («Cosmic Voyager»), генератор статей по образцу Википедии («WWMPedia») и система для создания длинных текстов («Bookshelf»).

Ученые считают, что их подход занимает среднее положение между жесткими базами данных и неконтролируемыми генеративными системами. Такие web-модели дают и стабильность, и гибкость, что может быть полезно для обучения AI-агентов.

Однако остается вопрос, насколько хорошо система работать при сложных сценариях, когда множество агентов действует одновременно или правила меняются прямо по ходу. Современные демонстрации впечатляют, но пока просты по структуре.

Исследования в области создания учебных сред для AI-агентов развиваются быстро. Недавняя работа Microsoft Research показала, что дообученные языковые модели могут предсказывать условия среды с точностью более 99%. Лауреат премии Тьюринга Ричард Саттон называет подобные миры ключевыми для обучения ИИ на собственном опыте.

Источник

Оцените статью
Gimal-Ai