Исследование показало, что крупные языковые модели (LLM) могут учиться симулировать среды, что может решить проблему нехватки данных для обучения автономных ИИ-агентов.
Агенты искусственного интеллекта должны получать опыт из реальных сред, но такие условия часто сложно создать, масштабировать и изменить.
Группа ученых из Southern University of Science and Technology, Microsoft Research, Princeton и других организаций проверила, способны ли языковые модели стать внутренними «симуляторами мира». Такой симулятор может предсказывать, что произойдет после определенного действия, что позволяет агенту тренироваться по сценарию, не взаимодействуя напрямую с настоящей средой.
В ходе экспериментов тестировали пять текстовых симуляций: ALFWorld (бытовые задачи), SciWorld (лабораторные эксперименты), TextWorld (текстовые головоломки), WebShop (поиск товаров по заданным критериям) и StableToolBench (использование API-инструментов).
Модели оценивали по трем критериям: точность и стабильность предсказаний, зависимость успеха от объема данных и размера модели, а также их пользу для самого процесса обучения агентов.
Без дообучения языковые модели могли с высокой точностью предсказывать возможные состояния среды — например, Claude-sonnet-4.5 достиг 77% точности с тремя примерами в ALFWorld. Но для сложных задач требовалось больше данных.
После тонкой настройки Qwen2.5-7B и Llama-3.1-8B показали более 99% точности в ALFWorld, примерно 98,6% в SciWorld и около 70% в TextWorld.
В структурах с четкими правилами эти модели оставались надежными даже при длинных цепочках действий — успешность превышала 90%. В менее структурированных условиях, например в WebShop, средняя стабильность была около 70% и зависела от конкретных агентов, но при инициализации процесса реальными наблюдениями показатель поднимался почти до 100%.
Ученые выявили и зависимость результатов от размеров модели и объема данных. Для «простых» сред хватало 20 000 обучающих траекторий и моделей с 1,5 млрд параметров, а для более сложных сценариев требовались большие данные и более мощные модели — до 70 000 траекторий и увеличенный размер архитектуры.
Это исследование связано с недавней позицией лауреата премии Тьюринга Ричарда Саттона. В своей статье «Welcome to the Era of Experience», написанной вместе с Дэвидом Сильвером (DeepMind), он заявил: «AI-индустрия зашла в тупик, потому что современные системы включают знания на этапе разработки, а не учатся на собственном опыте». Саттон призвал развивать ИИ, который учится через постоянный опыт, используя внутренние симуляторы среды.
Авторы работы подтвердили, что языковые модели могут стать такой базой для тренировки AI-агентов на искусственном опыте. Однако они не решили главную задачу — обучение моделей без забвения старого опыта, что, по мнению Саттона, важно для настоящего искусственного интеллекта.






















