Meta и Ohio State представили Early Experience для языковых агентов

Исследователи из Meta и Университета штата Огайо создали новый способ обучения ИИ-агентов под названием Early Experience. Этот подход позволяет агентам учиться на собственных действиях, а не только копировать поведение человека или ждать внешних поощрений.

Обычные ИИ системы часто опираются на действия экспертов, но такие примеры покрывают ограниченный набор ситуаций и плохо справляются с новыми задачами. Early Experience позволяет агенту пробовать разные действия, наблюдать последствия и использовать этот опыт как дополнительные данные для обучения.

Метод Early Experience стал промежуточным вариантом между имитационным обучением (основано на примерах экспертов) и подкреплением (требует чётких наград, которых часто нет в реальной жизни).

Разработчики описали две ключевые техники Early Experience. Первая — неявное моделирование мира: агент учится предсказывать, что произойдет после выбранного действия. Например, если он кликает на сайте, то учится ожидать следующую страницу. Такие предсказания используются как цель для дальнейшего обучения.

Вторая — саморефлексия: агент сравнивает свои действия с действиями эксперта и объясняет на естественном языке, почему решение эксперта лучше. Например, в интернет-магазине агент может написать, что дорогой товар превысил бюджет.

Обе техники используют результат собственных действий агента для обучения, не полагаясь на внешние оценки.

Early Experience тестировали в 8 разных средах: навигация по сайтам, домашние задачи, научные эксперименты, многошаговое использование инструментов и сложное планирование (например, организация путешествий).

Испытания провели на трёх языковых моделях — Llama-3.1-8B, Llama-3.2-3B и Qwen2.5-7B. Везде обе версии Early Experience показали лучшие результаты, чем обычные подходы. В среднем успешность выросла на 9,6 процентных пункта, а способность работать с новыми задачами — на 9,4 пункта.

Максимальный прирост увидели в более сложных задачах. В планировании путешествий «саморефлексия» увеличила результат до 15 процентных пунктов, а в онлайн-покупках «неявное моделирование мира» дало прирост до 18,4 пунктов.

Команда проверила, может ли Early Experience усилить традиционное обучение с подкреплением, когда награды всё же доступны. Они тренировали модели разными путями, а потом все подвергли одной и той же процедуре RL (обучение с подкреплением). Модели, начавшие с Early Experience, показали лучшие результаты, а разрыв с другими вариантами в процессе обучения только рос.

В результате исследователи пришли к выводу: Early Experience позволяет строить сильные ИИ-системы даже без внешних наград и помогает еще лучше учиться при дальнейшем подкреплении. Метод работает и на больших моделях — до 70 миллиардов параметров, в том числе с LoRA-обновлениями, которые экономят вычисления.

Также выяснилось, что Early Experience выигрывает даже при меньшем количестве примеров экспертов. В ряде тестов хватило одной восьмой от исходного объёма демонстраций, чтобы обойти стандартное обучение на полном датасете. Это подтверждает прошлые исследования: иногда достаточно малого числа примеров для хороших результатов.

Источник

*Meta — запрещённая в РФ организация.

Оцените статью
Gimal-Ai