Исследователи из MIT представили новую методику SEAL, позволяющую большим языковым моделям (LLM) самостоятельно создавать синтетические обучающие данные и улучшаться без внешней помощи.
SEAL работает в два этапа. Сначала модель учится формировать “самоисправления” через обучение с подкреплением. Эти исправления оформляются в виде текстовых инструкций, которые задают новые обучающие данные и параметры оптимизации. Затем система использует эти инструкции для обновления своих весов.
Важным элементом SEAL стал алгоритм ReST^EM, который действует как фильтр: он сохраняет и усиливает только те самоисправления, которые реально повышают результативность. Алгоритм собирает разные варианты правок, тестирует их и обучает модель только на успешных примерах. Для ускорения обучения применяется техника Low-Rank Adapters (LoRA), позволяющая обновлять модель быстро и с минимальными затратами.
Разработчики проверили SEAL в двух задачах. В первой использовалась модель Qwen2.5-7B для анализа текста: модель делала логические выводы и потом училась на своих результатах. SEAL достиг 47% точности против 33.5% у стандартного способа. Качество синтезированных данных даже превысило уровень OpenAI GPT-4.1, несмотря на меньший размер базовой модели.
Во втором тесте рассматривался Few-Shot Prompting с Llama 3.2-1B для задачи на рассуждение. Модель самостоятельно выбирала методы обработки данных и параметры обучения из заранее заданного набора. С SEAL удалось добиться 72.5% успешных ответов против 20% без предварительного обучения.
Авторы отметили ряд ограничений. Главная проблема — “катастрофическое забывание”: при освоении новых задач модель теряет навыки, полученные ранее. Кроме того, обучение занимает много времени: каждая проверка правки требует 30–45 секунд вычислений.
Команда MIT считает SEAL шагом к преодолению “стены данных” — момента, когда исчерпаны все доступные тексты, написанные человеком. Также подчеркивается риск “коллапса модели”, когда работу ухудшает большое число низкокачественных сгенерированных данных. SEAL может помочь моделям учиться и адаптироваться к новым задачам без постоянного привлечения людей.
Если языковые модели научатся самостоятельно осваивать новые материалы — например, научные статьи — и делать понятные выводы, они смогут улучшать свои навыки по редким или плохо описанным тематикам. Такой цикл самостоятельного обучения поможет преодолевать текущие ограничения LLM.
Исходный код SEAL опубликован на GitHub.