Учёные нашли способ преодолеть «стену данных»

Исследователи из MIT представили новую методику SEAL, позволяющую большим языковым моделям (LLM) самостоятельно создавать синтетические обучающие данные и улучшаться без внешней помощи.

SEAL работает в два этапа. Сначала модель учится формировать “самоисправления” через обучение с подкреплением. Эти исправления оформляются в виде текстовых инструкций, которые задают новые обучающие данные и параметры оптимизации. Затем система использует эти инструкции для обновления своих весов.

Важным элементом SEAL стал алгоритм ReST^EM, который действует как фильтр: он сохраняет и усиливает только те самоисправления, которые реально повышают результативность. Алгоритм собирает разные варианты правок, тестирует их и обучает модель только на успешных примерах. Для ускорения обучения применяется техника Low-Rank Adapters (LoRA), позволяющая обновлять модель быстро и с минимальными затратами.

Разработчики проверили SEAL в двух задачах. В первой использовалась модель Qwen2.5-7B для анализа текста: модель делала логические выводы и потом училась на своих результатах. SEAL достиг 47% точности против 33.5% у стандартного способа. Качество синтезированных данных даже превысило уровень OpenAI GPT-4.1, несмотря на меньший размер базовой модели.

Во втором тесте рассматривался Few-Shot Prompting с Llama 3.2-1B для задачи на рассуждение. Модель самостоятельно выбирала методы обработки данных и параметры обучения из заранее заданного набора. С SEAL удалось добиться 72.5% успешных ответов против 20% без предварительного обучения.

Авторы отметили ряд ограничений. Главная проблема — “катастрофическое забывание”: при освоении новых задач модель теряет навыки, полученные ранее. Кроме того, обучение занимает много времени: каждая проверка правки требует 30–45 секунд вычислений.

Команда MIT считает SEAL шагом к преодолению “стены данных” — момента, когда исчерпаны все доступные тексты, написанные человеком. Также подчеркивается риск “коллапса модели”, когда работу ухудшает большое число низкокачественных сгенерированных данных. SEAL может помочь моделям учиться и адаптироваться к новым задачам без постоянного привлечения людей.

Если языковые модели научатся самостоятельно осваивать новые материалы — например, научные статьи — и делать понятные выводы, они смогут улучшать свои навыки по редким или плохо описанным тематикам. Такой цикл самостоятельного обучения поможет преодолевать текущие ограничения LLM.

Исходный код SEAL опубликован на GitHub.

Источник

Оцените статью
Gimal-Ai