Google Research представила метод “nested learning” — новый способ проектировать ИИ-модели, который позволяет избежать “катастрофического забывания” и поддерживать обучение без остановки.
По данным статьи Google для NeurIPS 2025, у больших языковых моделей есть проблема: после обучения они не способны запоминать новую информацию надолго. Они помнят только то, что находится в их контекстном окне или было загружено при предварительном обучении. Увеличение окна или повторное обучение лишь откладывает проблему. Исследователи сравнили это с попыткой лечить амнезию, увеличивая блокнот.
Обычно после предобучения такие модели становятся статичными: они умеют выполнять только знакомые задачи и быстро забывают новое. Дополнительные обновления только усиливают забывание.
Концепция nested learning вдохновлена нейронаукой. Мозг работает с разной скоростью: быстрые цепи работают с текущей информацией, а медленные — формируют долгосрочные воспоминания. Большинство данных забывается, только небольшая часть становится устойчивой памятью за счет нейропластичности — способности мозга менять связи без потерь важных знаний. В отличие от этого, ИИ-модели помнят только то, что есть в контексте или заранее заложено в них.
При nested learning каждая часть ИИ (включая оптимизатор и алгоритм обучения) становится частью памяти. Алгоритм backpropagation связывает данные и ошибки, а состояние оптимизатора (например, “моментум”) — тоже вид памяти. Continuum Memory System (CMS) делит память на модули, обновляющиеся с разной скоростью. Это дает модели “глубину времени”.
В архитектуре Google HOPE используются долгосрочные модули памяти Titans, которые запоминают важную для модели информацию. HOPE объединяет разные типы памяти и компоненты CMS для более длинных контекстов. Быстрые блоки обрабатывают ввод “на лету”, медленные выделяют главное для памяти. Благодаря этому система может изменять правила обучения по мере накопления опыта. По словам авторов, такой подход уходит от схемы “предобучить и заморозить”.
HOPE тестировали на задачах языкового моделирования и рассуждений. Модели с 1,3 миллиардами параметров и обучением на 100 миллиардах токенов HOPE показал лучшие результаты, чем Transformer++, RetNet и DeltaNet.
Тесты на длинном контексте и задачах “иголка в стоге сена” тоже дали предсказуемое преимущество HOPE даже на моделях с 340 млн — 1,3 млрд параметров. Разработчики отмечают, что HOPE стабильно опережает классические трансформеры и новейшие рекуррентные сети. Независимое воспроизведение экспериментов доступно на Github.






















