Sakana AI представила Transformer² — новый подход к обучению языковых моделей

Sakana AI представила Transformer²

Японская компания Sakana AI разработала Transformer² — метод, который помогает языковым моделям лучше адаптироваться к новым задачам. Вместо того чтобы полностью переобучать модель, Transformer² использует «вектора экспертов», которые настраиваются через технику Singular Value Fine-Tuning (SVF).

Этот подход решает проблему традиционного обучения, при котором модели могут забывать старые навыки и требуют больших ресурсов для обновления. SVF позволяет обучать модели с минимальными изменениями: вместо миллионов параметров, как в альтернативных методах (например, LoRA), SVF использует всего 160,000 параметров.

Ключевые особенности Transformer²:

  • Экономия ресурсов: меньше параметров, ниже затраты на память и вычисления.
  • Гибкость: вектора экспертов адаптируются к новым задачам, не мешая уже выученным навыкам.
  • Комбинация экспертов: модель может использовать сразу несколько векторов, например, для задач, где требуется логическое мышление, программирование и математика одновременно.

Transformer² показал себя лучше LoRA в тестах: на математических задачах точность выросла на 16%, а на новых задачах — на 4%, тогда как LoRA ухудшил базовые результаты модели.

Ограничения и перспективы:

Экспертные вектора работают только с теми навыками, которые уже есть в модели, поэтому метод пока не поддерживает истинное непрерывное обучение. Также остаётся вопрос, как масштабировать эту технологию для моделей свыше 70 миллиардов параметров.

Transformer² открывает путь к более гибкому и эффективному обучению ИИ, но до создания моделей с полной способностью к самонастройке предстоит преодолеть немало вызовов.

Источник

Оцените статью
Gimal-Ai