Японская компания Sakana AI разработала Transformer² — метод, который помогает языковым моделям лучше адаптироваться к новым задачам. Вместо того чтобы полностью переобучать модель, Transformer² использует «вектора экспертов», которые настраиваются через технику Singular Value Fine-Tuning (SVF).
Этот подход решает проблему традиционного обучения, при котором модели могут забывать старые навыки и требуют больших ресурсов для обновления. SVF позволяет обучать модели с минимальными изменениями: вместо миллионов параметров, как в альтернативных методах (например, LoRA), SVF использует всего 160,000 параметров.
Ключевые особенности Transformer²:
- Экономия ресурсов: меньше параметров, ниже затраты на память и вычисления.
- Гибкость: вектора экспертов адаптируются к новым задачам, не мешая уже выученным навыкам.
- Комбинация экспертов: модель может использовать сразу несколько векторов, например, для задач, где требуется логическое мышление, программирование и математика одновременно.
Transformer² показал себя лучше LoRA в тестах: на математических задачах точность выросла на 16%, а на новых задачах — на 4%, тогда как LoRA ухудшил базовые результаты модели.
Ограничения и перспективы:
Экспертные вектора работают только с теми навыками, которые уже есть в модели, поэтому метод пока не поддерживает истинное непрерывное обучение. Также остаётся вопрос, как масштабировать эту технологию для моделей свыше 70 миллиардов параметров.
Transformer² открывает путь к более гибкому и эффективному обучению ИИ, но до создания моделей с полной способностью к самонастройке предстоит преодолеть немало вызовов.