Новый метод адаптации языковых моделей без обучения

Исследователи из Sakana AI представили Text-to-LoRA (T2L) — новый способ адаптации больших языковых моделей к новым задачам с помощью простого текстового описания, без дополнительной обучающей выборки.

Обычно для настройки языковых моделей используют LoRA (Low-Rank Adaptation). LoRA добавляет в модель небольшие матрицы, что позволяет эффективно настраивать параметры без полной перенастройки всей модели.

Однако для каждой новой задачи, как правило, требуются свои данные для обучения и подбор параметров. Text-to-LoRA автоматизирует этот этап. Система использует гиперсеть, обученную на 479 задачах из датасета Super Natural Instructions и связывает текстовое описание задачи с оптимальными настройками LoRA.

Для новой задачи T2L может сгенерировать необходимые веса за один шаг, даже если раньше она с этим не сталкивалась.

Sakana AI разработала три варианта T2L: T2L-L (55 млн параметров) создает обе матрицы LoRA сразу, T2L-M (34 млн) использует общий выходной слой, а T2L-S (5 млн) генерирует только отдельные ранги матриц.

Исследовали два подхода к обучению T2L: восстановление уже существующих LoRA-адаптеров и прямое обучение на целевых задачах (Supervised Fine-Tuning, SFT). Модели, полученные с помощью SFT, показали лучший результат — 66,3% от эталонного показателя, против 61,8% для метода восстановления.

В тестах на десяти стандартных задачах лучшая модель T2L достигла в среднем 67,7% точности. В сравнении по восьми задачам T2L набрал 74%, что почти на уровне специализированных LoRA-решений (75,8%), однако при этом T2L не требует отдельной донастройки.

T2L способен работать с совершенно новыми задачами, опережая другие методы группового обучения LoRA. Результат во многом зависит от того, насколько новая задача похожа на примеры из обучающей выборки — чем ближе, тем лучше.

Четкие и короткие текстовые инструкции дают результат сопоставимый с ручными настройками, а размытые снижают качество.

В публикации отмечается: T2L требует в четыре раза меньше вычислений, чем классическая настройка и не нуждается в данных для обучения под каждую задачу. Система успешно работала с моделями Llama-3.1-8B и Gemma-2-2B.

Ограничения T2L — зависимость от формулировки инструкций и более низкие результаты по сложным задачам, если их формулировка заметно отличается от обучающих данных. По словам авторов, это важный шаг к автоматизации настройки моделей. Код и инструкции доступны на GitHub.

Источник

Оцените статью
Gimal-Ai