Китайские исследователи улучшили LLM с помощью внутренней памяти

В Китае разработали новый способ общения крупных языковых моделей друг с другом через внутреннюю память, а не текст. Способ получил название cache-to-cache (C2C).

Сегодня модели обмениваются сообщениями в виде текста. Исследователи из нескольких китайских университетов выделяют три проблемы: текст замедляет обмен, естественный язык бывает неоднозначным, а генерация слов требует времени.

Пример: если языковая модель-программист попросит модель-писателя «написать контент в section wrapper», вторая может не понять, что такое «<p>», и вставить текст не туда.

В C2C вместо текста передается внутренняя память модели — KV cache. Это что-то вроде черновика: модель хранит там математические снимки каждого слова и фразы. В них намного больше информации, чем в готовом тексте.

С помощью C2C, например, программная модель может передать понимание структуры HTML напрямую писательской модели. Тогда та точно знает, куда разместить элементы — никаких догадок.

Система C2C работает так: KV cache исходной модели проецируется в целевую модель и объединяется через Cache Fuser — специальную нейросеть. В неё входят модуль проекции, система динамического взвешивания и адаптивный фильтр выбора подходящих слоёв модели.

Поскольку разные модели хранят память по-разному, разработчики синхронизировали внутренние форматы поэтапно: сначала согласовали деление на слова, потом — соединение слоёв.

Тесты доказали, что если наполнить KV cache одной модели памятью другой, качество ответов растет без увеличения размера памяти. Также KV cache можно переносить между разными моделями, и каждая будет использовать данные по-своему.

В сравнении с обычным переписыванием через текст, C2C дал прирост на 3-5% по метрикам, повысив точность на 8,5-10,5%, а скорость — примерно вдвое.

Проверяли разные сочетания моделей: Qwen2.5, Qwen3, Llama 3.2, Gemma 3, с размером от 0,6 до 14 млрд параметров. Чем больше исходная модель, тем выше итог.

Технические тесты показали, что после объединения память становится богаче — плотность информации увеличивается. Это подтверждает передачу дополнительного знания.

Главное преимущество — эффективность. Обучать надо только модуль соединения C2C — сами модели не меняются. Так можно обойти огромные расходы на переобучение моделей.

По словам исследователей, C2C подойдет для безопасной командной работы между облаком и устройствами, совместно с ускоряющими технологиями или для мультиформатных ИИ, объединяющих язык, картинки и действия.

Исходный код открыт на GitHub. Метод cache-to-cache ученые называют практичной заменой текстовому обмену для быстрого и масштабируемого ИИ.

Источник

Оцените статью
Gimal-Ai