Новая модель Google «Titans» добавляет языковым моделям долгосрочную память

Titans

Исследователи Google представили новую архитектуру Transformers под названием «Titans», которая обеспечивает языковые модели возможностью работать с долгосрочной памятью. Эта разработка позволяет моделям обрабатывать более длинные последовательности информации, повышая их производительность на различных задачах.

Как работает Titans? Вдохновляясь механизмами человеческой памяти, Titans сочетает краткосрочную и долгосрочную память через уникальные блоки внимания и механизмы обработки (Memory MLPs).

  • Отбор информации: Модель использует метрику «сюрприза» — чем неожиданнее информация, тем больше вероятность, что она будет сохранена в долгосрочной памяти.
  • Управление памятью: Titans умеет «забывать» менее важную информацию, эффективно используя ресурсы памяти.

Google представила три варианта Titans, каждый из которых работает с долгосрочной памятью по-разному:

  1. MAC (Memory as Context): память используется как контекст.
  2. MAG (Memory as Gate): память регулирует процесс обработки данных.
  3. MAL (Memory as Layer): память интегрирована на уровне слоёв модели.

В тестах Titans превзошла классические модели Transformers и гибридные модели вроде Mamba2, особенно при работе с длинными текстами.

  • Окна контекста: Titans обрабатывает более 2 миллионов токенов в одном контексте.
  • Тест «Игла в стоге сена»: модель достигла точности свыше 95% при поиске информации в текстах длиной до 16,000 токенов.
  • BABILong Benchmark: Titans показала выдающиеся результаты в тестах на долгосрочное понимание текста, обойдя модели вроде GPT-4, RecurrentGemma-9B и Llama3.

Несмотря на скромные размеры самой крупной версии (760 миллионов параметров), Titans превзошла более крупные модели, такие как Llama3.1-70B.

Команда Google тестирует Titans в новых областях, таких как моделирование ДНК, анализ временных рядов и работа с видео. Эти эксперименты показывают, что архитектура может быть полезна в самых разных задачах, где важны долгосрочные зависимости.

Google планирует сделать код Titans доступным в открытом доступе в ближайшее время. Это может стать значительным шагом вперёд для создания моделей, способных работать с большими объёмами данных, делая выводы и повышая качество анализа.

Источник

Оцените статью
Gimal-Ai