Открытый фреймворк Mastra предлагает новый подход к памяти ИИ-агентов: он сжимает диалоги в плотные текстовые «наблюдения», оформленные по приоритетам с помощью эмодзи. По данным разработчиков, система установила новый рекорд на бенчмарке долгосрочной памяти LongMemEval.
Главная проблема агентов — работа с длинной историей сообщений. Чем больше контекста, тем больше токенов, выше задержки, стоимость и риск ошибок. Mastra, фреймворк для агентных ИИ-систем, решает эту задачу с помощью механизма «наблюдательной памяти» (Observational Memory).
Вместо хранения всей истории диалога в окне контекста два фоновых агента отслеживают беседу и сжимают её в компактные заметки. Подход вдохновлён тем, как человек запоминает события: сохраняются не все детали, а ограниченный набор ключевых наблюдений.
Система работает без векторной базы данных и графа знаний. Наблюдения записываются как обычный текст в стандартные хранилища вроде PostgreSQL, LibSQL или MongoDB и затем напрямую подгружаются в контекст, а не извлекаются через поиск по эмбеддингам.
Приоритизация сжатых наблюдений реализована необычным способом. Mastra переосмысливает классические уровни логирования из разработки и использует эмодзи, которые языковые модели хорошо интерпретируют. Красный круг 🔴 помечает критически важные данные, жёлтый 🟡 — потенциально полезные, зелёный 🟢 — фоновый контекст без особого приоритета.
Кроме того, используется тройная временная привязка: дата наблюдения, дата описываемого события и относительная дата. По словам Mastra, это улучшает способность модели рассуждать о времени.
Новые сообщения накапливаются до заданного порога, по умолчанию 30 000 токенов. После этого в дело вступает агент-наблюдатель (Observer) и сжимает накопленный диалог в набор наблюдений с эмодзи-метками.
Степень сжатия сильно зависит от типа контента. Для текстовых диалогов, как в бенчмарке LongMemEval, Mastra заявляет коэффициент сжатия 3–6 раз, около 6 раз в самом тесте.
В сценариях, где агент часто обращается к инструментам — например, браузер с Playwright-скриншотами или кодовый агент, который читает файлы, — сжатие достигает 5–40 раз. Чем больше «шума» в выводе инструментов, тем выше эффект. Например, сессия Playwright с примерно 50 000 токенов на один скриншот страницы уменьшается до нескольких сотен токенов.
Если сами наблюдения вырастают выше второго порога, по умолчанию 40 000 токенов, управление передаётся агенту Reflector. Он ещё раз уплотняет записи, объединяет связанные фрагменты и отбрасывает устаревшие данные. В итоге получается трёхуровневая схема: текущие сообщения, наблюдения и отражения.
Mastra подчёркивает отличие наблюдательной памяти от обычной суммаризации, при которой история сообщений один раз пересказывается при переполнении контекста. В Observational Memory ведётся непрерывный, только добавляемый журнал событий.
Агент-наблюдатель фиксирует, что происходит, какие решения приняты и что изменилось, на постоянной основе. Во время отражения журнал не превращается в один общий пересказ: изменяется структура, добавляются связи между событиями, удаляются повторяющиеся записи.
По заявлению Mastra, одно из ключевых преимуществ — совместимость с кешированием подсказок (prompt caching), которое поддерживают Anthropic, OpenAI и другие провайдеры. Поскольку наблюдения только добавляются и не пересобираются динамически, префикс подсказки остаётся стабильным, что даёт полные попадания в кеш на каждом шаге.
Полное кеширование сбрасывается только во время редких операций отражения. Это снижает затраты и помогает решить две основные проблемы длинных диалогов: падение производительности из‑за избыточной истории сообщений и засорение контекста нерелевантными токенами.
По данным Mastra, Observational Memory набирает 94,87 % на бенчмарке LongMemEval с моделью GPT-5 Mini, что более чем на три процентных пункта выше любого предыдущего результата. С GPT-4o система достигает 84,23 %, опережая конфигурацию Oracle (получающую только релевантные части диалога) и прошлый лучший результат Supermemory. Конкурирующие решения, такие как Hindsight, используют многоступенчатое извлечение и нейронный ранжирующий слой, тогда как Observational Memory работает за один проход с стабильным окном контекста.
Есть и ограничения. Сейчас наблюдения формируются синхронно и блокируют диалог на время работы Observer. Mastra утверждает, что асинхронный фоновый режим появится в ближайшее время.
Кроме того, модели Claude 4.5 от Anthropic пока нельзя использовать в роли Observer или Reflector. Mastra позиционирует Observational Memory как продолжение своих прошлых систем памяти Working Memory и Semantic Recall, выпущенных весной. Код фреймворка доступен публично на GitHub.
Ранее китайская исследовательская группа представила похожую по задаче систему памяти GAM. В ней также задействованы два специальных агента — Memorizer и Researcher — для борьбы с «разрушением контекста» в длительных диалогах. В отличие от текстового подхода Mastra, GAM опирается на векторный поиск и итеративное извлечение информации из полной истории.
Примерно в то же время Deepseek представила модель оптического распознавания текста, которая обрабатывает документы как сжатые изображения. Такой подход призван уменьшить нагрузку на окно контекста до 10 раз: вместо полного текста система запоминает визуальный образ страницы, как это делает человек.
Исследователи из Шанхая описали концепцию «семантической операционной системы» как долговременной памяти ИИ, которая не просто хранит контекст, а активно управляет им, перестраивает и забывает лишнее по принципу работы человеческого мозга.
Эффективная память для ИИ-агентов быстро превращается в одно из самых активных направлений исследований, во многом благодаря появлению персонального ассистента OpenClaw. Чат-боты наподобие ChatGPT уже давно предлагают функции памяти, однако часто опираются на классическую суммаризацию, что добавляет риск ошибок при генерации ответов.
Независимо от того, какая архитектура утвердится и появятся ли отдельные системы памяти ИИ с широким применением, грамотная работа с контекстом — подача модели только действительно нужной информации в нужный момент — остаётся критически важной. Это позволяет экономить ресурсы и помогает удерживать уровень ошибок ИИ на приемлемом уровне.
Источник: Mastra, LongMemEval, материалы исследовательских групп GAM и Deepseek, публикации о Semantic Operating System.






















