Гибридные модели Granite 4.0 от IBM экономят память

IBM выпустила четвертое поколение своих языковых моделей Granite – Granite 4.0. Новая серия построена на гибридной архитектуре Mamba/Transformer, что помогает уменьшить требования к памяти во время работы моделей без потерь в производительности.

Granite 4.0 рассчитан на корпоративные задачи, такие как клиентская поддержка и системы поиска по документам (RAG), с акцентом на низкую задержку и экономию ресурсов. Модели доступны в качестве самостоятельных инструментов или для сложных рабочих процессов, где нужны “интеллектуальные агенты”. Позже осенью появятся специальные “think” версии моделей.

Модели Granite 4.0 выпущены с открытым кодом по лицензии Apache 2.0, защищены цифровой подписью и стали первыми открытыми языковыми моделями с аккредитацией ISO/IEC 42001:2023. IBM заявляет, что обучающие данные выбраны и получены этично, и полностью подходят для использования в бизнесе.

Все модели серии обучались на одном наборе данных из 22 триллионов токенов. В обучении использовались такие источники, как DataComp-LM (DCLM), GneissWeb, TxT360, Википедия и профильные бизнес-данные. IBM гарантирует неограниченную защиту от претензий третьих лиц по правам на интеллектуальную собственность для контента, созданного Granite на платформе IBM watsonx.ai.

В линейку входят четыре модели:

  • Granite-4.0-H-Small: гибридная mixture-of-experts (MoE), 32 млрд параметров, 9 млрд активных
  • Granite-4.0-H-Tiny: гибридная MoE, 7 млрд параметров, 1 млрд активных
  • Granite-4.0-H-Micro: плотная гибридная модель, 3 млрд параметров
  • Granite-4.0-Micro: стандартный Transformer, 3 млрд параметров

Granite-4.0-H-Small оптимизирована для универсальных задач в производстве. Tiny и Micro рассчитаны на работу с минимальными задержками и подходят для смартфонов или встраиваемых решений, их можно встроить в большие агентные цепочки (например, для вызова функций).

В архитектуре используется соотношение слоёв Mamba 2 и Transformer 9:1. Слои Transformer быстро упираются в лимиты памяти при работе с длинными контекстами, в то время как Mamba-2 масштабируется линейно и всегда использует одинаковый объём памяти. Слои Mamba обрабатывают данные последовательно и не требуют позиционного кодирования.

Слои Transformer сохраняют преимущество в задачах обучения на контексте, например для few-shot prompt-ов. Гибридная схема объединяет оба подхода. В H-Tiny и H-Small реализованы MoE-блоки с “общими экспертами”, чтобы повысить эффективность использования параметров.

IBM сообщает, что Granite 4.0 экономит до 70% оперативной памяти по сравнению с обычными Transformer-моделями в реальной работе, особенно на длинных данных и при параллельных сессиях.

Модели Granite 4.0 работают на ускорителях AMD Instinct MI-300X и оптимизированы для Hexagon NPU (Qualcomm и Nexa AI), что делает их пригодными для смартфонов и ПК.

Granite 4.0 Instruct доступна на IBM watsonx.ai, а также на Dell Pro AI Studio, Dell Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE и Replicate. Базовые модели размещены на Hugging Face. Скоро появится поддержка для Amazon SageMaker JumpStart и Microsoft Azure AI Foundry.

IBM предлагает пользователям Granite Playground и подробную техническую документацию в Granite Docs. Для дообучения и кодовых ассистентов модель интегрируется с инструментами Unsloth и Continue.

Как отмечает IBM, Granite 4.0 — это серия открытых ИИ-моделей для бизнеса, которые требуют меньше памяти и эффективнее справляются с длинными текстовыми задачами. Модели сертифицированы по международному стандарту ISO/IEC 42001:2023 (прозрачность, безопасность и ответственное использование ИИ).

Источник

Оцените статью
Gimal-Ai