Google применила новую технику обучения с учетом квантизации (Quantization-Aware Training), чтобы модели Gemma 3 работали не только на дорогих серверных видеокартах, но и на массовых потребительских GPU и даже на мобильных устройствах.
Ранее модели Gemma 3 были рассчитаны на работу с топовыми NVIDIA H100 и высокой точностью BFloat16, что ограничивало их применение широким кругом пользователей.
Ключ к снижению требований — квантизация. Она сокращает объем памяти, необходимый для работы моделей. Теперь веса и активации хранятся с меньшим количеством битов — 8, 4 или даже 2 вместо 16 или 32. Это экономит ресурсы и ускоряет работу.
Суть QAT — обучать модель сразу в условиях сниженной точности, чтобы минимизировать потери качества. Например, у Gemma 3 27B объем VRAM снижается с 54 ГБ до 14,1 ГБ при использовании int4. У версии на 12B — с 24 до 6,6 ГБ, а у 4B — всего 2,6 ГБ.
Google заявляет, что такие модели «устойчивы к квантизации». Обычно это приводит к падению качества, но тут, по словам компании, результаты остаются высокими. Точных обновленных бенчмарков компания пока не опубликовала.
Модели доступны на Hugging Face и Kaggle. У пользователей есть выбор между разными размерами и форматами. Поддержка есть во многих движках: Ollama, LM Studio, MLX (для Apple Silicon), llama.cpp, gemma.cpp, а также GGUF-форматы.
Помимо официальных версий, энтузиасты сообщества под флагом “Gemmaverse” экспериментируют с квантизацией и создают свои компактные варианты.