Qualcomm ускорила ИИ-рассуждение на смартфонах

Исследовательское подразделение Qualcomm AI Research представило модульную систему, которая позволяет запускать на смартфонах языковые модели со способностью к рассуждению. По данным компании, новый подход сокращает длину внутренних цепочек рассуждений в среднем в 2,4 раза, что снижает нагрузку на память и уменьшает расход энергии.

Проблема таких моделей на мобильных устройствах связана с тем, что длинные рассуждения создают большое число токенов. Это увеличивает требования к памяти, повышает задержки и быстрее разряжает батарею. В Qualcomm считают, что локальный запуск даёт и другие преимущества: данные остаются на устройстве, ответы приходят быстрее, а система может работать без подключения к интернету.

В статье говорится, что компания рассматривает сценарии использования от персональных ИИ-помощников, которые могут планировать задачи из нескольких шагов и работать сразу в нескольких приложениях, до прямого взаимодействия с интерфейсом устройства и внешними сервисами.

Вместо обучения полностью новой модели Qualcomm использовала модульный подход. За основу взяли Qwen2.5-7B-Instruct без механики рассуждения и расширили её через адаптеры LoRA — небольшие специализированные модули, которые можно включать и отключать по мере необходимости. За счёт этого одна и та же модель может работать либо как быстрый чат-бот, либо как система для более глубокого анализа задачи.

По данным исследователей, обучать нужно лишь около 4% параметров. При этом результат близок к уровню DeepSeek-R1-Distill-Qwen-7B, для которого потребовалось заметно больше вычислений и обучения. В систему также встроен классификатор, который автоматически определяет, нужен ли для конкретного запроса более затратный режим рассуждения.

После начального обучения появилась другая проблема: модели становятся слишком многословными. Авторы работы пишут, что модель часто находит верный ответ рано, но затем тратит тысячи токенов на повторные проверки. Исследователи называют это “epistemic hesitation”, а в научной среде такой эффект часто описывают как overthinking.

Чтобы сократить длину ответов, команда применила обучение с подкреплением, в котором модель получает штраф за слишком длинные ответы. В среднем ответы стали короче в 2,4 раза, а в части задач сокращение достигло 8 раз. Один из примеров в статье: упрощение алгебраического выражения, которое исходная модель решала за 3118 токенов, после оптимизации заняло 810 токенов. По словам исследователей, точность при этом в основном сохраняется.

Один из первых способов ограничения длины не сработал. Модель научилась формально завершать блок рассуждений, а затем продолжала длинный анализ уже в основной части ответа. После этого команде пришлось изменить функцию вознаграждения так, чтобы она учитывала общую длину ответа.

Система также позволяет модели параллельно проверять несколько путей решения. Небольшой модуль оценки в базовой модели определяет, какой вариант с большей вероятностью верен. Согласно статье, при восьми параллельных запусках точность на математическом бенчмарке MATH500 выросла примерно на 10% без заметного увеличения времени ответа.

Авторы объясняют это тем, что на мобильных устройствах генерация токенов чаще упирается в доступ к памяти, а не в вычислительную мощность. Поэтому параллельные ветки используют ресурсы, которые иначе простаивали бы.

Для запуска на смартфоне Qualcomm также сжала веса модели до 4 бит. В статье говорится, что адаптеры рассуждения нужно обучать прямо на сжатой версии модели, иначе система начинает генерировать случайный текст. Несмотря на такое сжатие, финальная модель теряет около 2% точности по сравнению с несжатой версией. На странице проекта опубликованы видео с работой системы на мобильных устройствах.

Qualcomm уже несколько лет развивает запуск ИИ-моделей на смартфонах. Ранее компания выпустила 80 заранее оптимизированных ИИ-моделей для устройств на Snapdragon и показала ИИ-оркестратор, который должен связывать персональные данные, приложения и локальные модели на устройстве.

Похожие шаги делает и Google. Компания показывала, как небольшие языковые модели могут работать локально на Android через FunctionGemma и AI Edge Gallery. Однако пока такие проекты в основном остаются техническими демонстрациями. В сценариях с глубоким доступом к системе — например, к почте, фото и календарю — компании по-прежнему чаще используют облачные модели.

В качестве примера приводится функция Google Personal Intelligence. Она связывает Gemini с Gmail, Google Photos и Search, но работает полностью на стороне сервера.

Источник: The Decoder, paper Qualcomm AI Research.

Оцените статью
Gimal-Ai