SwiReasoning улучшает точность LLM через смену режима

Исследователи из Georgia Tech и Microsoft представили AI-фреймворк SwiReasoning для ускорения и повышения точности языковых моделей.

SwiReasoning автоматически переключает модель между двумя способами мышления: «chain-of-thought» (пошаговое объяснение на тексте) и «latent reasoning» (обработка внутри векторного пространства без текстового вывода).

Фреймворк выбирает режим по уровню неуверенности модели, который вычисляется через энтропию вероятностей токенов. Если энтропия низкая — модель уверена, если высокая — сомневается.

Когда неуверенность падает, SwiReasoning включает явный режим и фиксирует вывод. Если неуверенность растёт, фреймворк возвращает модель к внутреннему поиску альтернатив. Чтобы избежать частых скачков между режимами, SwiReasoning использует разные задержки: переход к явному режиму мгновенен, возврат к латентному разрешается только после определённого числа шагов.

Для предотвращения «вечных размышлений» SwiReasoning ограничивает максимальное число смен режимов. После достижения половины лимита модель получает напоминание завершить рассуждение. Если предел превышен, система требует немедленный ответ. Это избавляет от пустой траты токенов на бесполезные циклы мыслей.

Тестирование велось на трёх моделях с числом параметров до 10 миллиардов: Qwen3-8B, Qwen3-1.7B и Deepseek R1 (8B). Их проверяли на пяти наборах задач по математике и наукам разного уровня сложности.

Без ограничений по токенам SwiReasoning дал прирост точности до 2,8% в математике и до 2% в науках, особенно на самых сложных задачах. По словам авторов, адаптивное переключение особенно полезно для «длинных» рассуждений.

При жёстких ограничениях на количество токенов SwiReasoning улучшил «эффективность токена» (точность на 1 токен) на 56–79%, иногда — до 6,8 раз по сравнению со стандартным chain-of-thought. Так модели получают лучший результат при меньших вычислениях.

В серии тестов с многократными попытками SwiReasoning чаще достигал максимальной точности быстрее. Так, одна задача решалась за 13 попыток вместо 46 (минус 72% повторов).

SwiReasoning не требует дообучения модели и может заменять типовую функцию генерации без изменений в архитектуре или параметрах. Код выложен на GitHub, работать можно вместе с оптимизацией памяти или ускоренной декодировкой.

Источник

Оцените статью
Gimal-Ai