Gemini 2.5 Flash Native Audio улучшает работу с голосом

Google выпустила обновление для Gemini 2.5 Flash Native Audio, которое повысило возможности голосовых ассистентов. Модель теперь лучше справляется со сложными задачами, точнее выполняет команды пользователей и ведет более естественные диалоги.

Google сообщает, что уровень выполнения команд разработчиков вырос с 84 до 90 процентов, а качество связи в многоэтапных разговорах стало выше.

Обновленная аудиомодель показывает 71,5% точности при выполнении функций в бенчмарке ComplexFuncBench. Это больше, чем у gpt-realtime от OpenAI, у которого 66,5%. Однако Google уточняет, что сравнение не учитывает последнюю версию realtime от OpenAI, вышедшую только вчера.

Обновление уже доступно в Google AI Studio, Vertex AI, Gemini Live и Search Live. Клиенты Google Cloud используют эту технологию, а разработчики могут тестировать модель через Gemini API.

Источник

Оцените статью
Gimal-Ai