Claude выбирает Elevenlabs для голосовых функций

Simon Willison сообщил, что Anthropic указывает Elevenlabs как субподрядчика для синтеза речи в своих условиях использования. Это значит, что Anthropic использует не собственные аудиомодели, а технологии Elevenlabs для озвучки, в отличие от OpenAI или Google. У Elevenlabs недавно появилась новая система, которая делает разговоры ИИ более естественными.

Anthropic запускает голосовой режим в мобильных приложениях Claude. Теперь пользователи могут впервые общаться с ИИ вслух, но пока только на английском. Голосовой режим удобен, когда нужно освободить руки, например во время готовки или тренировки. Включить функцию можно по новому значку-волне рядом с микрофоном. Доступно пять разных голосов.

Режим работает на модели Claude Sonnet 4. Во время разговора на экране будут появляться основные мысли ответа. Можно свободно переходить между голосом и текстом без потери хода беседы. После общения сохраняется расшифровка и краткое содержание, которые доступны для продолжения диалога.

Для подписчиков доступны дополнительные возможности. Платные пользователи Claude могут через голосовой режим обращаться к данным из Google Calendar и Gmail. Интеграция с Google Docs есть только для корпоративных клиентов.

Anthropic советует использовать функцию в тихом месте и говорить спокойно. Сложные вопросы лучше делить на части. Бесплатные пользователи могут столкнуться с ограничением по сессиям: обычно 20–30 голосовых сообщений, потом нужно подождать или перейти на платную версию. Администраторы корпоративных аккаунтов могут отключить режим голосового общения.

Голосовой режим появится у всех пользователей в течение нескольких недель.

Компания отмечает, что при создании функции особое внимание уделялось безопасности. Все пять голосов фиксированы, чтобы нельзя было подделать речь реальных людей. Claude не копирует чужую манеру речи, каждое высказывание создается заново. Ранее OpenAI пришлось убрать один из голосов из-за похожести на голос актрисы Скарлетт Йоханссон.

Anthropic вводит голосовой режим через несколько месяцев после появления похожих функций у OpenAI и Google. OpenAI запустила Advanced Voice Mode в мае 2024 года, а Google показала свои голосовые функции в том же месяце.

Антропик ранее концентрировалась на корпоративных клиентах, однако запуск голосового режима говорит о росте интереса к продуктам для широкой аудитории. Даже если Claude лучше конкурентов в бенчмарках, большинству пользователей важнее удобство — например, голосовое общение и живые ответы.

Источник

Оцените статью
Gimal-Ai