OpenAI обновила Realtime API и добавила три новых модели, чтобы улучшить качество транскрипции, синтеза речи и выполнения функций. Разработчики отмечают, что вариант gpt-4o-mini-transcribe сокращает количество “галлюцинаций” на 89% по сравнению с whisper-1.
Для задач преобразования текста в речь модель gpt-4o-mini-tts снижает количество ошибок в словах на 35%. Модель gpt-realtime-mini, ориентированная на голосовых ассистентов, выполняет инструкции точнее на 22% и лучше справляется с вызовом функций на 13%.
Компания также сообщила о заметном улучшении для китайского, японского, индонезийского, хинди, бенгальского и итальянского языков.





















