🗣️ Ещё одно небольшое обновление.
Теперь для генерации речи используется модель OpenAI Whisper TTS-1-HD, применяемая в официальном приложении ChatGPT.
Ранее использовалась комбинация моделей Yandex Speech для русского языка и Google Cloud Speech для всех остальных языков. Более того, нашему боту приходилось определять язык текста перед вызовом нужной модели, что приводило к некорректному озвучиванию ответов, содержащих текст на нескольких языках.
Модель Whisper автоматически определяет язык каждого слова по отдельности и без проблем справляется с текстами, состоящими из нескольких языков.
Напоминаем, что функция общения голосом (бот также умеет понимать голосовые сообщения) доступна в планах Premium и Ultimate. Сделать апгрейд можно через команду /subscribe.
Мы с нетерпением ждём революционного обновления голосовой модели GPT-4o, которое OpenAI обещает выпустить в течение нескольких недель. Это обновление позволит нам избавиться от промежуточных API, переводящих текст в речь (и наоборот), что, во-первых, уберёт дополнительную задержку на обработку аудио, а во-вторых, сотрёт промежуточный барьер в виде текста и позволит распознавать эмоции и другие звуки в ваших голосовых сообщениях, а также позволит боту отвечать с разной интонацией и скоростью. Бот даже сможет петь! Возможно, режим "гопника" (/catalog) обретёт новые краски 😄