Есть крутой опенсорсный text-2-speech (TTS) проект
Coqui. У них в наличии имеется сайт, на котором много голосовых пресетов, есть настройка скорости произношения, легко клонировать речь и генерить на её основе фразы на разных языках.
Также у них репо на гитхабе Coqui TTS, которое используется разными проектами, как база для работы голосом. Тут есть поддержка Bark для клонирования, предобученные модели на 1100+ языков, Tortoise для быстрого инференса, API, и смешивание голосов. Можно натренить модель на своих данных, если нужно. Однако эта модель по качеству генераций уступает той, что на сайте —
XTTS, которая после пробника перекрыта платкой.
Теперь они выложили веса XTTS в открытый доступ. Что имеем:
* клонирование голоса по 3 секундам (больше-лучше)
* генерация клонированным голосом на по тексту разных языках
* качество в 24khz
Camenduru уже
запилил колаб. Заодно вот модель
Wav2Lip для липсинка... Собираем в режиме лего опенсорсный Heygen.
Сайт Coqui
Демо (HF)
Демо (колаб)
Гитхаб
Веса на HF