Есть крутой опенсорсный text-2-speech (TTS) проект Coqui. / Psy Eyes / Telegram Center

Есть крутой опенсорсный text-2-speech (TTS) проект Coqui. У них в наличии имеется сайт, на котором много голосовых пресетов, есть настройка скорости произношения, легко клонировать речь и генерить на её основе фразы на разных языках. Также у них репо на гитхабе Coqui TTS, которое используется разными проектами, как база для работы голосом. Тут есть поддержка Bark для клонирования, предобученные модели на 1100+ языков, Tortoise для быстрого инференса, API, и смешивание голосов. Можно натренить модель на своих данных, если нужно. Однако эта модель по качеству генераций уступает той, что на сайте — XTTS, которая после пробника перекрыта платкой. Теперь они выложили веса XTTS в открытый доступ. Что имеем: * клонирование голоса по 3 секундам (больше-лучше) * генерация клонированным голосом на по тексту разных языках * качество в 24khz Camenduru уже запилил колаб. Заодно вот модель Wav2Lip для липсинка... Собираем в режиме лего опенсорсный Heygen. Сайт Coqui Демо (HF) Демо (колаб) Гитхаб Веса на HF

https://t.center/Psy_Eyes/1208

11.9K viewsAndrey Bezryadin, Sep 15, 2023 at 15:28

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily