Испытываю смесь профессионального любопытства и эстетического восторга
от этого (несколько неприличного) AI кавера.
Насколько я понимаю - пение синтезируется из текста, при этом манера исполнения, и, вероятно питч - берется в моменте из исходника. И, скорее всего, это потом миксуется с минусовкой.
Ну, то есть:
1. Разделили исходник(в данном случае - "Мой рай") - на вокал и остальное.
2. Натренировали нейроночку по тексту и эмбеддингу текущего момента звука генерировать такое же пение.
3. Смиксовали обратно с минусовкой.
Кто в курсе - там такая схема, или это как-то по-другому делают?
#ml #audio #синтез_речи