🎙 Генерация музыки и вокала по тексту на русском языкеИменно такую задачу вам предстоит решить на
хакатоне от моих друзей из
XLabs-AI за 2 недели. Вы могли о них слышать благодаря их
громким релизам диффузионных моделей на основе FLUX. Ребята любят
опенсорс и стремятся вырваться на первые места.
Вы можете попробовать себя в их роли, решая cutting-edge задачу, побороться за
1 миллион рублей за первое место (600к и 400к за второе и третье), а также, при желании, стать частью их огненной команды, если у вас все получится!
💫 Зарегистрироваться, вступить в чат участников и почитать подробнее об условиях и сроках можно по
этой ссылке на сайте хакатона.
В свою очередь, я и команда VikhrModels не остаемся в стороне от новых модальностей, мы активно ведем собственные опенсорс разработки в этом направлении. Поэтому, ниже будет немного информации от меня для тех, кто вобще не знает как подступиться к этой задаче и что делать:
- Для начала вам стоит понять, как выглядит проприетарное качество сервисов по генерации песен - посмотрите, например,
эту статью- Почитать, как решали эту задачу на SOTA с помощью GANов в 2020 году можно в статье от Microsoft -
HiFiSinger, тут же вы можете узнать об особенностях работы с вокалом
- Вобще, у Microsoft на
Github есть целый тулкит с разными моделями и кодом для понимания и генерации музыки, так же вы можете подсмотреть интересную идею про
музыкального агента с LLM
- Кроме того, существуют более современные опенсорс подходы к генерации аудио с помошью диффузионных моделей:
AudioLDM 2,
Stable Audio- Как делают извлечение семантической и иной информации из аудио (представление в векторном пространстве):
Hubert,
EnCodec,
CLAP,
XLS-R.
-
Лекция из ШАДа про трансформеры в TTS и
лекция про нейро-кодеки и квантизацию аудио
- Узнать, как Meta AI решали задачу генерации музыки (не вокала), используя авторегрессионый трансформер, можно в их недавнем подходе
MusicGen-
Сборник большого количества речевых технологий для русского языка, обратите внимание на такие вещи как
ruaccent и
runorm, для расстановки ударений в тексте и его предобработки, что часто важно в TTS.
- Про то как оценивают TTS системы: в audio
курсе HF,
utmos, русский TTS
лидерборд- Как делают мультиязычное клонирование голоса и работают с разными спикерами -
OpenVoice,
VALL-E-X и XTTS-v2
Наиболее близкими для решения этой задачи, вероятно, будут существующие TTS решения с дополнительными дотрейнами на вокальных датасетах, а также решения с клонированием голоса. Здесь можно выделить опенсорс модель
XTTS-v2, которая кстати, поддерживает и русский язык. А также крупную модельку от фейсбука
SeamlessM4T и их же модель по-меньше
mms-tts-rus, которые так же умеют в русский. Еще неплохой и часто используемый вариант - Vosk-TTS (
код,
модель).
Наиболее вероятный сценарий, если не получится сделать клонирвоание голоса, - вам придется дообучать модели, и для этого вам потребуются датасеты вокала, тут вам придется парсить разные источники. Наиболее интереный - YouTube, и вы можете воспользоваться удобной и рабочей опенсорс тулой для этого -
yt-dlp (не забывайте про прокси). Спаршенные аудио, например, можно будет переводить в текст с помощью
Whisper-v3, который хорошо справляется с русским, или парcить текста песен с сайтов вроде
Genius.
Впринципе, это все напутствие, которое я могу вам дать сейчас.
Приглашаю всех на хакатон и желаю удачи
🤗