Не смотря на то, что
AudioCraft + его расширенная версия
AudioCraft Plus уже давно лежат в сети, на Hugging Face
появилось демо маленькой модели для генерации музыки на основе MusicGen. На удивление структурно хороший звук выдаёт, да ещё и во FLAC. За 30 секунд ожидания генерирует 30 секунд аудио, что означает к этому вполне можно прикрутить Gradio интерфейс с поддержкой стриминга аудио, чтобы нажать и сразу слушать что получается пока остальное рендерится.
Не могу сказать, что результат сгенерированное бьётся с промтом, нужно поиграться. На той же странице есть ссылки среднюю, крупную, и мелодичную модели, которые по идее должны лучше следовать тексту и выдавать куски длиннее, но для работы с ними их нужно гонять локально или арендовать на хаггинге GPU. Для локалки пробуйте использовать
CoffeeVampir3.
На видео почему-то шумы, хотя в самом аудио их нет — в комментах парочка сгенерированных оригиналов.
Попробовать