🙉 теперь про AUDIO 🙉
Генерация таких звуков не похожа на генерацию музыки, нет шанса на ошибку. Вдруг какая-то частота резко появится, и вы проснетесь как от рыка льва.
Но все таки пройдемся, что из генерации музыки там мб. Вообще все решения можно разделить условно на midi, сырое аудио и модификации midi, архитектурно на старые recurrent модели (у нас все таки последовательность) и transformer модели (потому что модно и молодежно), также diffusion тренды))
пара статеек, которые мне понравились
1️⃣ MuseFormer - Transformer with Fine- and Coarse-Grained Attention for Music Generation
генерим не на основе всех предыдущих токенов, а их summarisation
демки
пепер
2️⃣ MusGET - аля берт для музыки, маскируем только один из треков, предсказываем на основе source трека замаскированный target трек
демки
пепер
3️⃣ MusicGen июнь 2023 - пожалуй, один из самых популярных сейчас... авторегрессионный трансформер со своим
EnCodec на сырое аудио, главное отличие от других как раз в EnCodec
демки
пепер
4️⃣ Music Transformer 2018, old but nice
классик трансформер, но со своим быстрым relative attention
демки (мне особенно понравилось, как играет создатель в конце сгенерированный трек на пианино)
пепер
5️⃣ JukeBox от OpenAI, old и не работающий)))
работает на сыром аудио с VAE на quantized вектора, по сути идея похожа на MusicGen....
демки
пепер
6️⃣ Mousai - те же авторы, что и в Music Gen, январь 2023
две диффузии: энкодер только на аудио, потом text-to-audio diffusion
демки могут в классику, почти получилось в дапстеп (привет, 2013), остальное как будто на 2х
пепер
🙉—это-типо-переход—-
🙉
Вообще подходов уйма на
papers with code и некоторые очень интересные
По сути те, что работают на midi пытаются сымитировать поведение языковых моделей, но суть в том, что midi сами по себе можно по-разному декодировать и соответственно улучшать качество. Вот тут можно найти разные
имплементации, а
вот тут видео от 2020 года про один из видов такого декодирования
доп:
интересный обзор с RNN, CNN и VAE
решение только в продукт, мне house понравился грустный))
🙉—это-еще-переход—-
🙉
Как думаете, что у endel внутри? Ифками все покрыто или мюзик женерейшн какой-то? И вообще используете или нет сами? Мой опыт расскажу в комментах))
#grokaem_audio