#grokaem_audio
- Я тебе говорю, еще полгода и бум будет в аудио.
- И что и у меня работу отнимут?
Это недавний диалог с моим другом-диджеем. Я работу у него забирать не собираюсь, а вот Meta похоже - да. Как это начали делать писала
тут.
🙈AUDIO CRAFT или генери музыку с настройками🙈
3 модели внутри:
MusicGen - генери музыки
AudioGen - генери звуки
EnCodec - кодируй аудио в что-то другое, пожалуйста
Про MusicGen мы уже болтали, хочется понять, что за
EnCodec у них. Именно на кодах из него учится MusicGen.
🙈ENCODEC🙈
В чем проблема?
Кодирование аудиозаписи с помощью MIDI
ссылка на вики (
do u use wikipidea as your source of information? yes.) - дает мало инфы про аудио. Поэтому
все изощрялись, как бы придумать что-то впихуемое в LM как MIDI, но чтобы лучше, Но в сыром аудио конечно больше 'признаков', поэтому хотелось бы юзать его. Пытаясь усидеть на двух стульях, EnCodec предложили это и делать с 'квантизацией'.
папир
видео-разбор
0️⃣ Что внутри?
Внутри encoder - decoder модель из conv блоков и лстмки, между ними
quantizer. Именно с него мы будем брать коды записи. Всего K codebooks, к каждой codebook мы итеративно ищем ближайшее представление. На выходе у нас получается вектор с индексами от каждой codebook. То есть если было 32 codebook, то мы перешли из 1024 в 32!
🤯 Вернемся к векторному представлению, просто просуммировав все представления из codebook.
1️⃣ При чем тут трансформер?
Чтобы ускорить процесс на инференсе и распараллелить квантизацию по таймстепам, будем учить трансформер выдавать вероятности на индексы в каждой codebook. Тогда на инференсе мы не будем закидывать каждый таймстем в каждый блок квантизации, сразу будем получать вероятность наилучшего индекса в каждой codebook.
2️⃣ Что еще мы выучили на курсе по DL и не добавили?
Чтобы точно ничего не потерять, ребята добавили
multi-scale disriminator на STFT (Short-Time Fourier Transform) реальной записи и восстановленной. Это тот же discriminator, но несколько с разными window size на STFT и разными размерами dialated filters.
Лоссов много (аж 6), а результат классный! Статья очень подробная и клево написанная
💔
🙈🙈🙈
Сам audio craft - это по сути объединение генерации музыки, но с разными настройками. Можно крутить кол-о промтов, overlap их записей, длину, лад, key, оверлап промтов. Нормально, к сожалению, они все не оформили, но хорошие разработчики сделали
ноутбук, нужно запустить и нажать на ссылочки на gradio и поиграться. Также не очень (мне) понятно поменяли ли они EnCodec на
диффузию, но точно работают над этим.
Революция? Вроде нет. Шаг к ней? Да.
пс тут был лол-кек с тем, что никто с выхода audiocraft особо ничего не понял, как бы просто это все дело заинферить? Ну и не дураки сразу сделали тутор на ютубчике, но не бесплатно конечно. Интересно, предъявит ли ему что-то Meta за коммерческое распространение прям в issues их репозитория.