#grokaem_audio / grokaem себя / Telegram Center

#grokaem_audio - Я тебе говорю, еще полгода и бум будет в аудио. - И что и у меня работу отнимут? Это недавний диалог с моим другом-диджеем. Я работу у него забирать не собираюсь, а вот Meta похоже - да. Как это начали делать писала тут. 🙈AUDIO CRAFT или генери музыку с настройками🙈 3 модели внутри: MusicGen - генери музыки AudioGen - генери звуки EnCodec - кодируй аудио в что-то другое, пожалуйста Про MusicGen мы уже болтали, хочется понять, что за EnCodec у них. Именно на кодах из него учится MusicGen. 🙈ENCODEC🙈 В чем проблема? Кодирование аудиозаписи с помощью MIDI ссылка на вики (do u use wikipidea as your source of information? yes.) - дает мало инфы про аудио. Поэтому все изощрялись, как бы придумать что-то впихуемое в LM как MIDI, но чтобы лучше, Но в сыром аудио конечно больше 'признаков', поэтому хотелось бы юзать его. Пытаясь усидеть на двух стульях, EnCodec предложили это и делать с 'квантизацией'. папир видео-разбор 0️⃣ Что внутри? Внутри encoder - decoder модель из conv блоков и лстмки, между ними quantizer. Именно с него мы будем брать коды записи. Всего K codebooks, к каждой codebook мы итеративно ищем ближайшее представление. На выходе у нас получается вектор с индексами от каждой codebook. То есть если было 32 codebook, то мы перешли из 1024 в 32! 🤯 Вернемся к векторному представлению, просто просуммировав все представления из codebook. 1️⃣ При чем тут трансформер? Чтобы ускорить процесс на инференсе и распараллелить квантизацию по таймстепам, будем учить трансформер выдавать вероятности на индексы в каждой codebook. Тогда на инференсе мы не будем закидывать каждый таймстем в каждый блок квантизации, сразу будем получать вероятность наилучшего индекса в каждой codebook. 2️⃣ Что еще мы выучили на курсе по DL и не добавили? Чтобы точно ничего не потерять, ребята добавили multi-scale disriminator на STFT (Short-Time Fourier Transform) реальной записи и восстановленной. Это тот же discriminator, но несколько с разными window size на STFT и разными размерами dialated filters. Лоссов много (аж 6), а результат классный! Статья очень подробная и клево написанная 💔 🙈🙈🙈 Сам audio craft - это по сути объединение генерации музыки, но с разными настройками. Можно крутить кол-о промтов, overlap их записей, длину, лад, key, оверлап промтов. Нормально, к сожалению, они все не оформили, но хорошие разработчики сделали ноутбук, нужно запустить и нажать на ссылочки на gradio и поиграться. Также не очень (мне) понятно поменяли ли они EnCodec на диффузию, но точно работают над этим. Революция? Вроде нет. Шаг к ней? Да. пс тут был лол-кек с тем, что никто с выхода audiocraft особо ничего не понял, как бы просто это все дело заинферить? Ну и не дураки сразу

сделали тутор на ютубчике

, но не бесплатно конечно. Интересно, предъявит ли ему что-то Meta за коммерческое распространение прям в issues их репозитория.

https://t.center/grokaem_seby/248

2.5K viewsedited Aug 16, 2023 at 18:29

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily