* я грубо буду мешать английский и русский *
paper0️⃣Начинаем с
датасета.
Ранее наиболее частотный способ создания для датасета был audio understanding models, главная цель тут - сделать diverse датасет.
Dataset generation pillars:
1.
free-form instructions with llms - just describe the audio, controllable sentence generation with templates and keywords
2.
absolute and relative - changes motivated by gpt4-o, generated the same way as 1.
3.
audio understanding models - convert speech attributes predicted by another model into nlp descriptions
4.
transmuting datasets - try to find the datasets where one factor is static and the other is changed and reuse for other transformations tasks (instrument synthesis dataset to use as an instrument transformation task)
5.
audio processing tasks - praat and pedalboard with controlled modifications for specific alterations, e.g. “increase F0 variance slightly”.
⇒ 50K hours of only opensource datasets
На выходе у нас относительно много diverse данных, но что и важно - скриптов, которые могут генерить динамически инструкции.
1️⃣ Model
1. text is encoded with
byT5 tokenizer free
2. audio - melspectrogram
3. main model is a t5 transformer trained with Optimal Transport conditional flow matching
Главный изюм статьи
😊 это compositional classifier guidance
😊. В обычном classifier free guidance мы берем скор без кондишиона и суммируем с разницей, если кондишен будет существовать. Здесь мы сделаем абсолютно то же самое, только будем работать со всеми conditions, которые нам доступны. Также авторы добавляют отдельно весь на весь condition, который юзер может выставлять и сам на каждый фрейм. Таким образом мы можем добавлять контроль на композицию всех семплов в длине.
Картинки формул в комментариях. 2️⃣ Про результатыХоть по метрикам все не так хорошо, по черипикнутым примерам все очень приятно.
ПОСЛУШАТЬ ВСЕTTS: singing voice samples - higher WER and SVS comes from higher difficulty for generative model and speech transcription model. High cosine similarity for CLAP.
TTA: text to audio, outperforms generalist models for FD, FAD.
Transformations - когда мы как-то меняем аудио (это различные переходы, аля enhancement)
- bandwidth extension - recreate missing content from audio that is low pass filtered and downsampled, fugatto is always the second to the last…
- speech to emotion - transform a person’s emotion in speech into another emotion, preserving speaker identity. super high WER, top2 accuracy is high, speaker similarity is really bad
- MIDI2Audio is really bad in terms of metrics, but the model has never seen midi
Event composition - whether changing the scores for ComposableART influences the output
Тут мне понравился метод отслеживания, а работает ли эта штука на самом деле - мы считаем CLAP scores, к ивенту, который нам нужен.
it works efficiently both for the удаление состояния [
negation] of attributes and for their [
composition]. The same scores can be used for CLAP scores on the temporal guidance for instruction sequences. И на них мы видим, что темпорально уменьшая или увеличивая вес, CLAP скоры также соответственно меняются.