Преамбула:
По сути дела self-supervised mode помогает нам в том, чтобы выучить природу предмета. Как для текста это семантика, синтаксис и что-то еще (я плохо слушала на парах). Почему бы не делать это для речи? Да, все логично - маскируй и предсказывай, не rocket science, you know. Но! Когда ты учишь gpt генерить текст, исходная задача SST - сгенерить текст никак не мешает в downstream задачке его классифицировать. А что с речью? Ну тоже проблем не должно быть, мы же говорим и все тут.
Downstream задача - automatic speech recognition. Просто предсказывай слово. Неважно где, шепотом или ором, медленно или быстро, зло или добро, та и я вообще его говорю или нет - просто предскажи. И вот лежит у меня на письменном столе wav2vec на SST, по вкусу вкусный, а на вкус? А на вкус могу ли я заиспользовать его для классификации спикера? А акцента? А ASR?
Безусловно, могу. Я вообще все могу, вопрос на сколько хорошо ;) И на что училась? А учу я просто self-supervised learning модель, где на первом этапе меня не так уж сильно интересует asr, меня интересует mutual info с "квантованой" репрезентацией от zi. При этом я за скобки выношу тот факт, что речь continuous, а мне нужны дискретные юниты, которые я учу. Но что они в себе несут?
Пусть даже если большинство downstream задач ортогональны upstream задаче, мы все еще используем эти модели, но знают ли они слова или нет?