Одна из research практик наших research seminars - это постер презентации. В последний раз это было весело, но я не запостила все статьи, о которых рассказывала в контексте continual learning. В этот раз моя тема - это LLM для Audio. Ключевых статей будет 4, но также будут поверхностные, рядом стоящие статейки.
Начнем с горячего - Fugatto от NVIDIA.
Задача больший generalist моделей - это решать n количество задач, обучаться легко на различных данных и scale efficiently на всех этих датасетах. Перед тем как начать про Fugatto скучная преамбула:
Cейчас много LLM подходов, начиная с адаптеров для LLAMA-like от whisper, заканчивая conversational моделями. Во многих из такого рода подходов мы выигрываем за счет и из-за языковой модели. В этой серии постов мы говорим о Audio моделях, которые могут генерировать не только речь, но и звуки. Это необходимо, чтобы речь звучала натурально. За аксиому мы подразумеваем intelligibility речи. Но что такое натурально? Для себя (и для постера) я разделяю это понятие на:
👍
1. speaking factors - просодия, эмоции, произношение
2. paralinguistic factors - человеко-физические состояния плач, смех, дыхание, глотание
3. non-speech factors - стабильные и нестабильные шума других организмов и явление, включая reverb о стены
👍Главная цель - усидеть на всех трех стульях…. мне кажется, что самое сложное - это не отдельно взятый стул, а усидеть на всех трех. Для этого нам понадобится либо очень жирная модель, либо очень ловкая. Сегодня о ловкой.