Одна из research практик наших research seminars - это... / grokaem себя / Telegram Center

Одна из research практик наших research seminars - это постер презентации. В последний раз это было весело, но я не запостила все статьи, о которых рассказывала в контексте continual learning. В этот раз моя тема - это LLM для Audio. Ключевых статей будет 4, но также будут поверхностные, рядом стоящие статейки. Начнем с горячего - Fugatto от NVIDIA. Задача больший generalist моделей - это решать n количество задач, обучаться легко на различных данных и scale efficiently на всех этих датасетах. Перед тем как начать про Fugatto скучная преамбула: Cейчас много LLM подходов, начиная с адаптеров для LLAMA-like от whisper, заканчивая conversational моделями. Во многих из такого рода подходов мы выигрываем за счет и из-за языковой модели. В этой серии постов мы говорим о Audio моделях, которые могут генерировать не только речь, но и звуки. Это необходимо, чтобы речь звучала натурально. За аксиому мы подразумеваем intelligibility речи. Но что такое натурально? Для себя (и для постера) я разделяю это понятие на: 👍 1. speaking factors - просодия, эмоции, произношение 2. paralinguistic factors - человеко-физические состояния плач, смех, дыхание, глотание 3. non-speech factors - стабильные и нестабильные шума других организмов и явление, включая reverb о стены 👍 Главная цель - усидеть на всех трех стульях…. мне кажется, что самое сложное - это не отдельно взятый стул, а усидеть на всех трех. Для этого нам понадобится либо очень жирная модель, либо очень ловкая. Сегодня о ловкой.

Please open Telegram to view this post

VIEW IN TELEGRAM

https://t.center/grokaem_seby/347

1.5K viewsDec 8 at 16:44

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily