У Nvidia тем временем великолепный свежий релиз: они выпустили модель для генерации звуков
Fugatto – фундаментальная модель для генерации и обработки любых звуков. Мировые лидеры в этой области – стартапы ElevenLabs, StabilityAI и, пожалуй, Meta, – но функционал Fugatto шире любой модели от этих игроков. Она работает и с голосами (может, например, добавить акцент), и с музыкой, и просто со звуками внешнего мира.
При этом обрабатывать и генерировать можно и сложные составные звуки, которые на претрейне модель "слышала" только по отдельности и которые могут переходить друг в друга динамически. Ну, например, "стук дождя по крыше и вой стаи волков вдалеке, который со временем становится громче". Таких инноваций удалось добиться благодаря технике ComposableART (при этом под капотом, конечно, трансформер).
Модель, кстати, относительно легкая – всего 2.5B – и обучалась на небольшом кластере, состоящем из 32 H100