НОЯБРЬ 2024
✌ SPEECH & AUDIO ✌
0. FishAudio 1.5
paper,
weights,
demo
1. OuteTTS - TTS чисто на language modeling
weights,
blogpost (Qwen-2.5)
2. Помните популярный в прошлых месяцах Illuminate, который позволяет генерить discussion по статьям? Небольшой
обзор без серьезных деталей о нем: AudioLM с токенами от SoundStream, ну и "pretrained it on hundreds of thousands of hours of speech data". В эту же тему вышла
модель от hertz-dev (VAE + LM decoder).
3. Fugatto 1 от nvidia с immersive TTS и вообще почти foundation модель,
семплы,
статья
😐 NLP и DL 😐
0.
Статья от Anthropic про то, как оценивать модели: observed average -> theoretical average
1. Bloomberg о multipage multi-modal RAG, M3DocRAG. Работает на visual embeddings, multi-retrieveral
paper обещают, что работает на open-domain вопросах. В эту же тему
voyage мультимодальные эмбеддинги, представляете если брать одну модель на все модальности будет хорошо
2. Новый метод от Stanford Aioli (чесночный соус) для решения проблемы правильного микса разных доменов при тренировке, вводят новый метод Linear Mixing Optimization,
paper
3. Один за всех или
обзор на The Super Weight in Large Language Models
other:
0. Вышла
cuPyNumeric от nvidia для parallel compute у numpy
1. Прекрасный
курс по диффузиям. В эту же сферу
лонгрид про параллели между диффузиями и эволюцией