С 1 сентября! Лишь недавно осознала, что в детстве родители пытались выстроить связь: 1 сентября - начало учебного года - праздник. Это вам пицца в Сеньоре Помидоре, тортик и банты.
Давайте и мы проведем ассоциативную связь между началом месяца и радостью, что а) начинается новый, б) было много хорошего в старом
АВГУСТ 2024
🎒NLP
🎒
0. Вышел REFT - PEFT для representation fine-tuning, узнала
тут, а код
тут
1. Интересная статья MobileLLM,
paper c подходами к уменьшению моделей без квантизации, но поддержки и бусту качества с помощью: embeddings sharing, immediate block-wise layer sharing, deeper networks over wider networks
3. Вышла ColPali, sota для поиска документов, анализирует также визуальные фрагменты, узнала
тут
4. Новая мультимодальная модель от meta с diffusion, которая предиктит сразу discreate text tokens и картинки
paper
🎒AUDIO
🎒
0. Вышла WavTokenizer, codec модель по качеству в опережающая Encoder, DAC, SpeechTokenizer и при этом квантующая в 75 токенов.
paper
1. Люди
начали тюнить LLAMA 3.1 с audio input
2. Вышла Language Model Can Listen While Speaking, пайплайн с LLM для двухканального слушания, перебивки и tts.
3. В эту же песню вышел Qwen2-Audio
code, для хорошего понимания советую прочитать
обзор codec моделей
4. SimpleSpeech,
paper, non-autoregressive TTS на диффузии и без alignment
5. Желтый AI провел конфу
Turbo ML conf, выступления уже на youtube
6. Новая модель для utterance speaker recognition от русскоговорящих ребят
paper
Большинство статей с канала
Speech Technology
🎒RANDOM
🎒
0. Открыла для себя канал
SpeechAI Pro, иногда там про бизнесовые штуки, которые я скипаю, а иногда короткие ревью докладов
1. Интересный
подход для knowledge distillation.
2. Также статьи, которые я планирую прочитать или читаю можно наблюдать тут в
notion page