View in Telegram
Первая полностью открытая модель для генерации разговорного аудио - Hertz-dev (8.5B параметров). Слушайте образцы ниже, там очень клево. Это все либо сгенерировано AI, либо в диалоге с AI. Направлена на создание естественных и плавных аудиосообщений. Состоит из трех основных компонентов: hertz-codec, hertz-lm и hertz-vae. Hertz-codec — это аудиокодек, который преобразует аудио в необходимое представление, что позволяет экономить ресурсы без потери качества. Hertz-lm — языковая модель, обученная на 20 миллионах часов аудиоданных, может генерировать текстовые репрезентации звука и обладает контекстом до 4,5 минут. Модель доступна в двух версиях: с предобучением на текстовых данных и исключительно на аудиоданных. Hertz-vae — мощная модель, которая отвечает за восстановление семантики речи с высокой точностью. Модель полностью открытая и она никак еще не настроена на инструкции, не файнтюнена, поэтому ее можно поднастроить под ЛЮБУЮ аудиозадачу, от классификации эмоций до перевода в реальном времени. Обещают, что задержка в 2 раза ниже всего имеющегося на рынке, на RTX 4090 - 120 мс. Подробнее: https://si.inc/hertz-dev/ Код: https://github.com/Standard-Intelligence/hertz-dev/tree/main
Telegram Center
Telegram Center
Channel