Salt / Агенты ИИ | AGI_and

This media is not supported in your browser

Salt Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель. Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио. Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри. По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b. Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление. Сейчас модель неплохо работает на английском, на русский мы доучиваем модель. huggingface collab А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.

https://t.center/AGI_and_RL/936

488 viewsJan 23 at 12:56

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily