Whisper - пошепчем про speech recognition
На днях OpenAI выпустила новую сеть для распознавания речи – Whisper. Это трансформер, который в максимальной комплектации содержит скромные полтора миллиарда параметров.
Чем отличается от уже существующих сеток для решения этой задачи? Я вам точно не скажу, потому что я статью детально не читал, но выглядит все так, что это, как обычно, победа инженерии и хорошо собранный и размеченный датасет на 680,000 часов.
Из приятного, на гитхабе доступны и код и веса моделей разной жирности. Тут они отрабатывают свое название "Open".
Модель знает несколько языков, автоматически их распознавая, русский язык в том числе. И она хорошо показывает себя на zero-shot бенчмарках.
Кстати, 90% этого текста я надиктовал в Виспере.
❱❱
Код с весами
❱❱
Блогпост
@ai_newz