Любопытное про детекцию голосовых секретарей.
Вообще, стартапы, которым прям сейчас нужен результат малыми ресурсами, зачастую выжимают из своих решений очень много практической эффективности. Вот и тут довольно красиво скомбинировали алгоритм шазама для детекции известных фрагментов с маленькой сеточкой для обнаружения синтезов.
Сеточка, скорее всего, совсем не универсальная, но голоса, которые раньше слышала - запоминает просто тембром.
Удивило использование triton server для CPU инференса - казалось бы, он не должен там особого профита давать, а говорят как-то выиграли 20%.
Думаю, при всей скорости развития технологий синтеза, какое-то время это решение еще будет юзабельным. Затем, конечно, экономическое условие "быть существенно дешевле в потреблении ресурсов чем asr" перестанет выполняться.
#ml #speech #asr #tts #конференция #доклад