Ъ недавно
написал о том, что в России растет спрос на онлайн-образование. Edtech в 2022 году вырастет на 10-15%, профессиональное образование — на 25-30%. Россиянам нравится учиться где угодно, откуда угодно и чему угодно. Достаточно девайса и хорошего интернета. Остался последний барьер: большая часть крутого образовательного контента на английском языке. По данным Росстата, им владеют всего 5% Россиян.
Нам было очень интересно справиться и с этим препятствием. Наш видео-перевод в Яндекс Браузере уже успешно переводит ролики в Youtube, а недавно эту функцию
раскатили на главную образовательную площадку сети — Coursera. Но на этом не все. Если вы пропустили, эта штука
работает и на прямых трансляциях. Мы вместе смотрели презентацию iPhone 14 с переводом. Качество улет. Как эта штука вообще умудряется работать —
смотрите на Яке или читайте ниже.
Вообще, в далеком 2012 году я решил перестать заниматься синхронным переводом и сфокусироваться на стартапах, коммуникации и бренде в сфере технологий. Мне в один момент стало очень страшно, что лет через 10 я могу оказаться без работы, потому что технологии не стоят на месте. И что мы видим? Ровно 10 лет спустя нашей фичей синхронного перевода пользуются миллионы людей.
А работает эта штука прям как реальный синхронный переводчик. Сами посудите: сначала из видеоряда нужно вытащить аудиодорожку, затем мы превращаем ее в текст (speech-to-text), все это дело переводим (а в мире, между прочим, лишь несколько крутых переводчиков). Казалось бы, все, но нет. Дальше переведенный текст нужно озвучить (text-to-speech), да так, чтобы тембр голоса учесть, пол говорящего не забыть, да и интонации расставить правильно. А ведь в видео людей может быть несколько. Нужно присвоить каждому спикеру соответствующие реплики, чтобы потом применить несколько голосов в озвучке. Мозг взорвался?
Идем дальше. Русский язык, к примеру, на 30% длиннее английского, но видео имеет ограниченный хронометраж, соответственно, нужно умудряться по ходу применять методы речевой компрессии, чтобы длина перевода совпала с длиной оригинальной аудиодорожки.
А теперь представьте, как это все работает в режиме реального времени на прямых трансляциях. Там, где мы зачастую даже не понимаем, что спикер скажет дальше. А в некоторых языках синтаксис устроен таким образом, что ключевая информация для перевода может находиться в самом конце предложения.
Следующий шаг — сделать так, чтобы наш перевод работал на Twitch с крутым качеством. Это тот еще вызов, учитывая, как сложно разобраться в игровом сленге и нормально все это дело перевести «на лету».