🤖 На що потрібно звертати увагу, якщо ви користуєтеся машинним перекладом (MT):
🔸 Смисл. Це найголовніша проблема машинного перекладу та розділова межа між ним і людським перекладом. МТ легко видає цілковиту нісенітницю з тією самою швидкістю, що й текст, який справляє враження осмисленого.
🔸 Пропуски та вигадки (omissions & additions). Деякі частини вихідного тексту МТ може просто викинути, а може нафантазувати такого, чого там і не було. Цієї хиби припускаються й люди, але з інших причин. Технічні перекладачі, які працюють у «кішках», найчастіше роблять такі помилки, коли поспішають і бездумно підтверджують fuzzy matches, думаючи, що це 100% matches.
🔸 Термінологія. Той самий термін MT може перекласти по-різному навіть у межах одного речення.
Screw у вас в одному місці буде
гвинт, у другому
шуруп, у третьому
болт. Для технічного перекладача це катастрофа. Її намагаються позбутися шляхом «тренування» МТ-модулів — створення так званого trained MT engine. Але для цього потрібні великі за обсягом напрацювання в конкретній термінологічній галузі — щонайменше 500 тисяч сегментів, перекладених людиною. Далеко не завжди вони взагалі існують.
🔸 Рід і стать. Це та сфера, де МТ-служби надзвичайно неполіткоректні. Звертатиметься MT то на
ти, то на
ви. Про жінку з попереднього речення він у наступному запросто може казати
пан,
сер,
пішов,
приїхав. Якщо ви користуєтеся машинним перекладом, слідкуйте за тим, щоб ваша дійова особа, зокрема й нежива, тишком-нишком не змінила свою стать («
Олег підняв годинник. Вона була прекрасна.»). Особливої уваги потребують
особові займенники (
він,
вона,
його,
її тощо) та інші частини мови, які мають морфологічні ознаки роду.
🔸 Короткі речення. У них багато хиб, оскільки МТ бракує контексту. Переклад в умовах відсутності контексту —
це й для людей проблема.
🔸 Регістр букв і знаки пунктуації. Іноді результат машинного перекладу змінюється, лише якщо змінити регістр першої літери речення, додати або забрати крапку тощо. Більшість МТ-служб цю ваду успішно подолали, але вона не щезла.
🔸 Погіршення якості, якщо ні вихідна, ні цільова мова не є англійською. Англійська — мова міжнародного спілкування і, найчастіше, рідна мова розробників МТ-служб. Англійські датасети, на яких вони тренують
нейронні MT-мережі (NMT), найбільші за обсягом. Для рідкісної мовної пари, як-от угорська — суахілі, просто не знайдеться датасету достатнього обсягу, на якому можна було б натренувати нейронну МТ-мережу. Тому машинний переклад у таких мовних парах часто відбувається через посередництво англійської: угорська → англійська, потім англійська → суахілі. Тобто здійснюється подвійний машинний переклад, і кількість усіх описаних вище вад подвоюється. З цим недоліком
теж намагаються боротися.
🔸 Гумор, гра слів, алюзії, натяки, алегорії. Для машинного перекладу це поки що terra іncognіta: він їх просто не бачить і перекладає в лоб. З почуттям гумору та кмітливістю в MT погано.
#машиннийпереклад #редагування #англійськамова