View in Telegram
Дообучаю нейросеть m2m100 для перевода на кабардино-черкесский язык. Эта модель, специализированная для перевода текстов с одного языка на другой, находится в открытом доступе и позволяет обучать ее новым языкам. В процессе дообучения я использую параллельный корпус кабардино-черкесского языка, который состоит из 60 тысяч пар предложений. Однако этого объема недостаточно для достижения высокого качества перевода. Существующая «Адыгэ» версия m2m100 неплохо переводит с множества языков на кабардино-черкесский, но я сосредоточен на обучении модели для обратного перевода — с кабардино-черкесского на другие языки. Для создания действительно качественного переводчика нам потребуется значительно больше данных, собирать их мы будем в ходе реализации проекта. После завершения сбора и создания качественного корпуса параллельных данных, можно будет дообучать новое поколение модели m2m100 — nllb-200. Я уже пробовал дообучать её на имеющемся корпусе, попробовать можно по ссылке — https://huggingface.co/spaces/alimboff/nllb-200-kbd
Telegram Center
Telegram Center
Channel