Дообучаю нейросеть
m2m100 для перевода на кабардино-черкесский язык. Эта модель, специализированная для перевода текстов с одного языка на другой, находится в открытом доступе и позволяет обучать ее новым языкам. В процессе дообучения я использую
параллельный корпус кабардино-черкесского языка, который состоит из 60 тысяч пар предложений. Однако этого объема недостаточно для достижения высокого качества перевода.
Существующая «Адыгэ» версия m2m100 неплохо переводит с множества языков на кабардино-черкесский, но я сосредоточен на обучении модели для обратного перевода — с кабардино-черкесского на другие языки. Для создания действительно качественного переводчика нам потребуется значительно больше данных, собирать их мы будем в ходе
реализации проекта.
После завершения сбора и создания качественного корпуса параллельных данных, можно будет дообучать новое поколение модели m2m100 —
nllb-200. Я уже пробовал дообучать её на имеющемся корпусе, попробовать можно по ссылке —
https://huggingface.co/spaces/alimboff/nllb-200-kbd