Дообучаю нейросеть m2m100 для перевода на... / itbze

Дообучаю нейросеть m2m100 для перевода на кабардино-черкесский язык. Эта модель, специализированная для перевода текстов с одного языка на другой, находится в открытом доступе и позволяет обучать ее новым языкам. В процессе дообучения я использую параллельный корпус кабардино-черкесского языка, который состоит из 60 тысяч пар предложений. Однако этого объема недостаточно для достижения высокого качества перевода. Существующая «Адыгэ» версия m2m100 неплохо переводит с множества языков на кабардино-черкесский, но я сосредоточен на обучении модели для обратного перевода — с кабардино-черкесского на другие языки. Для создания действительно качественного переводчика нам потребуется значительно больше данных, собирать их мы будем в ходе реализации проекта. После завершения сбора и создания качественного корпуса параллельных данных, можно будет дообучать новое поколение модели m2m100 — nllb-200. Я уже пробовал дообучать её на имеющемся корпусе, попробовать можно по ссылке — https://huggingface.co/spaces/alimboff/nllb-200-kbd

huggingface.co

Nllb 200 Kbd - a Hugging Face Space by alimboff

Discover amazing ML apps made by the community

https://t.center/itbze/25

1.4K viewsJul 31, 2024 at 20:41

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily