Новости по собираемому мной датасету параллельных текстов на черкесском <-> русском языках.
На сегодняшний день собрано 345 тысяч строк параллельных текстов высокого качества. Из них 235 тысяч на кабардинском диалекте, и 110 тысяч на западном ("темиргоевском") диалекте. Датасет состоит из 1.7 миллионов русских слов, 933 тысяч слов на кабардинском, и 544 тысяч слов на западном диалекте. Практически весь текст был вычитан и проверен на качество перевода.
Данные были собраны из различных книг, словарей, интернета, научных работ, и с помощью волонтеров на
zedzek.com.
В ближайшее время этот датасет будет использован для обучения улучшенной модели переводчика на сайте zedzek, а также будет передан Google и другим крупным компаниям для использования в обучении их переводчиков.
Также планирую выложить датасет в открытый доступ после того, как закончу работу по его оформлению.
Спасибо всем, кто участвует в переводе и оценке качества переводов на
zedzek.com.
Отдельное спасибо:
– Джэрэз и Шебзухо Астемиру за помощь в организации волонтерской работы.
– сайту
amaltus.com. К сожалению, не знаю кто является автором этого сайта, но они проделали большую работу по сбору и оцифровке словарей, которые я использовал в своей работе.
– всем кто освещает эту работу в соцсетях.
Работа по сбору датасета продолжается)