View in Telegram
Новости по собираемому мной датасету параллельных текстов на черкесском <-> русском языках. На сегодняшний день собрано 345 тысяч строк параллельных текстов высокого качества. Из них 235 тысяч на кабардинском диалекте, и 110 тысяч на западном ("темиргоевском") диалекте. Датасет состоит из 1.7 миллионов русских слов, 933 тысяч слов на кабардинском, и 544 тысяч слов на западном диалекте. Практически весь текст был вычитан и проверен на качество перевода. Данные были собраны из различных книг, словарей, интернета, научных работ, и с помощью волонтеров на zedzek.com. В ближайшее время этот датасет будет использован для обучения улучшенной модели переводчика на сайте zedzek, а также будет передан Google и другим крупным компаниям для использования в обучении их переводчиков. Также планирую выложить датасет в открытый доступ после того, как закончу работу по его оформлению. Спасибо всем, кто участвует в переводе и оценке качества переводов на zedzek.com. Отдельное спасибо: – Джэрэз и Шебзухо Астемиру за помощь в организации волонтерской работы. – сайту amaltus.com. К сожалению, не знаю кто является автором этого сайта, но они проделали большую работу по сбору и оцифровке словарей, которые я использовал в своей работе. – всем кто освещает эту работу в соцсетях. Работа по сбору датасета продолжается)
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily