Главное изменение: появилась возможность переводить предложения с Кабардино-Черкесского языка на Русский.
🏮Теперь бот автоматически определяет язык введенного предложения и переводит на целевой. Почему раньше это не было возможным? Проблема заключалась в отсутствии качественного параллельного корпуса, что не позволяло добиться хороших результатов при переводе на русский язык.
🏮Новая версия нейросети — дообученная на 120 тыс. параллельных предложениймодель nllb-200. По итогам тестирования метрики BLEU и CHRF++ показывают 26,5 и 48,6 соответственно. Это лучший результат, которого удалось достигнуть после множества попыток обучения. За этот месяц я попробовал десятки подходов к обучению и наконец могу заявить, что нашел оптимальный. Теперь остается только собирать и дальше параллельный корпус.
В настоящий момент ведется работа над глобальным обновлением — ожидайте в ближайшее время...
⚡️Первые шаги по дообучению нейросети для генерации изображений.
Существующие модели не умеют генерировать национальные костюмы и атрибуты, они изображают костюмы дальневосточных и северных народов.
☄️ Обучение проводилось на базе модели FLUX, которая сейчас активно набирает популярность и показывает отличные результаты. Данные для обучения составлены из 110 выборочных изображений открытого датасета и дополнительных фотографий из интернета, изображающих национальные костюмы и атрибуты с текстовым описанием каждого из них.
☄️ Для обучения и использования моделей по генерации изображений требуется большое количество вычислительных ресурсов. Релиз модели в открытый доступ пока невозможен, так как необходимо установить цензуру и ограничения по содержанию запросов, которые исходят из этических норм народов Кавказа.
⚜️ Представляю Вашему вниманию бота BzeGame для игры "Элиас (Крокодил)" на Кабардино-Черкесском языке!
Чтобы начать игру, добавьте бота в группу и предоставьте ему права администратора. Игрок, который запускает игру, становится ведущим и объясняет слова. В видеоролике подробно показано, как проходит игра.
Эта игра — отличный способ изучать новые слова и практиковать родной язык.
🏮 В будущих обновлениях планируется добавление новых языков!
⚜️ Обучил модель Zehedz на архитектуре BERT для классификации текстов на три языка: русский, черкесский и карачаево-балкарский. Модель предсказывает язык с точностью 99,8%(от 4 слов в предложении), что является отличным результатом. Среднее время предсказания составляет 0,008 секунд.
Для обучения использовалась база данных, состоящая из 36К предложений, по 12 тысяч на каждый язык.
🏮 Модель будет полезна для определения исходного языка в переводчиках, что позволяет автоматически выбирать целевой язык. Также модель хорошо подходит для задач, связанных с классификацией большого объёма перемешанных данных. Её размер составляет 47 МБ, что позволяет запускать модель почти мгновенно и не занимать оперативную память.
Пример кода для работы с моделью через API платформы Hugging Face:
from gradio_client import Client
client = Client("alimboff/zehedz")
result = client.predict( text="Добрый день!", api_name="/predict")
⚜️Презентовали проект по включению кабардино-черкесского языка в Яндекс.Переводчик в Министерстве просвещения и науки КБР перед министром по делам национальностей и общественным проектам КБР Курашиновым Анзором Владимировичем, заместителем министра просвещения и науки КБР Мисостовой Екатериной Николаевной, сотрудниками Кабардино-Балкарского филиалаРоссийской Академии Наук, сотрудниками кафедры кабардино-черкесского языка и литературы КБГУ, преподавателями родных языков с районов КБР.
🏮Поделились предысторией проекта и исторической важностью ее реализации. В современных реалиях недостаточен тот объем контента и использования традиционных инструментов на родном языке для полноценного владения и общения молодежью.
🏮Показали разработанную систему перевода и проверки предложений для составления параллельного корпуса данных из 100.000 строк для Яндекс.Переводчика. Система максимально упрощает работу специалистов и ускоряет процесс сбора и обработки необходимых данных.
Дообучаю нейросеть m2m100 для перевода на кабардино-черкесский язык. Эта модель, специализированная для перевода текстов с одного языка на другой, находится в открытом доступе и позволяет обучать ее новым языкам. В процессе дообучения я использую параллельный корпус кабардино-черкесского языка, который состоит из 60 тысяч пар предложений. Однако этого объема недостаточно для достижения высокого качества перевода.
Существующая «Адыгэ» версия m2m100 неплохо переводит с множества языков на кабардино-черкесский, но я сосредоточен на обучении модели для обратного перевода — с кабардино-черкесского на другие языки. Для создания действительно качественного переводчика нам потребуется значительно больше данных, собирать их мы будем в ходе реализации проекта.
После завершения сбора и создания качественного корпуса параллельных данных, можно будет дообучать новое поколение модели m2m100 — nllb-200. Я уже пробовал дообучать её на имеющемся корпусе, попробовать можно по ссылке — https://huggingface.co/spaces/alimboff/nllb-200-kbd
OpenAI выпустила новую версию своей языковой модели ChatGPT -- она получила название GPT-4o mini. По словам компании, это самая функциональная и экономически эффективная малая модель, доступная на сегодняшний день. Эта модель пришла на замену GPT-3.5, её уже можно попробовать на официальном сайте.(Не забудьте включить VPN.)
🏮Проверил модель на знание двух диалектов Черкесского и Карачаево-Балкарского языков. Результат нулевой, чего и стоило ожидать. Пока нейросетям от OpenAI ещё далеко по знанию языков по сравнению с моделями Google и Anthropic.
⚜️ Объявляем о начале работы над добавлением Кабардино-Черкесского и Карачаево-Балкарского языков в Яндекс.Переводчик. ⚜️
При поддержке Министерства по делам национальностей КБРКБРОО "Черкесский Ренессанс" приступает к реализации проекта по добавлению титульных языков Кабардино-Балкарской Республики в Яндекс.Переводчик. Для достижения этой цели нам необходимо собрать большую базу данных — корпус параллельных предложений на этих языках.
Руководителем программной части проекта буду я — Алим Мамхегов. На канале буду выкладывать процесс работы над этим и другими проектами, актуальные новости в мире информационных технологий и нейронных сетей. В ходе реализации проекта мы будем работать над большим спектром разных задач, об этом всём буду писать здесь.
Есть ещё одна цель, которую мы должны достичь, о ней распишу позже. А пока предлагаю ознакомиться с моими проектами:
Обновление стало возможным благодаря использованию модели PaLM 2, которая позволила более эффективно изучать родственные языки. Кроме того, Google активно сотрудничает с лингвистами и носителями языков, чтобы поддерживать разнообразие языковых вариантов и правописаний.
Это обновление является частью инициативы Google по поддержке 1000 наиболее распространённых языков в мире, и мы можем ожидать ещё больше обновлений в будущем.