Нейросети и данные: почему локальный контекст имеет значение?
Как известно, нейросети нужно обучать на огромных массивах разнообразных данных — от текстов и изображений до видео и аудио. Развитие у моделей способности обрабатывать и интегрировать контент из различных источников приближает нас к “человеческому” способу обработки данных, что дает множество дополнительных сценариев использования ИИ. Но одна из ключевых задач — чтобы нейросеть понимала локальный контекст и работала на языке пользователя.
Однако у русскоязычных разработчиков есть сложность, на которую
обратили внимание в свежей статье в «Коммерсанте»: всего 4% контента в интернете создано на русском языке, тогда около половины всех данных — англоязычные. Это ставит отечественные проекты в неравные условия по сравнению с международными компаниями, у которых в разы больше данных для обучения.
Создание сильного искусственного интеллекта — одна из национальных целей,
отмеченных на высшем уровне. Чтобы конкурировать с глобальными игроками, необходимо давать разработчикам доступ к качественным русскоязычным материалам, а также заниматься переводом и оцифровкой иностранных данных. Без этих шагов пользователи могут в итоге отдать предпочтение зарубежным моделям, оставляя российские технологии за бортом.