3 декабря в 18:30 у нас выступит
Любовь Тупикина (CRI/Bell labs, Франция) с докладом:
“Some techniques on processing textual data with lower dimensional embeddings”
Аннотация: Мы поговорим о математических задачах, которые возникают при обработке больших данных. В частности, о задаче вложения пространств высокой размерности в пространства низкой размерности. Если действовать стандартными методами, при вложении данных часто можно столкнуться с серьезными проблемами, например, глобальная структура таких данных не представится точно, и что еще важнее — метрики низкоразмерного пространства выбираются «по умолчанию». Нас будет интересовать вопрос, какую модель вложения использовать в этих ситуациях, и вообще, когда этот вопрос для данных можно решить. Мы исследуем т. н. латентное пространство (latent space) методов вложения, используя комбинацию двух подходов: вложения гиперграфов и техник уменьшения размерности. В качестве одного из приложений нашего подхода мы рассмотрим данные текстов статей на
arXiv.org, чтобы понять, как ландшафт знаний можно охарактеризовать с помощью представления данных высшей арности (гиперграфов). Мы также обсудим открытые проблемы (no solutions to be promised, yet some questions to discuss:), такие как вопрос о том, как такое представление данных в виде гиперграфа может быть связано с объяснимостью архитектуры моделей встраивания типа BERT etc..
Ссылка на встречу:
https://us06web.zoom.us/j/88299182516?pwd=OzD6nYhPwKeuAym4b4eRblKBMtFSbZ.1