#nlp #про_nlp #длиннопост #nlp_papers #agi_russia
🌸Обобщение навыков и знаний у языковых моделей: обзор🌸
Давно хотела с вами вместе прочитать большой обзор от авторов
GenBench —
State-of-the-art generalisation research in NLP: A taxonomy and review
Пусть это будет большим динамическим конспектом с ссылками на все крупнейшие работы.
Сегодня мы посмотрим на разные способы обобщения знаний, навыков и доменов у языковых моделей.
Часть 1. Интро про обобщение
Способность обобщать является одним из основных требований в ИИ вообще и в моделировании языка в частности. Тем не менее, что влечет за собой «хорошее обобщение» и как его следует оценивать, не совсем понятно, и не существует каких-либо стандартов оценки для обобщения. Авторы закладывают основу для решения обеих этих проблем — таксономию для характеристики и понимания исследований обобщения в ИИ.
Зачем вообще нужно обобщение, если всегда нужно решать конкретные прикладные задачи?
Мотиваций для обобщения, в общем-то, можно назвать две:
— лучшее качество на прикладных задачах, которые интересны и бизнесу, и ученым (обобщение уже не раз приносило такой эффект: те же трансформеры мы предобучаем на всем подряд)
— более человекообразное поведение: люди известны тем, что обобщают хорошо, и мы хотим от ИИ того же, и даже лучше.
Более 1200 статей за последние 5 лет так или иначе заьтрагивали вопрос обобщения. В классическом понимании, обобщение тестируется в рамках отношений
"обучающие данные — модель — тестовые данные", где тестовые данные всячески меняются.
Множество работ показывает
(да, научпоп клише чтобы не писать источники — в обзоре их более 20), что большие языковые модели
— сбиваются при рандомизации обучающих и тестовых данных;
— не могут обобщить свои навыки на похожих задачах, даже выбив высокие баллы на аналогичных тестах;
— часто опираются на простые эвристики из данных, вместо обобщения;
— воспроизводят стереотипы из данных;
— запоминают примеры вместо их обобщения;
— не могут выйти за пределы основного языка, задачи, жанра в обучающих данных.
Все это многообразие хорошо бы как-то обобщить и оценить. Как?
Авторы обзора провели метаанализ существующих исследований обобщающих способностей и вывели 6 направлений, по которым можно классифицировать все научные работы:
🌸 Обобщение на доменах: тренируем на новостях, тестируем на твиттере. Сюда же отнесем любые манипуляции с частично сгенерированными данными и их объемом (примеры:
Blodgett et al. 2016,
Gururangan et al., 2020,
Lazaridou et al., 2021)
🌸 Обобщение на языках мира: тренируем на английском, тестируем на суахили, и наоборот (многоязычное обучение —
Zhou et al., 2018,
Aharoni et al., 2019; кросс-язычное —
Pires et al., 2019;
Wu and Dredze, 2019)
🌸 Обобщение на задачах: тренируем языковую модель предсказывать следующий токен, а сами потом тестируем ее на машинном переводе, классификации сентимента или тематик текста (работ миллион:
Collobert and Weston, 2008, а также все популярные бенчмарки DecaNLP (
McCann et al., 2018), GLUE (
Wang et al., 2018), SuperGLUE (
Wang et al., 2019))
🌸 Обобщение композициональности: тренируем на одних условиях задачи, а тестируем на измененных условиях — например, меняем распределение классов, перекомбинируем элементы для дизайна задачи и т.д. (
Schmidhuber, 1990,
Chaabouni et al., 2021;
Linzen, 2020)
🌸 Обобщение на структуре: самый лингвистически мотивированный тип. Смотрим на распределение некоторых свойств языка в обучении, и намеренно меняем их в тесте. (работы:
Jumelet et al. 2021,
Weber et al. 2021;
Wei et al. 2021)
🌸 Обобщение робастности: тренируем на чем угодно, а потом смотрим, насколько модель хорошо себя чувствует на конкретных тестовых задачах, не выучила ли простые эвристики на данных, насколько шумный результат. (работы:
Gururangan et al., 2018;
McCoy et al., 2019;
Talman and Chatzikyriakidis, 2019)
В следующих постах посмотрим подробно на все, что просиходит в каждом из направлений!
🟣Статья
🟣Воркшоп (EMNLP 2023, 6 декабря в Сингапуре)