#nlp #про_nlp #длиннопост #nlp_papers #agi_russia... / Kali Novskaya / Telegram Center

#nlp #про_nlp #длиннопост #nlp_papers #agi_russia 🌸Обобщение навыков и знаний у языковых моделей: обзор🌸 Давно хотела с вами вместе прочитать большой обзор от авторов GenBench — State-of-the-art generalisation research in NLP: A taxonomy and review Пусть это будет большим динамическим конспектом с ссылками на все крупнейшие работы. Сегодня мы посмотрим на разные способы обобщения знаний, навыков и доменов у языковых моделей. Часть 1. Интро про обобщение Способность обобщать является одним из основных требований в ИИ вообще и в моделировании языка в частности. Тем не менее, что влечет за собой «хорошее обобщение» и как его следует оценивать, не совсем понятно, и не существует каких-либо стандартов оценки для обобщения. Авторы закладывают основу для решения обеих этих проблем — таксономию для характеристики и понимания исследований обобщения в ИИ. Зачем вообще нужно обобщение, если всегда нужно решать конкретные прикладные задачи? Мотиваций для обобщения, в общем-то, можно назвать две: — лучшее качество на прикладных задачах, которые интересны и бизнесу, и ученым (обобщение уже не раз приносило такой эффект: те же трансформеры мы предобучаем на всем подряд) — более человекообразное поведение: люди известны тем, что обобщают хорошо, и мы хотим от ИИ того же, и даже лучше. Более 1200 статей за последние 5 лет так или иначе заьтрагивали вопрос обобщения. В классическом понимании, обобщение тестируется в рамках отношений "обучающие данные — модель — тестовые данные", где тестовые данные всячески меняются. Множество работ показывает (да, научпоп клише чтобы не писать источники — в обзоре их более 20), что большие языковые модели — сбиваются при рандомизации обучающих и тестовых данных; — не могут обобщить свои навыки на похожих задачах, даже выбив высокие баллы на аналогичных тестах; — часто опираются на простые эвристики из данных, вместо обобщения; — воспроизводят стереотипы из данных; — запоминают примеры вместо их обобщения; — не могут выйти за пределы основного языка, задачи, жанра в обучающих данных. Все это многообразие хорошо бы как-то обобщить и оценить. Как? Авторы обзора провели метаанализ существующих исследований обобщающих способностей и вывели 6 направлений, по которым можно классифицировать все научные работы: 🌸 Обобщение на доменах: тренируем на новостях, тестируем на твиттере. Сюда же отнесем любые манипуляции с частично сгенерированными данными и их объемом (примеры: Blodgett et al. 2016, Gururangan et al., 2020, Lazaridou et al., 2021) 🌸 Обобщение на языках мира: тренируем на английском, тестируем на суахили, и наоборот (многоязычное обучение — Zhou et al., 2018, Aharoni et al., 2019; кросс-язычное — Pires et al., 2019; Wu and Dredze, 2019) 🌸 Обобщение на задачах: тренируем языковую модель предсказывать следующий токен, а сами потом тестируем ее на машинном переводе, классификации сентимента или тематик текста (работ миллион: Collobert and Weston, 2008, а также все популярные бенчмарки DecaNLP (McCann et al., 2018), GLUE (Wang et al., 2018), SuperGLUE (Wang et al., 2019)) 🌸 Обобщение композициональности: тренируем на одних условиях задачи, а тестируем на измененных условиях — например, меняем распределение классов, перекомбинируем элементы для дизайна задачи и т.д. (Schmidhuber, 1990, Chaabouni et al., 2021; Linzen, 2020) 🌸 Обобщение на структуре: самый лингвистически мотивированный тип. Смотрим на распределение некоторых свойств языка в обучении, и намеренно меняем их в тесте. (работы: Jumelet et al. 2021, Weber et al. 2021; Wei et al. 2021) 🌸 Обобщение робастности: тренируем на чем угодно, а потом смотрим, насколько модель хорошо себя чувствует на конкретных тестовых задачах, не выучила ли простые эвристики на данных, насколько шумный результат. (работы: Gururangan et al., 2018; McCoy et al., 2019; Talman and Chatzikyriakidis, 2019) В следующих постах посмотрим подробно на все, что просиходит в каждом из направлений! 🟣Статья

🟣

Воркшоп (EMNLP 2023, 6 декабря в Сингапуре)

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

#nlp #про_nlp #agi_russia
🌸 Генерализация ИИ через языковые модели🦾 🌸

Прекрасная новость начала недели: стартовал прием новых задач и тестов для больших языковых моделей: открытая инициатива и воркшоп GenBench!

Инициатива ставит целью коллаборативное…

https://t.center/rybolos_channel/757

4.8K viewsTatiana Shavrina, Jul 17, 2023 at 12:16

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily