Полтора года назад я упоминала в паблике статью... / Техножрица 👩‍💻👩‍🏫👩‍🔧 / Telegram Center

Полтора года назад я упоминала в паблике статью "Representation Engineering: A Top-Down Approach to AI Transparency" ( пост: https://t.center/tech_priestess/974 , статья: https://arxiv.org/abs/2310.01405 ). Напомню основной прикол: авторы этой статьи находили такие направления в пространстве эмбеддингов языковой модели, которые соответствуют определенным концептам / аспектам поведения этой модели. Например, нашли направление, соответствующее концепции "Truthfulness": если сдвинуть эмбеддинг последнего слоя вдоль этого направления в положительную сторону (т.е. прибавить к нему вектор "Truthfulness" с положительным коэффициентом), то модель станет наукоботом - начнет отрицать псевдонауку, высказывать сентенции, соответствующие общепринятым представлениям о критическом мышлении и даже более правильно отвечать на некоторые фактические вопросы. И наоборот, если сдвинуться в сторону отрицательного "Truthfulness", то модель станет шизом - начнет верить в теории заговоров, лечение методами доктора Попова и инопланетян в зоне 51. Проверялась наукоботность / шизовость модели на датасете TruthfulQA ( https://arxiv.org/abs/2109.07958 ), который, может быть, немного спорен, но основную суть улавливает. Находили и многие другие прикольные направления в пространстве эмбеддингов, которые делают модель более честной / нечестной, моралфагом / психопатом, меняют ее настроение на хорошее / плохое и т.п. Так вот. Я время от времени вспоминала эту статью в связи с разными обсуждениями вопросов интерпретируемости и alignment, а недавно мне на глаза попалась ещё пара препринтов, продолжающих ту же тему и более свежих. Так что я решила сегодня написать о них пару слов. #объяснения_статей

Техножрица 👩‍💻👩‍🏫👩‍🔧

Интересный рассказ с картинками про то, как приноровились менять поведение предтренированной модели, воздействуя непосредственно на её эмбеддинги:

https://t.center/seeallochnaya/682
https://t.center/seeallochnaya/685
https://t.me/seeallochnaya/687
(Три последовательных…

https://t.center/tech_priestess/1966

4.0K viewsedited Jan 10 at 18:30

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily