Почему ChatGPT постоянно использует слово «delve»?
Всё началось с кеков: Пол Грэм твитнул что-то вроде «видишь бездушное письмо @ замечаешь, что в нём есть слово delve»
Илон Маск подтвердил.
Джереми Нгуен просканировал пабмед, и обнаружил, что упоминаемость слова delve в медицинских статьях выросла в десять раз в 2023 года (да, они все скорее всего написаны чатом джипити, это проблема завтрашних нас).
Но почему именно delve?
Всему виной дообучение на асессорах на RL-этапе обучения моделей. Это один из самых дорогих этапов обучения огромной лингвистической модели: она уже бесконечно умна, но выдаёт чудовищные тексты. Чтобы этого не происходило, модель файнтюнят на большом массиве текстов, написанных реальными людьми, чтобы она понимала, на что именно по структуре и стилю должны быть похожи её ответы. Эти тексты кто-то должен написать, а авторам — нужно заплатить.
По удивительному стечению обстоятельств в мире довольно много бывших колоний, где у людей родной язык английский, а платить им можно ничтожно мало.
Язык, однако, штука очень подвижная, и со временем паттерны его использования в разных странах меняются. И вот в Нигерии (и некоторых других африканских странах) слово delve стало гораздо более распространено в деловом английском, чем в UK или Штатах. По всей видимости, именно там OpenAI (или их подрядчики) нанимают асессоров для написания хороших текстов.
Мыслей сразу несколько.
Во-первых, колониализм бывшим не бывает. Мало того, что на сами африканские акценты часто смотрят свысока, теперь для Глобального Севера африканский вокабуляр звучит так, словно с тобой разговаривает бот на ChatGPT. Киберунижение.
Во-вторых, у нас более высокий шанс получить более качественные языковые модели на тех языках, где можно найти «дешёвых» носителей. Добрая половина Африки говорит на французском по тем же колониальным причинам — может, поэтому главная опенсорсная модель базируется во Франции?
В-третих, любопытно взглянуть в этом контексте на русскоязычные модели. Как Алиса продолжит «ябеда-корябеда», вряд ли московским барабаном или питерской шоколадиной? Мечтает ли Гигачад о вехотке?
=====
The Guardian:
“How cheap, outsourced labour in Africa is shaping AI English”
=====
Это новый канал Лёши Шипулина. Я 10 лет занимаюсь UX, взаимодействием людей с компьютером. С приходом LLM это взаимодействие стремительно меняется, в академии на смену HCI приходит термин HAI — Human-Agent Interactions.
О том, как развитие AI меняет взаимодействие людей с гаджетами, и о том, как это влияет на UX-исследования, которые проводят в больших IT-компаниях, я и буду писать.