Почти 100 лет назад Вольфганг Кёлер провёл свой
известный эксперимент на звукосимволизм. Людям показывали две картинки (в верхнем ряду), и предлагали выбрать, которая из них "балуба", а какая "такете". Подавляющее большинство людей выбирало округлую балубу и угловатую такете.
С тех пор эксперимент повторяли с людьми, говорящими на разных языках, с двухлетними детьми и так далее. Пробовали также менять слова на буба/кики. Во всех случах эффект сохранялся.
Так как в этом году большую моду получили мультимодальные модели (
о которых я тут периодически пишу), товарищ
Nearcyan из Остина решил посмотреть, что про такие слова думает модель CLIP. Во втором ряду примеры сгенерированных изображений для "кики" и "бубы", в третьем — для формы "малумы" и "такете".
Больше подробностей, картинок и других слов — в
оригинальном блогопосте.