🤖 ИИ-модели обучали на сценариях «Симпсонов» и «Во все тяжкие»
Журналисты The Atlantic получили в распоряжение базу данных, которую такие компании, как Apple, Anthropic, Nvidia, и многие другие использовали для обучения своих языковых моделей. Более детальный анализ показал, что в базе собрали 139 000 сценариев фильмов и сериалов:
• 346 скриптов Райана Мёрфи («Американская история ужасов»);
• 616 эпизодов «Симпсонов»;
• 45 эпизодов «Твин Пикс»;
• все эпизоды «Во все тяжкие», «Прослушки» и «Клана Сопрано»;
• все фильмы, номинированные на главный «Оскар» с 1950 по 2016 годы;
• и ещё тысячи скриптов более мелких проектов.
Авторы статьи
предполагают, что сценарии в базе данных собирали из открытых источников — например, сайтов с субтитрами из DVD. Это значит, что сценаристам не платили за их использование в ИИ-моделях.