Почти половина новостных изданий запретили ИИ-компаниям сканировать свои сайты, 2023 (
Ben Welsh)
По состоянию на 28 октября 2023 года, 565 из 1150 (49,1%) новостных изданий, проверенных архивом
homepages.news, запретили OpenAI, Google AI или некоммерческой организации Common Crawl парсить собственные сайты
Эти три организации систематически собирают данные с сайтов, чтобы использовать их для обучения генеративных чат-ботов ChatGPT от OpenAI и Bard от Google. Однако, издатели могут настроить доступ к своим сайтам, прописав инструкции в robots.txt, тем самым исключая их из списка для такого сканирования
Бен Уэлш составил и регулярно обновляет список изданий на
Palewire — там можно ознакомиться с таблицей сайтов, которые запретили доступ для каждой из трёх компаний
Больше данных из мира ИИ:
—
Число изображений, сгенерированных 5 популярными нейросетями, по состоянию на август 2023
—
Как менялось число параметров у больших языковых моделей, 2018–2023
—
Как менялись возможности систем ИИ по распознаванию речи и изображений относительно способностей человека, 1998–2020
—
Вычислительные ресурсы, затраченные на обучение систем искусственного интеллекта, 1950–2022
—
Как менялись объёмы мировых инвестиций в индустрию ИИ и стоимость тренировки ИИ, 2013–2021