Stanford AI Index Report 2024 на, кгрхм, 500 стр, шикарный... / Victor Osyka, техноцивилизация / Telegram Center

Stanford AI Index Report 2024 на, кгрхм, 500 стр, шикарный макро апдейт со всех ракурсов: Глава 1: R&D - Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет - Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200 - Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит - До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022) - Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К) - Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии - В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай Гл 2: Benchmarks - Темпы прироста бенчмарков LLM в 2023 рухнули =( - Закрытые LLM на 24% лучше опенсорса - Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59% - MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80% - Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач) - Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп - Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29% - ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4 - Генерация аудио - прорывной год. А речь уже давно распознают - Deep fakes выявляют (Celeb-DF) макс. в 80% случаев - Модели продолжают тестить самоулучшение с RL и игр сами с собой - Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix) Гл 3: Этика/responsible AI - Нет стандартов по responsible AI - Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =) - Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась) - Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей - Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей - Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы - Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal - AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat // Часть 2 тут

https://t.center/Victor_Osyka/511

6.1K viewsedited May 14 at 08:34

Love Center

Find friends or serious relationships easily