Интервью Марка Цукерберга про Llama 3 Dwarkesh Patel’ю 18 апр 2024:
Llama 3
- Meta AI (бесплатный помощник) выкатываем на юзеров, под капотом llama 3, ее опенсорсим. И text LLM для playful контента, и генерация картинок в динамике по мере ввода prompt
- 3 версии: 8 млрд параметров, 70, а на 405 еще треним. Результат 85 в
MMLU тесте. Данные: 15 трлн токенов. Llama-3 на 8 млрд параметров так же крута как 2ая на 70 млрд, НЕ круче. И Llama-2 мы не тренили на coding questions, но людям в разных сферах вдруг оказалось важным
- Дальше цели: многоязычность, мультимодальность, бОльшее окно контекста
- В v.3 продолжили наращивать агентские функции, наш долгосрочный курс
GPU
- Откуда знали про заказ заранее
H100? Да не, мы работали над
Reels - чтобы суперизощренно их рекомендовать - не 1000 роликов, а учитывать сотни млн -> т.е. нужна иная инфраструктура, чтобы догнать TikTok
- В целом наш принцип: “что-то будет на горизонте, что мы пока еще не видим”. Ну т.е. “there's always another thing” когда управляешь компанией
Опенсорс
- Мы давно опенсорсим low level engineering systems - все, что не наши end products. Есть много путей open source. Apple и Google решают что нам можно build/зарелизить, а что нет (и мы устали с ними бодаться про разные фичи), а мы - нет. Кстати, теоретически, тренинг моделей может и коммодитизироваться (!)
- FB AI Research запустили 10 лет назад, без продуктовых целей. ChatGPT и image diffusion models повлияют на все аппы и как люди их юзают. Gen AI группа у нас уже про продуктизацию - делаем
meta.ai - люди могут с AI работать НЕ в фб/вотсапе
- Чатботы глупые, кто засолвит reasoning - все станет убого на этом фоне. Так мы занялись AGI
- Думаю, мы НЕ убираем людей, а добавляем им tools. Llama-10 сделает кодеров в >10x эффективнее. Из 3 млрд fb/insta/whatsapp users у нас 200 млн creators -> им нужен gen AI. Еще мы с женой давно пушим науку в Chan Zuckerberg Initiative - там тоже поможет
- Мультимодальность, над которой мир мало работает: понимание эмоций
- Для разных функций будут разные gen AI модели, e.g. для smart glasses
Энергопотребление как ограничитель, модели за $10 млрд
- Думаю стоит сделать инфру на $10-100 млрд и продолжать тренить, веря что модели продолжат учиться. Непонятно, когда исчезнет смысл вваливать $ в GPU
- Да, история учит что будут bottlenecks, но сейчас их будто быстрее решают. Но строить подводы от электростанций всюду regulated & slow. Сейчас датацентры на 50-100 МВт, на 300-500-1000 МВт нету, и их время пришло
- Таким моделям будут нужны, естественно, synthetic data
- Думаю, мы когда-то доберемся до своих чипов
Цезарь, взрыв intelligence, биооружие
- Людям всю историю казалось что они пуп Земли, что даже космос вращается вокруг них. А я думаю AI это low-level инновация, скорее как до компов и после компов, в космических масштабах 20 лет на распространение AI - да, это быстро
- Мы из опыта соцсетей отслеживаем 18 тем чтобы они в LLM не навредили людям. До биоружия далеко, LLM пока ближе к Google
- Опасность не в AGI, а что какие-то власти или люди могут сделать с просто мощным AI. Поэтому и верим в раздачу моделей через open source - для баланса
- Ляля про риски ОК, но на практике у нас больше риски: контента, misinformation. Но я верю в модерацию за счет AI, что нам удастся быть впереди, скажем, стран желающих влезть в выборы итп
- Мы будем опенсорсить модели на сотни млрд параметров, но с оглядкой на вещи, что я упоминаю выше
- Если ехать в прошлое, я бы во времена войны за независимость или Рим (но там же даже не было концепции мира, все время воевали)
Прочее
- Я не продал FB тк все равно бы строил компанию. Иррационально. A lot of the biggest bets that people make are often just based on conviction & values
- Люблю строить, а власть итп мне не интересны
- Детям проще со смелыми идеями -> важно правильно взрослеть, не терять это
- У стартапов есть супер фокус из-за ограничения ресурсов, и они в итоге достигают определенный уровень взаимодействия с миром. Google+, например, банально не имел CEO - был просто юнит Гугла и все