Что за зверь DeepSeek и почему Nvidia больно?Твитерянин Морган Браун
Вице президент по развитию продуктов instagram, dropbox, shopify Инновации DeepSeek в области ИИ поражают людей (и, возможно, угрожают рыночной капитализации Nvidia в $2t)
1/ Сначала немного контекста: Сейчас обучение топовых моделей ИИ НЕВЕРОЯТНО дорогое.
OpenAI, Anthropic и другие тратят $100 млн+ только на вычислительные ресурсы. Им нужны огромные дата-центры с тысячами GPU стоимостью $40K каждый. Это как если бы для работы завода требовалась целая электростанция.
2/ DeepSeek появились и сказали: "А что, если мы сделаем это за $5m?"
И они не просто говорили — они действительно это сделали. Их модели соответствуют или превосходят GPT-4 и Claude во многих задачах.
Мир ИИ роняет слезки в тирамису
3/ Как? Они переосмыслили всё с нуля. Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. DeepSeek сказали: "А что, если мы будем использовать только 8? Этого достаточно!"
Бум — на 75% меньше памяти.
4/ Затем их система "мульти-токенов".
Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.
5/ Но самое крутое в их подходе:
Они создали "экспертную систему".
Вместо одного огромного ИИ, который пытается знать всё (как если бы один человек был врачом, юристом И инженером), у них есть специализированные эксперты, которые активируются только когда это нужно.
6/ Традиционные модели?
Все 1,8 триллиона параметров активны ВСЕГДА.
DeepSeek? 671 млрд параметров в общей сложности, но только 37 млрд активны одновременно.
Это как иметь огромную команду, но вызывать только тех экспертов, которые действительно нужны для каждой задачи.
7/ Результаты ошеломляющие:
- Стоимость обучения: $100 млн → $5m
- Необходимые GPU: 100 000 → 2 000
- Стоимость API: на 95% дешевле
- Может работать на игровых GPU вместо серверного оборудования
8/ "Но подождите," — скажете вы, — "должен быть подвох!" Вот что самое интересное — всё это открытый исходный код.
Любой может проверить их работу. Код публичный. Технические документы объясняют всё. Это не магия, просто невероятно умная инженерия.
9/ Почему это важно? Потому что это ломает модель "только крупные tech-компании могут играть в ИИ".
Теперь вам не нужен дата-центр за миллиард долларов. Несколько хороших GPU могут быть достаточны.
10/ Для Nvidia это страшно. Вся их бизнес-модель построена на продаже супердорогих GPU с маржой 90%. Если вдруг все смогут делать ИИ на обычных игровых GPU...
11/ DeepSeek сделали это с командой менее 200 человек. В то время как в Meta есть команды, где только компенсации сотрудников превышают весь бюджет обучения DeepSeek... и их модели не так хороши.
12/ Это классическая история прорыва: Лидеры рынка оптимизируют существующие процессы, а disruptors переосмысливают фундаментальный подход.
DeepSeek спросили: "А что, если мы просто сделаем это умнее, вместо того чтобы использовать больше железа?"
13/ Последствия:
- Разработка ИИ становится более доступной
- Конкуренция резко возрастает
- железо крупных tech-компаний кажется не нужным
- Требования к оборудованию (и затраты) резко снижаются
14/ Конечно, гиганты вроде OpenAI и Anthropic не будут стоять на месте.
Они, вероятно, уже внедряют эти инновации. Но джинн выпущен из бутылки — возврата к подходу "просто брось больше GPU" уже не будет.
15/ Это похоже на один из тех моментов, о которых мы будем вспоминать как о переломных. Как когда ПК сделали мейнфреймы менее актуальными, или когда облачные вычисления изменили всё.
ИИ скоро станет намного доступнее и намного дешевле. Вопрос не в том, будет ли это прорывом для текущих игроков, а в том, как быстро это произойдет.
https://x.com/morganb/status/1883686162709295541