🤩DeepSeek 쇼크
1.
메모리 사용량 및 계산 비용을 앞도적으로 줄인 Gen AI의 등장한 것임.
- 24.05.17 DeepSeek Ver.2 등장
- 24.12.26 DeepSeek Ver.3 557만 달러의 개발비용으로 6710억 개의 매개변수를 가진 대규모 언어 모델 개발
- 25.01.20 DeepSeek R1 추론 모델 Open AI o1 성능 비슷, API 비용이 o1의 5% / 메타 LLaMA의 4%에 불과.
2. 회사는 미국의 고성능 칩 규제 속 H800 칩 2,000개로 개발했다고 주장하지만, Scale AI CEO인 알렉산더 왕은 "
H100 칩 5만 개를 사용했을 가능성"을 주장하며 데이터의 신뢰성 문제를 제기했음.
3. 그런데, 샘 알트만이 가격 경쟁 심화에 대응하기 위해
o3-mini 모델을 무료로 개방하며 Deekseek의 도전에 응수했으며, 이는 AI 모델 간 가경 경쟁 가속화를 보여주는 사례임.
4. 이러한 DeepSeek사태를 통해 현재 투입된 빅테크의 Capex 비용에 대한 의구심이 제기되기 시작했음. 특히 MSFT, AMZN, GOOGL 등은 이미 AI DataCenter 및 R&D에 수백억 달러를 투자해왔으나, 딥시크는 저비용 고효율의 Gen AI를 구축한 것임.
5. 더군다나 트럼프 집권과 동시에 발표된
스타게이트는 향후 4년 간 5,000억 달러 투자 계획을 발표했기에 더욱 민감하게 반응하고 있음.
6. DeepSeek는
MoE, FP8, DualPipe, MTP 등의 기술로 이를 달성
- MoE(Mixture-of-Experts): 6710억 개의 매개변수 중 필요한 37억 개만 선택적으로 활성화하여 효율성 극대화
- FP8 혼합 정밀도 학습: 8비트 부동소수점 연산을 통해 메모리 사용량을 50% 줄이고 학습 속도를 향상
- DualPIpe 알고리즘: 데이터 파이프라인을 최적화하여 학습시간을 단축
- MTP(다중 토큰 예측): 한 번에 여러 토큰을 생성하여 추론 속도를 3배 이상 향상
7. 물론 여전히 DeepSeek에 대한 여러 문제가 제기되고 있음
- 언어 전환 문제: DeepSeek R1과 R1 Zero 모델은 의도치 않게 다른 언어로 전환
- 멀티모달 지원 부족: 이미지나 비디오 입력 처리 불가
- 수익성 지속 가능성: 초저비용 API가 장기적 수익을 저하시킬 가능성
8. 그러나 이러한 문제들은 향후 해소될 가능성이 크기에 빅테크 업체들 뿐만 아니라, 연결된 인프라 밸류체인 입장에서도 부정적인 뉴스는 맞는 듯 함.
9. 아직 정확하게 확인할 수 없지만, 결론적으로 이러한 Gen AI를 개발하는 기업들보다는 이를 활용하는 산업(헬스케어, 금융, 제조업, 정부 등)과 기업에 집중해야한다고 판단.
[작성] 👔도PB의 생존투자