Сверхзвуковые LLM
Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных
1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B
Сделал это стартап
Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.
Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например
Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?
Попробовать можно
тут.
@ai_newz