Groq — новый чип, который делает LLM в десятки раз быстрее ⚡️
🗣 На выходных в соцсетях завирусилось короткое
видео работы
Groq (не путать с
Grok) — чипа от одноименного стартапа, который позволяет языковым моделям за секунду давать ответы на запросы пользователя.
Сами разработчики называют Groq аббревиатурой LPU или Language Processing Unit.
⚙️ Упрощенная, по сравнению с GPU, архитектура чипа специально заточена под работу языковых моделей и позволяет, как утверждается, ускорить обработку информации в десятки раз в зависимости от модели.
💪 Если Groq способен обрабатывать около 500 токенов информации в секунду, то для GPT-3.5 или Gemini Pro этот показатель составляет около 30–50 токенов. Скорость чипа подтверждают и сторонние тесты. Скорость ответа крайне важный фактор при внедрении LLM, когда речь идет, например, о голосовых помощниках.
📺 В демо, которое
показали аж на канале CNN, с усиленным Groq чат-ботом пообщались глава Groq Джонатан Росс и ведущая канала. ИИ с минимальной задержкой и развернуто отвечал на вопросы ведущей — даже когда она перебивала его во время ответа.
Серьезное ограничение Groq на данный момент — чип способен запускать LLM, но не подходит для их обучения. Для него все равно понадобятся старые добрые GPU.