Краткость сестра таланта LLM Edition
Пока без особого контекста, работы про увеличение скорости инференса путём отбрасывания всякого ненужного из промпта. Два вообще разных захода, но идея как будто общая.
·
LazyLLM (Apple, Meta AI) — TL/DR без обучения, регистрации и смс, по сути метод ускорения инференса, просто выбираем самые важные токены из промпта и кешируем только их. Причём на каждый шаг генерации токены могут быть свои. Cокращаем TTFT, latency, в целом инференс быстрее до 2-3x, так ещё на некоторых задачках и повышаются метрики незначительно
🔗 https://arxiv.org/abs/2407.14057
·
LLMLingua-2 (Microsoft) — давайте сократим latency засчёт того, что в целом сожмём промпт. Учимся делать что-то типа экстрактивного саммари на потокенной классификации для промптов с помощью очень простой BERT-like модельки. Таким образом чистим исходные промпты перед подачей в LLM. Опять +- те же бусты в 2-2.5x и опять же на некоторых бенчах подрастают метрики у LLM на почищенных промптах
🔗 https://arxiv.org/abs/2403.12968
Картинка из второй работы
#Links #Speedup #LLM #Inference