View in Telegram
Краткость сестра таланта LLM Edition Пока без особого контекста, работы про увеличение скорости инференса путём отбрасывания всякого ненужного из промпта. Два вообще разных захода, но идея как будто общая. · LazyLLM (Apple, Meta AI) — TL/DR без обучения, регистрации и смс, по сути метод ускорения инференса, просто выбираем самые важные токены из промпта и кешируем только их. Причём на каждый шаг генерации токены могут быть свои. Cокращаем TTFT, latency, в целом инференс быстрее до 2-3x, так ещё на некоторых задачках и повышаются метрики незначительно 🔗 https://arxiv.org/abs/2407.14057 · LLMLingua-2 (Microsoft) — давайте сократим latency засчёт того, что в целом сожмём промпт. Учимся делать что-то типа экстрактивного саммари на потокенной классификации для промптов с помощью очень простой BERT-like модельки. Таким образом чистим исходные промпты перед подачей в LLM. Опять +- те же бусты в 2-2.5x и опять же на некоторых бенчах подрастают метрики у LLM на почищенных промптах 🔗 https://arxiv.org/abs/2403.12968 Картинка из второй работы #Links #Speedup #LLM #Inference
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily