Смотреть в Telegram
Краткость сестра таланта LLM Edition Пока без особого контекста, работы про увеличение скорости инференса путём отбрасывания всякого ненужного из промпта. Два вообще разных захода, но идея как будто общая. · LazyLLM (Apple, Meta AI) — TL/DR без обучения, регистрации и смс, по сути метод ускорения инференса, просто выбираем самые важные токены из промпта и кешируем только их. Причём на каждый шаг генерации токены могут быть свои. Cокращаем TTFT, latency, в целом инференс быстрее до 2-3x, так ещё на некоторых задачках и повышаются метрики незначительно 🔗 https://arxiv.org/abs/2407.14057 · LLMLingua-2 (Microsoft) — давайте сократим latency засчёт того, что в целом сожмём промпт. Учимся делать что-то типа экстрактивного саммари на потокенной классификации для промптов с помощью очень простой BERT-like модельки. Таким образом чистим исходные промпты перед подачей в LLM. Опять +- те же бусты в 2-2.5x и опять же на некоторых бенчах подрастают метрики у LLM на почищенных промптах 🔗 https://arxiv.org/abs/2403.12968 Картинка из второй работы #Links #Speedup #LLM #Inference
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Бот для знакомств