Краткость сестра таланта LLM Edition / алиса олеговна / Telegram Center

Краткость сестра таланта LLM Edition Пока без особого контекста, работы про увеличение скорости инференса путём отбрасывания всякого ненужного из промпта. Два вообще разных захода, но идея как будто общая. · LazyLLM (Apple, Meta AI) — TL/DR без обучения, регистрации и смс, по сути метод ускорения инференса, просто выбираем самые важные токены из промпта и кешируем только их. Причём на каждый шаг генерации токены могут быть свои. Cокращаем TTFT, latency, в целом инференс быстрее до 2-3x, так ещё на некоторых задачках и повышаются метрики незначительно 🔗 https://arxiv.org/abs/2407.14057 · LLMLingua-2 (Microsoft) — давайте сократим latency засчёт того, что в целом сожмём промпт. Учимся делать что-то типа экстрактивного саммари на потокенной классификации для промптов с помощью очень простой BERT-like модельки. Таким образом чистим исходные промпты перед подачей в LLM. Опять +- те же бусты в 2-2.5x и опять же на некоторых бенчах подрастают метрики у LLM на почищенных промптах 🔗 https://arxiv.org/abs/2403.12968 Картинка из второй работы #Links #Speedup #LLM #Inference

https://t.center/alisaolega/267

568 viewsedited Nov 3 at 11:40

Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global

Find friends or serious relationships easily