View in Telegram
В соседнем канала про LLM задали вопрос как понять скорости генерации на разных бэкендах structured output(эта штука заставляет модель отвечать вам жесткой схемой json формата например) при локальном инференсе Так вот погуглил ничего вразумительного не нашел для своей спеки так что держите сделал сам 4090 OC T-lite(qwen) vllm и 4 типа тестирования xgrammar outlines lm-format-enforcer Без бэкенда форматирования
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily