Мерседес
расказали, как они реализовали своего ассистента для понимания голосовых команд на SLM. Взяли Phi-3 на 3.8B параметров, запрунили до 1.8B, зафайнтюнили, квантизировали в 4 bit и задеплоили через llama.cpp.
В результате, моделька запускается на CPU, занимает < 2Gb RAM, генерит 11tok/sec, умеет в понимание естественного языка и function calling.
Ну, то есть ей можно сказать "че-то душно стало, сделай что-нибудь" - и она пошлет команду на открытие левой форточки.
#llm #ai #ml