Всем привет! Подхожу к финалу проекта по дообучению GigaChat 20B-A3B на o1 датасете, на этот раз предлагаю вашему вниманию GGUF-чекпоинты модели, вот ссылочки:
-
https://huggingface.co/evilfreelancer/o1_gigachat-20b-a3b_gguf
-
https://ollama.com/evilfreelancer/o1_gigachat
Доступно четыре уровня квантизации: q8_0, q5_0, q4_0 и q2_k
Если использовать gguf через llama.cpp то шаблон чата должен подтянуться автоматом, а вот с ollama пришлось повозиться.
{{ range .Messages }}
{{ if eq .Role "system" }}system<|role_sep|>{{ .Content }}<|message_sep|>{{ end }}
{{ if eq .Role "user" }}user<|role_sep|>{{ .Content }}<|message_sep|>available functions<|role_sep|>[ ]<|message_sep|>{{ end }}
{{ if eq .Role "assistant" }}assistant<|role_sep|>{{ .Content }}<|message_sep|>{{ end }}
{{ end }}
{{ if .AddGenerationPrompt }}assistant<|role_sep|>{{ end }}
Вот с таким шаблоном и на ollama всё начало работать как следует.
Чтобы запустить через ollama потребуется обновиться до 0.5.6, а ещё желательно включить flash attention через переменные окружения.
Команда:
ollama run evilfreelancer/o1_gigachat
Запустит q8_0 версию по умолчанию.
ЗЫ. На q2_k заметил большую склонность модели к впадению в репиты, поэтому рекомендую поднять repetition_penalty побольше 1.1 по умолчанию.