View in Telegram
Всем привет! Подхожу к финалу проекта по дообучению GigaChat 20B-A3B на o1 датасете, на этот раз предлагаю вашему вниманию GGUF-чекпоинты модели, вот ссылочки: - https://huggingface.co/evilfreelancer/o1_gigachat-20b-a3b_gguf - https://ollama.com/evilfreelancer/o1_gigachat Доступно четыре уровня квантизации: q8_0, q5_0, q4_0 и q2_k Если использовать gguf через llama.cpp то шаблон чата должен подтянуться автоматом, а вот с ollama пришлось повозиться.
{{ range .Messages }}
{{ if eq .Role "system" }}system<|role_sep|>{{ .Content }}<|message_sep|>{{ end }}
{{ if eq .Role "user" }}user<|role_sep|>{{ .Content }}<|message_sep|>available functions<|role_sep|>[ ]<|message_sep|>{{ end }}
{{ if eq .Role "assistant" }}assistant<|role_sep|>{{ .Content }}<|message_sep|>{{ end }}
{{ end }}
{{ if .AddGenerationPrompt }}assistant<|role_sep|>{{ end }}
Вот с таким шаблоном и на ollama всё начало работать как следует. Чтобы запустить через ollama потребуется обновиться до 0.5.6, а ещё желательно включить flash attention через переменные окружения. Команда:
ollama run evilfreelancer/o1_gigachat
Запустит q8_0 версию по умолчанию. ЗЫ. На q2_k заметил большую склонность модели к впадению в репиты, поэтому рекомендую поднять repetition_penalty побольше 1.1 по умолчанию.
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Love Center - Dating, Friends & Matches, NY, LA, Dubai, Global
Find friends or serious relationships easily