Продолжаю свои тесты и вот удалось развернуть
Qwen2-VL-72B-Instruct-FP8-dynamic на 4х4090 (на
immers за 260к деревянных в месяц) с 16к токенами контекста и с не плохой скоростью
Cейчас взял этот
бенчмарк cmarkea/doc-vqa
и упаковал тест в
streamlit что бы визуально видеть как отрабатывает модель
1) Проблема я не понял как побороть требование следовать точному ответу из заготовленных правильных (возможно не так готовлю)
2) Чукча решил собрать на базе Structured Output модератора на базе Qwen 2.5 7b который будет решать True или False то в итоге что бы не писать кучу обработок
Как соберу все в едино выдам результаты в комментарии