Поменял датасет на вот этот
Добавил проверку ответа еще в один шаг LLM модератором
1) Скрин результаты
2) Скрин процесс следил за ним сразу в 3 терминала =)
Прогнал на обеих моделях по 250 вопросов из доступных 10к
Поставлю на ночь все тогда!
Какие еще VL модельки проверить на DocVQA?