Интеренcый
видос про то, как чел натренил маленькую быструю 2B VLM, которая оказалась лучшей в своем классе.
Моделька - это Phi1.6B + SigLIP 400M vision encoder. Далее чел собрал синтетический датасет LNQA (Localized Narratives Question Answering) с вопросами-ответами по картинкам, 300к пар. И натренил на нем свою модель и выложил все в опен-сорс.
Полочилась довольно сильная шустрая модель. Далее чел поднял $4.5M и строит стартап
moondream.ai по тренировке мелких моделей для прода.
В общем правильные данные решают.
Github
Demo
Blogpost про синтетический QA датасет
Видео