Оказывается, у Twelve Labs, которые занимаются разработкой мультимодальных моделей с упором на видео, есть
YouTube канал с еженедельными разборами свежих статей
В каждом выпуске ребята разбирают 2-4 статьи про мультимодальные LLM, сегментацию, генеративные архитектуры, новые подходы к эвалу и так далее. В последний выпуск, например, вошли папиры про Test-Time адаптацию, HallusionBench, Eagle и новую вариацию аттеншена.
Забирайте себе