На прошлой неделе мы зарелизили мою последнюю статью на PhD -
CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).
TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти
конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.
Нас даже успели
потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning.
Тут, тут и
тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация:
раз, два, три.
https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514