Не для разработчиков
площади, а для читателей канала поясню.
Существует 2 класса задач распознавания:
1. Захват цели и удержание её. Это простая задача, потому что система захватывает не цель, а некий пиксельный паттерн на картинке, который ей показал оператор (типично - центр кадра). И далее её задача искать этот паттерн на последующих кадрах и вычислять, насколько паттерн сместился.
Такого уровня системы делались уже в 80х на очень малопроизводительном железе. Так работает наведение ракеты 305. Так же устроены все мне известные системы донаведения дронов.
2. Распознавание цели и выбор цели.Тут уже система должна хранить, в том или ином виде, образ цели (например, танка), причём, во всех раскрасках, во всех погодных условиях и во всех положениях. И тогда она сможет, анализируя каждый кадр, найти на нём танк и навестись.
Нюанс в том, что обучать нейросеть или просто AB модель надо долго и на огромном количестве материала. Вычислительные ресурсы нужны несравненно бОльшие, чем для первого варианта. И никто не знает что будет, если танк раскрасить в зебру.
При этом всём, мы понимаем, что наша плата улетает в один конец и, поэтому, должна быть дешёвая.
И если первую задачу можно решить на относительно ширпотребных комплектующих, то для второй я пока не вижу "летающих" решений даже у лидеров кремниевого рынка.
Не проблема запустить распознавалку на столе в игровом ПК, но на ФПВ дрон его не затащить...