Преимущества моделей трансформаторов для обнаружения объектов в приложениях машинного зрения

В приложениях машинного зрения, таких как автономное вождение, интеллектуальное производство и наблюдение, точное обнаружение объектов имеет решающее значение. За прошедшие годы были разработаны различные модели искусственного интеллекта, в том числе YOLO, Faster R-CNN, Mask R-CNN, RetinaNet и другие, для обнаружения и интерпретации объектов на изображениях или видео. Однако модели-трансформеры оказались более эффективными решениями для обнаружения объектов.

Зрительная система человека может быстро идентифицировать объекты по их размеру, цвету и глубине, отфильтровывая при этом ненужные детали фона. Точно так же модель ИИ должна иметь возможность фокусироваться на важных объектах, отфильтровывать фон и точно их классифицировать. Для этого необходимо захватить целевые объекты и сделать прогнозы на основе обучения модели.

Сегодня в системах машинного зрения используются датчики изображения и линзы, которые поступают в специализированный блок обработки сигналов изображения (ISP). Выходные данные этого блока затем обрабатываются ускорителями или процессорами общего назначения для дальнейшего анализа.

Требования к обнаружению объектов различаются в зависимости от приложения. В сценариях наблюдения и производства машинное зрение можно использовать для подсчета людей или обнаружения дефектов на производственных линиях. В автомобильной промышленности машинное зрение используется для усовершенствованных систем помощи водителю (ADAS), таких как автоматическое экстренное торможение и помощь в удержании полосы движения.

Модели трансформаторов, в том числе ориентированное обнаружение объектов с помощью трансформатора (O2DETR) и DEtection TRansformer (DETR), предлагают ряд преимуществ по сравнению с традиционными моделями, такими как Faster R-CNN. Они имеют более простую конструкцию и используют однопроходный сквозной подход к обнаружению объектов. DETR, например, использует кодирование и декодирование преобразователя, а также набор потерь прогнозов для обеспечения соответствия между прогнозами и истинной информацией.

В отличие от традиционных моделей, которые полагаются на поля привязки и немаксимальное подавление, модели преобразователей, такие как DETR, обрабатывают данные параллельно и могут обрабатывать перекрывающиеся объекты без этих дополнительных шагов. Это делает модели трансформаторов более эффективными и точными для обнаружения объектов.

В заключение отметим, что модели-трансформеры произвели революцию в обнаружении объектов в приложениях машинного зрения. Их способность захватывать важные объекты, фильтровать фоновые детали и точно классифицировать объекты делает их предпочтительным выбором по сравнению с традиционными моделями. Достижения в разработке аппаратного и программного обеспечения также открывают путь для автономных транспортных средств, которые полагаются на входные данные датчиков и расширенные возможности машинного зрения.