banner
뉴스 센터
최고의 상품, 적시 배송, 성실한 지원을 약속드립니다.

여러 장면의 로봇에 대한 전이학습 기반 스테레오 매칭 알고리즘 적용

Jul 07, 2023

Scientific Reports 13권, 기사 번호: 12739(2023) 이 기사 인용

3 알트메트릭

측정항목 세부정보

양안시를 기반으로 한 로봇비전 기술은 3차원 장면 재구성, 표적 탐지, 자율주행 등 다양한 분야에서 발전 가능성이 무궁무진하다. 그러나 현재 로봇 공학에 사용되는 양안 비전 방법은 높은 비용, 복잡한 알고리즘, 다양한 장면에서 생성된 시차 맵의 낮은 신뢰성 등의 한계를 가지고 있습니다. 이러한 문제를 극복하기 위해 본 논문에서는 Ct-Net(Cross-Domain Adaptation and Transfer Learning Network)이라는 전이 학습 기반 양안 비전용 교차 도메인 스테레오 매칭 알고리즘을 제안했으며, 이는 여러 로봇 장면에서 귀중한 결과를 보여주었습니다. 먼저, 본 논문에서는 도메인 적응형 스테레오 매칭 작업을 위한 풍부한 일반 특징 정보를 추출하기 위한 일반 특징 추출기를 소개합니다. 그런 다음 기능 어댑터를 사용하여 일반적인 기능을 스테레오 매칭 네트워크에 적용합니다. 또한 도메인 적응형 비용 최적화 모듈은 매칭 비용을 최적화하도록 설계되었습니다. 시차 검색 범위를 적응적으로 조정하고 비용 분포를 최적화하기 위해 시차 점수 예측 모듈도 내장되었습니다. 전체 프레임워크는 단계별 전략을 사용하여 훈련되었으며, 훈련 전략의 효율성을 검증하기 위해 절제 실험을 수행했습니다. 프로토타입 PSMNet과 비교하여 KITTI 2015 벤치마크에서 Ct-Net의 3PE-fg는 모든 영역과 비폐쇄 영역에서 각각 19.3%와 21.1% 감소한 반면, Middlebury 데이터 세트에서는 제안된 알고리즘이 샘플 오류율을 향상시켰습니다. 최소한 28.4%는 Staircase 표본입니다. Middlebury, Apollo 및 기타 데이터 세트에서 얻은 정량적 및 정성적 결과는 Ct-Net이 스테레오 매칭의 도메인 간 성능을 크게 향상시키는 것을 보여줍니다. 실제 장면에서의 스테레오 매칭 실험은 여러 장면에서 시각적 작업을 효과적으로 처리할 수 있음을 보여주었습니다.

최근 몇 년 동안 로봇은 3D 장면 재구성, 표적 탐지, 자율 주행 등 다양한 분야에서 필수적인 보조자가 되었습니다. 다양한 산업 전반에 걸쳐 로봇 기술이 광범위하게 적용되면서 현대 생활에서 로봇 기술의 필수적인 역할이 이루어졌습니다. 인간의 시각 시스템을 모방하고 수집된 이미지 정보를 목표 시차 정보로 변환하는 기술인 컴퓨터 비전은 로봇이 작업을 수행하는 데 중요한 역할을 합니다. 현재 대부분의 로봇은 고정밀 시차 정보를 얻기 위해 값비싼 레이저 레이더 장비에 의존하고 있습니다. 그러나 인간이 사물을 관찰하는 방식을 밀접하게 모방한 양안시의 원리는 수많은 시각적 작업에 널리 활용되고 있습니다. 양안시 이론의 기본 구성 요소인 양안 스테레오 매칭 알고리즘은 로봇의 표적 감지 정확도에 직접적인 영향을 미칩니다. 양안시 이론을 적용하여 로봇은 2차원 정보를 대상 장면의 3차원 정보로 변환함으로써 정확한 대상 장면 정보를 얻을 수 있습니다.

스테레오 매칭 알고리즘은 3D 장면을 이해하고 재구성하는 데 매우 중요하며 로봇 내비게이션1, 자율 주행2, 가상 현실3 등 다양한 분야에서 널리 사용되고 있습니다. 이러한 알고리즘은 두 개의 정류된 스테레오 쌍에서 해당 픽셀의 수평 변위를 나타내는 시차를 계산하는 것을 목표로 합니다. 전통적인 방법은 조밀한 시차 맵 생성을 가능하게 하는 스테레오 매칭 기능을 구성하기 위해 이미지에 대한 사전 지식에 의존하는 경우가 많습니다.

현재 CNN(컨벌루션 신경망)은 객체 감지5, 이미지 분류6 등을 포함한 강력한 특징 표현 기능으로 인해 다양한 비전 작업에 널리 사용됩니다. 최근에는 CNN을 기반으로 한 지도 스테레오 매칭 알고리즘이 스테레오 매칭 성능을 크게 향상시켜 현재 주류 연구 방향이 되었습니다. CNN을 기반으로 한 지도 스테레오 매칭 알고리즘의 주요 단계에는 특징 추출, 비용 구성 및 비용 최적화가 포함됩니다.

\) represents the inner product operation, and the correlation of features is calculated for the feature group g and all disparity levels d./p>