Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.20 No.6 pp.313-330
DOI : https://doi.org/10.12815/kits.2021.20.6.313

Efficient Self-supervised Learning Techniques for Lightweight Depth Completion

Jae-Hyuck Park^*, Kyoung-Wook Min^**, Jeong Dan Choi^***

^*Autonomous Driving Intelligence Research Section, ETRI
^**Intelligent Robotics Research Division, ETRI
^***Co-author: Head of Intelligent Robotics Research Division, Electronics and Telecommunications Research Institute, Korea

^† Corresponding author : Jae-Hyuck Park, jaehyuck0103@etri.re.kr

Received 27 October 2021 │ Revised 19 November 2021 │ Accepted 10 December 2021

Abstract

In an autonomous driving system equipped with a camera and lidar, depth completion techniques enable dense depth estimation. In particular, using self-supervised learning it is possible to train the depth completion network even without ground truth. In actual autonomous driving, such depth completion should have very short latency as it is the input of other algorithms. So, rather than complicate the network structure to increase the accuracy like previous studies, this paper focuses on network latency. We design a U-Net type network with RegNet encoders optimized for GPU computation. Instead, this paper presents several techniques that can increase accuracy during the process of self-supervised learning. The proposed techniques increase the robustness to unreliable lidar inputs. Also, they improve the depth quality for edge and sky regions based on the semantic information extracted in advance. Our experiments confirm that our model is very lightweight (2.42 ms at 1280x480) but resistant to noise and has qualities close to the latest studies.

Key Words : Depth completion , Self-supervised learning , Autonomous driving

경량 깊이완성기술을 위한 효율적인 자기지도학습 기법 연구

박 재 혁^*, 민 경 욱^**, 최 정 단^***

^*주저자 및 교신저자 : 한국전자통신연구원 자율주행지능연구실 연구원
^**공저자 : 한국전자통신연구원 자율주행지능연구실 실장
^***공저자 : 한국전자통신연구원 지능로보틱스연구본부 본부장

초록

카메라와 라이다가 탑재된 자율주행 시스템에서 깊이완성기술을 통해 조밀한 깊이추정을 할 수 있다. 특히, 자기지도학습을 이용하면 깊이정답이 없는 주행데이터로도 깊이완성 네트워 크의 학습이 가능하다. 실제 자율주행환경에서 이러한 깊이완성의 출력은 다른 알고리즘들의 입력으로 사용되므로 매우 빠른 지연속도를 요구한다. 그래서 본 논문에서는 종래의 연구들처 럼 네트워크를 고도화하여 정확도를 높이기보단 추론속도를 극대화한 형태의 깊이완성 네트 워크를 사용한다. GPU 연산에 최적화된 RegNet 인코더를 사용하고 네트워크의 병렬성을 고려 한 U-Net 형태의 네트워크를 설계한다. 대신, 본 논문에서는 자기지도학습 과정에서 정확도를 높일 수 있는 몇 가지 기법들을 제시한다. 제시하는 기법들은 신뢰할 수 없는 라이다 입력에 대한 강인함을 높이고 사전에 추출한 시맨틱 정보를 바탕으로 에지와 하늘 영역에 대한 깊이 추정 품질을 향상시킨다. 실험을 통해 우리의 모델은 매우 경량임에도 (2.42ms at 1280x480) 노 이즈에 강하며 최신 연구들과 대등한 정확도를 보임을 확인한다.

키워드 : 깊이완성 , 자기지도학습 , 자율주행

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

1. 개요 및 선행 연구

자율주행차량의 깊이추정(Depth estimation)은 주변 장애물의 위치를 파악하고 도로상에서 자차의 위치를 파악하는 데 필요한 주요 요소 기술이다. 종래에는 두 대의 카메라 영상에서 중복된 영역의 영상 내 위치 차 이를 파악하여 깊이를 추정하는 스테레오 깊이추정(Stereo depth estimation)이 널리 이용되었다(Scharstein and Szeliski, 2002). 최근에는 딥러닝 기술의 도입으로 하나의 카메라 영상에서 시맨틱 정보를 추출하여 픽셀 간 상대적인 깊이를 추정하는 단안카메라 깊이추정(Monocular depth prediction) 연구에 많은 발전이 있었다(Eigen et al., 2014). 그리고, 단안카메라 영상 뿐 아니라 희소한 라이다 점군(point cloud)을 카메라 영상 평면에 투사 한 입력을 함께 사용하는 깊이완성기술(Depth completion)도 활발히 연구되고 있다(Ma and Karaman, 2018).

스테레오 깊이추정은 중복된 영상 정보를 복수의 카메라로 취득한다는 점에서 과잉한(redundant) 기구 세 팅이 요구된다고 볼 수 있다. 그리고 정렬된 두 프레임에서 각 픽셀에 대응하는 반대편 위치를 찾기 위해 반 대편 영상의 수평 방향을 살펴야 하는데, 이러한 넓은 탐색 범위로 인해 비교적 무거운 알고리즘이 필요하다 (Scharstein and Szeliski, 2002). 반면에 단안카메라 깊이추정은 하나의 카메라만 사용하기 때문에 기구 세팅이 매우 간단하고 센서 간 캘리브레이션이 필요 없다. 하지만 영상의 시맨틱을 바탕으로 각 픽셀 간의 상대적인 깊이 추정만 하므로 자율주행차량과 같은 실제 미터 단위의 깊이를 요구하는 용도에 부적합한 측면이 있다 (Eigen et al., 2014). 만약 자율주행시스템에 라이다가 포함된 경우라면 깊이완성기술이 좋은 대안이 될 수 있 다. 카메라와 라이다 간의 외부 캘리브레이션이 주어지면 하나의 라이다 포인트는 하나의 영상 픽셀에만 대 응되기 때문에(<Fig. 1>, <Fig. 2> 참조), 스테레오 깊이추정에서와 같은 복잡한 탐색이 필요하지 않다. 그리 고 라이다 투영맵의 정밀한 거리를 바탕으로 나머지 픽셀의 깊이를 채워 넣기 때문에 단안카메라 깊이추정 과는 달리 절대적인 거리를 알아낼 수 있다.

<Fig. 1>

Example of KITTI dataset

<Fig. 2>

Example of ETRI dataset

단안카메라 깊이추정과 깊이완성기술은 영상의 시맨틱을 추출하여 깊이 값을 채워야 해서 일반적으로 학 습기반의 방법으로 구현한다. 하지만 공개된 데이터셋에서 깊이 추정과 관련한 정답데이터가 제공되는 경우 가 드물고, 단순한 레이블링으로는 정답데이터를 구축할 수 없어서 새로운 환경의 주행 데이터가 주어졌을 때 지도학습 기반의 딥러닝 학습이 쉽지 않다. 그래서 Zhou et al.(2017)는 연속된 단안카메라 영상에서 깊이 추정 네트워크와 자차의 포즈 변화를 측정하는 오도메트리 네트워크를 정답데이터 없이 동시에 학습할 수 있는 자기지도학습(Self-supervised learning) 기법을 제시하였다. 자차의 움직임이 있을 때 멀리 위치한 물체는 영상 속에서 조금 이동하고 가까운 물체는 많이 이동하는 것을 바탕으로 상대적 위치를 파악할 수 있는 것 이다. 이후, 자기지도학습의 전제가 성립되지 않는 움직이는 주변 물체에 대해 필터링하거나 (Godard et al., 2019), 깊이추정 네트워크를 고도화(Guizilini et al., 2020)하여 정확도를 향상하는 후속 연구들이 많이 진행되 었다.

이러한 자기지도학습은 깊이완성 연구에도 적용되었다. Ma et al.(2019)는 학습과정에서 특징점 매칭과 RANSAC(Random Sample Consensus)을 통해 PnP(Perspective-n-Point) 문제를 계산하여 자차량의 움직임을 도 출해내었고, 이는 별도의 오도메트리 네트워크를 학습시키지 않아도 되는 장점이 있다. Yang et al.(2019)은 자기지도학습의 목적함수에 흔히 포함되는 깊이에 대한 픽셀간 smoothness 제약이 영상의 시맨틱 정보를 반 영하지 못하는 점을 보완하고자, 깊이정답이 있는 가상데이터로 영상과 깊이 간의 conditional prior 네트워크 를 사전에 구축하여 목적함수에 사용하였다. Wong et al.(2020)과 Wong et al.(2021)은 CNN(Convolutional Neural Network)의 특성상 희소한 입력에 효율적이지 못하다는 점을 해소하기 위해, 라이다 투영맵을 각각 비학습방식과 학습방식으로 조밀하게 전처리하는 방법을 제시하여 뒷단의 CNN 네트워크를 가볍게 구성하 였다.

2. 본 연구의 목적

본 연구의 주요 목적은 실제 자율주행차량에 탑재되어 실시간으로 동작하고 높은 정확도를 가지는 깊이 완성 네트워크를 학습하는 것이다. 본 논문의 주요 타겟이 되는 ETRI의 자율주행시스템은 카메라와 라이다 가 탑재되어있기에 깊이완성기술을 사용하게 되었고, 정답데이터가 없는 ETRI 주행데이터를 학습에 활용하 기 위해 자기지도학습을 이용한다.

많은 연구에서 30FPS를 알고리즘의 실시간 동작의 기준으로 제시하곤 하지만, 실제 자율주행시스템에는 많은 알고리즘이 동시에 동작하고, 특히 깊이추정의 결과는 다른 알고리즘들의 입력으로 사용되어야 하므로 훨씬 빠른 속도를 요구한다. Ma et al.(2019)와 Yang et al.(2019)과 같은 선행연구들은 비교적 무거운 네트워 크를 사용하여 실시간성이 떨어진다. Wong et al.(2020)과 Wong et al.(2021)은 희소한 라이다 입력을 전처리 하여 네트워크 뒷단을 가볍게 만들어 30FPS 이상의 속도는 달성하였지만, 전처리 파트와 깊이 추정네트워크 가 직렬적으로 구성되어 여전히 실제 시스템 탑재에는 조금 부족한 추론속도를 보여준다.

그래서, 본 연구에서는 GPU 연산에 최적화되어 설계된 RegNet(Radosavovic et al., 2020) 인코더를 사용하 여 깊이완성을 위한 경량 U-Net을 설계한다. 추론속도를 극대화하기 위하여 영상과 라이다에 대한 인코더 간에 서로에 대한 의존이 없도록 하고 양쪽의 인코더 네트워크의 크기를 동일하게 설정하여 병렬성을 만족 시켰으며 디코더 네트워크도 매우 가볍게 설계하였다. 이렇게 설계된 RegNet 기반의 경량 U-Net은 1280x480 해상도의 입력을 2.42ms에 처리할 수 있어서 실제 시스템 탑재에 적합한 속도를 보여준다.

대신, 자기지도학습 과정에서 학습에 도움이 되는 다양한 기법을 적용함으로써, 경량화된 네트워크의 정 확도를 최신 연구들의 복잡한 네트워크들에 근접하도록 하였다. 우선, 신뢰할 수 없는 라이다 점군이 학습에 영향을 미치는 걸 막고자 시야에서 가려진 점군을 사전에 필터링하여 목적함수 계산에서 배제하였다. 추가 적으로, 완벽히 필터링 되지 못한 아웃라이어 점군을 배제시킬 수 있는 robust lidar depth loss를 도입하였다. 본 논문의 주요 타겟인 ETRI에서 수집한 데이터셋은 라이다의 노이즈가 많고 점군이 적게 형성되는 경향이 있어서 좋은 효과를 보여주었다. 또한, 시맨틱 정보를 사전에 추출하여 에지와 하늘영역에 대한 품질을 높이 는 학습기법을 사용하였다. 비슷한 방법으로, Yang et al.(2019)에서는 시맨틱을 고려한 prior 계산을 위한 네 트워크를 깊이정답데이터셋으로 별도 학습시킨 후에 자기지도학습의 목적함수에 포함하였다. 다만, 우리의 방법은 깊이정답데이터셋을 요구하지 않고 기존의 다른 연구에서 기 학습된 에지추출과 세그멘테이션 네트 워크를 사용한다.

실험을 통해 우리가 제시한 네트워크는 최신 연구들보다 훨씬 빠르면서도 근접한 정확도를 보여줌을 확 인한다. 우리 연구의 주요 타겟인 ETRI 데이터셋은 정답데이터가 없으므로 다른 연구들과의 정량적인 정확 도를 비교 할 수 없다. 그래서 깊이추정의 벤치마크로 주로 사용되는 KITTI 데이터셋을 이용하여 깊이 추정 의 정확도를 정량적으로 비교한다. 그리고 ETRI 데이터셋으로는 깊이추정의 결과를 정성적으로 확인하여 우 리가 제시한 학습기법들의 효과가 의도대로 잘 적용되었는지 시각적으로 확인한다.

Ⅱ. 데이터셋 소개

이 장에서는 KITTI 데이터셋과 ETRI 데이터셋을 간단히 소개하고 특징을 비교해본다. 지금부터 본 논문 에서 KITTI 데이터셋이라고 지칭하는 것은 전체 KITTI 데이터셋 중 깊이추정 벤치마크를 위해 공식적으로 추려놓은 학습 및 검증 데이터셋을 의미한다.

KITTI 데이터셋은 10만프레임 가량의 영상과 영상에 투영된 라이다 입력, 그리고 깊이정답을 제공하여, 단안카메라 깊이추정과 깊이완성기술들에 대한 벤치마크에 사용된다. 영상의 해상도는 검증용 데이터셋 기 준으로 1216x352이고 라이다는 Velodyne社의 HDL-64E를 사용하였다. 깊이정답은 인접 프레임에서 수집된 라이다 점군을 자차의 움직임을 보정하여 모은 후 신뢰도 높은 포인트들만 필터링하여 만들어졌고, 그래서 전체 픽셀 수의 16.1%에 대해서만 정답값이 존재한다. 또한, 라이다의 FOV (Field of View)가 닿지 않는 영상 윗부분에 대해서는 정답이 주어지지 않는다. <Fig. 1>은 KITTI 데이터셋의 한 장면이고, 위 그림은 영상에 라이다 입력을 투영한 것이며 아래 그림은 정답 깊이 데이터를 시각화한 것이다.

ETRI 데이터셋은 대전 지역에서 ETRI의 자율주행차로 수집하였고 스테레오 세팅을 포함하여 21만프레임 가량의 동기가 맞춰진 영상과 라이다 데이터로 구성되어있다 (학습용:20만, 검증용:1만). 각기 다른 장소에서 10FPS로 8~9분 내외로 촬영한 21개의 시퀀스로 이루어져 있다. 그중 20개의 시퀀스를 학습용으로 사용하고 나머지 하나의 시퀀스를 검증용으로 사용한다. 영상의 해상도는 1280x480이고 라이다는 ouster社의 OS1-64를 사용하였다. OS1-64 라이다는 KITTI 데이터셋에서 사용된 HDL-64E 라이다와 같이 64채널의 스펙을 가지고 있지만 실제 데이터를 비교해보면 훨씬 적은 양의 점군이 수집된다. 검은 물체나 아스팔트에 점군이 매우 희 소하게 맺히는 경향이 있고, 수직 FOV가 커서 주변 건물이나 높은 지형지물에서 더 많은 점군이 생성되긴 하지만 실제로 더 중요한 도로 위의 물체들에 대한 점군이 적게 수집된다 (<Fig. 2>). 그리고 OS1-64 라이다 에서 노이즈가 훨씬 빈번하게 나타나는 편이다. 이러한 듬성듬성한 점군과 노이즈의 존재는 깊이완성기술의 학습과 추론을 어렵게 한다.

Ⅲ. 본 론

1. 깊이추정을 위한 자기지도학습 방법

Zhou et al.(2017)는 단안카메라 깊이추정 네트워크와 오도메트리 네트워크를 정답데이터 없이 동시에 학 습시키는 방법을 제시하였다. 기본적인 원리를 간략히 리뷰해보면, 깊이추정 네트워크로 얻어낸 현재 프레임 의 깊이맵과 오도메트리 네트워크로 얻어 낸 현재와 주변 프레임 간의 카메라 포즈 변화를 이용하여 주변 프레임의 영상을 현재 프레임 시점으로 합성하였을 때, 합성된 영상과 원래의 현재 프레임의 영상이 비슷하 게 되도록 두 개의 네트워크를 학습시키는 것이다. 합성 영상과 현재 프레임 영상간의 차이를 줄이려는 photometric loss와 인접한 픽셀 간에 비슷한 깊이 값을 가지도록 하는 smoothness loss가 기본적으로 사용된 다. 단안카메라 깊이추정 네트워크 대신 깊이완성 네트워크를 학습시키고자 한다면 추정된 깊이맵과 투영된 라이다 점군이 같은 깊이 값을 가지도록 하는 lidar depth loss를 추가하면 된다.

본 논문에서는 실주행 적용에 충분한 고속의 깊이완성 네트워크를 위해 RegNet 기반의 U-Net을 설계하였 다. 비교적 작은 용량의 네트워크지만 정확하고 노이즈에 강하게 학습시키기 위해 가려진 점군 필터링, robust lidar depth loss, semantic edge-aware smoothness loss, sky-depth loss와 같은 기법들을 도입하였다. <Fig. 3>에서 본 논문의 자기지도학습 프레임워크의 전체적인 모습을 볼 수 있다. 향후 수식에 사용될 기호들을 정리해보면, I_t 는 깊이추정의 대상이 되는 프레임의 이미지이고 D_L 은 I_t 와 같은 시간에 찍힌 라이다 점군을 카메라 영상 평면으로 투영한 것이다. D_L 의 각 픽셀에는 라이다 점군의 깊이 값이 미터 단위로 부여되고 라 이다 점군이 존재하지 않는 픽셀에는 0 값이 부여된다. I_t 와 D_L 이 깊이완성 네트워크를 통과하면 추정된 조 밀한 깊이맵인 $\hat{D_{t}}$ 가 출력된다. I_s 는 I_t 의 인접한 시간의 영상으로 I_t 와 함께 오도메트리 네트워크의 입력으로 들어가고 영상합성의 소스 이미지로 활용된다. ${\hat{I}}_{t}$ 는 추정된 자차의 움직임과 $\hat{D_{t}}$ 를 기반으로 I_s 를 I_t 시점으로 합성한 이미지이다.

<Fig. 3>

Our self-supervised learning framework

2. 경량 깊이완성 네트워크

본 논문에서는 영상과 라이다 투영맵에서 각각 인코더로 특징맵을 얻어내고, 디코더에서 양쪽 특징맵들을 계층적으로 합쳐나가는 가벼운 U-Net을 설계해 사용한다 (<Fig. 4>). 깊이완성의 경우 희소하긴 하지만 정답 에 가까운 점군의 깊이를 입력받기도 하고 속성분류가 필요한 검출이나 세그멘테이션 같은 인식 알고리즘보 다는 상대적으로 저수준의 시맨틱 정보만 있어도 된다. 그래서 시맨틱을 추출하는 역할을 하는 인코더로 RegNet(Radosavovic et al., 2020)에서 가장 가벼운 모델인 RegNetX-200MF를 사용하였다. RegNet은 GPU 연산 에 효율적으로 설계되어 있어서 일반적으로 많이 사용하는 ResNet 모델에 비해 같은 정확도라면 더 빠르게 동작하는 경량 네트워크이다.

<Fig. 4>

Lightweight depth completion network

그리고 직렬적인 네트워크 구성(Wong et al., 2021)이나 네트워크 끝단에서 반복적으로 깊이맵을 보정하는 구조(Cheng et al., 2018)를 피하였다. 영상과 라이다에 대한 인코더 간에 서로에 대한 의존이 없도록 하고 인 코더 크기를 같게 하여 병렬성을 최대화하였으며 디코더 네트워크도 가볍게 설계하였다. 이러한 균등한 인 코더 설계는 이전 장에서 살펴본 ETRI 데이터셋과 같이 검은 물체나 아스팔트와 같은 특정 영역에서 점군이 거의 맺히지 않는 환경에 적합한 접근법이기도 하다. 예를 들어, 카메라 영상으로 만들어진 특징맵을 가이드 요소로 참고하여 라이다 투영맵을 점차 조밀한 깊이맵으로 발전시키는 형태의 네트워크를 사용하는 경우가 있는데(Li et al., 2020), 점군이 거의 맺히지 않는 물체나 영상 상단에 대해 매우 취약한 결과를 보여준다. 반 면에 우리가 제시하는 네트워크는 영상과 라이다 투영맵에서 추출된 계층적 특징맵들이 skip connection으로 디코더에 전달되어 깊이추정에 균등하게 사용된다. 이는 라이다 정보가 희소한 영역이더라도 영상의 시맨틱 으로 보완할 수 있음을 의미한다.

<Fig. 4>의 깊이완성네트워크의 상세 설계를 간단히 소개한다. RegNetX-200MF 인코더는 [1/2, 1/4, 1/8, 1/16, 1/32] 스케일에서 각각 [32, 24, 56, 152, 368] 채널의 특징맵들을 추출한다. 인코더의 학습 초깃값으로 ImageNet으로 사전 학습된 모델을 사용하였다. 라이다 투영맵을 입력받는 인코더는 입력채널을 1로 줄이고 학습 초깃값은 기존 weight를 채널 축으로 더해서 사용하였다. 인코더에서 추출된 멀티스케일 특징맵들은 skip connection으로 디코더에 전달되어 <Table 1>의 형태로 합쳐져서 최종 깊이맵을 출력한다. 라이다 투영 맵 인코더의 1/2 스케일에서는 skip connection을 전달하지 않는데, 그 이유는 출력 깊이값이 라이다 입력을 심하게 추종하는 것을 막으려는 의도이다. 디코더의 conv 레이어는 모두 3x3커널에 1x1패딩 세팅이고, 마지 막 head의 conv를 제외하고는 배치 노멀라이제이션과 ReLU 활성화 함수를 사용하였다.

<Table 1>

Decoder of U-Net

뒷장에 나올 실험을 통해 우리가 설계한 RegNet기반의 U-Net은 기존의 최신 연구들의 품질과 대등하고 라이다 점군이 적게 맺힌 영역에서도 문제가 없었으며 노이즈에도 강함을 확인할 수 있다. 특히 추론시간은 RTX 3090 GPU에서 1.92ms (KITTI 데이터셋 해상도 1216x352), 2.42ms (ETRI 데이터셋 해상도 1280x480)으 로 측정되었다. TensorRT 프레임워크의 FP16 모드로 측정하였고 입력과 출력의 CPU와 GPU간 메모리 이동 시간은 제외한 순수 네트워크 추론시간을 측정하였다.

추가로 본 논문에서 사용한 오도메트리 네트워크의 설계를 간단히 소개한다. RegNetX-200MF의 첫 번째 레이어의 입력채널을 6으로 바꾸어 두 개의 RGB 이미지를 입력받도록 하였고, 마지막 368 채널의 특징맵을 1x1 콘볼루셔널 레이어로 6 채널로 줄이고 global average pooling으로 6-dim 벡터가 나오도록 한다. 3-dim은 translation vector로 나머지 3-dim은 axis angle로 사용한다.

3. 가려진 점군 필터링

카메라와 라이다가 설치된 위치의 차이가 있어서 카메라 시점에서는 가려진 위치에 맺힌 점군이 라이다 투영맵에 나타나는 경우가 많이 발생한다. 이러한 점군에 의한 깊이값은 카메라 시점에서는 잘못된 깊이라 서 lidar depth loss의 타겟 값으로 그대로 사용되면 부정적인 영향을 미친다. 그래서 학습의 전처리 단계에서 이러한 점군을 제거할 수 있는 간단한 필터링 방법을 소개한다.

\begin{array}{l} D_{L}^{*} = D_{L}, D_{L}^{f} = D_{L} \\ D_{L}^{*} [D_{L}^{*} > 0] = 1000 - D_{L}^{*} [D_{L}^{*} > 0] \\ D_{L}^{*} = d i l a t e (D_{L}^{*}) \\ D_{L}^{*} [D_{L}^{*} > 0] = 1000 - D_{L}^{*} [D_{L}^{*} > 0] \\ D_{L}^{f} [D_{L}^{*} < 0.8 \times D_{L}] = 0 \end{array}

(1)

여기서,

[ ]: 조건에 부합하는 배열의 요소만 선택
$D_{L}^{f}$ : 필터링 완료된 투영맵

우선, 라이다 투영맵의 유효한 깊이값들을 충분히 큰 값으로부터 빼서 깊이값들을 반전시킨다. 그다음 모 폴로지 연산 중 확장(dilate) 연산을 적용하고 다시 원래대로 깊이 값들을 반전시킨다. 그 결과, 작은 깊이값 과 큰 깊이값이 주변 픽셀에 있었다면 큰 깊이값들이 작은 깊이값으로 대치된다. 원래 깊이값과 대치된 깊이 값의 차이가 많이나면 원래 깊이값이 가려진 점군에 의해 생겼다고 볼 수 있고, 그러한 깊이값들을 제거해버 린다. 본 논문에서는 위의 확장 연산에서 10x10픽셀의 사각 배열을 커널로 사용하였다.

상기의 필터링은 학습과정에서 lidar depth loss의 타겟을 구할 때만 사용하고, 깊이완성 네트워크 입력으로 는 필터링 되지 않은 투영맵을 그대로 사용한다. 추론과정에서 필터링 과정이 들어가면 추가적인 시간이 소 모되기 때문이고, 학습과정에서 네트워크가 신뢰할 수 없는 점군을 걸러낼 수 있는 능력을 충분히 가질 수 있다고 판단했다.

<Fig. 5>에서 필터링을 적용한 예시를 확인할 수 있다. 첫 번째 그림에서 버스에 맺힌 표지판의 점군이 잘 제거됨을 확인할 수 있다. 두 번째 그림에서는 사람이나 기둥, 나뭇가지에 맺힌 배경의 점군이 제거됨을 볼 수 있다. 하지만 세 번째 그림처럼 필터링이 실패하는 예도 있다. 차량에 맺힌 배경의 점군이 제거되지 못했 는데, 애초에 검은색 차량에 라이다 포인트가 전혀 맺히질 못해서 배경의 깊이값들이 차량의 깊이값으로 대 치되지 못하기 때문이다. 이와 같은 예외적인 경우는 뒤에서 설명할 robust lidar depth loss로 해결할 수 있다.

<Fig. 5>

Occlusion filtering for lidar projection (Left -> Right)

4. Robust lidar depth loss

이전 장에서 소개한 가려진 점군 필터링 기법으로 라이다 투영맵에서 신뢰할 수 없는 점군을 많이 제거할 수 있지만 완벽하게 필터링할 수는 없다. <Fig. 5>의 세번째 그림처럼 가까운 물체에 점군이 맺히질 못해 필 터링이 잘 안 될 수가 있고, 가려짐과는 상관없는 라이다의 노이즈가 발생할 수도 있으며 (<Fig. 8>), 카메라 와 라이다 간의 캘리브레이션이 틀어져서 어긋난 위치에 점군이 투영될 수도 있다.

카메라 평면상의 실제 깊이와 차이가 크게 나는 투영된 라이다 점군을 아웃라이어라고 생각할 수 있다. 이러한 아웃라이어에 의한 영향을 제거하기 위해 추정된 깊이맵과 투영된 라이다 포인트의 깊이 차가 큰 일 정 비율의 점군을 lidar depth loss 계산에 포함하지 않는 방법을 제시한다.

\begin{array}{l} Ψ = {x | D_{L}^{f} (x) > 0, l o w e s t K (| D_{L}^{f} (x) - \hat{D_{t}} (x) | / \sqrt{D_{L}^{f} (x)})} \\ L_{i d a r} = \frac{1}{| Ω |} \sum_{x \in Ψ} | D_{L}^{f} (x) - \hat{D_{t}} (x) | \end{array}

(2)

여기서,

Ω는 모든 픽셀의 집합

추정된 깊이와 라이다 깊이의 차이에서 라이다 깊이의 제곱근으로 나눈 값을 아웃라이어를 판별하기 위 한 기준으로 삼았다. KITTI 데이터셋으로 학습할 때는 노이즈가 적어서 기준값이 높게 나온 5%를 아웃라이 어로 판단하고 ETRI 데이터셋으로 학습할 때는 기준값이 높게 나온 20%를 아웃라이어로 판단하였다. 최종 robust lidar depth loss는 아웃라이어를 제외한 샘플들로 L1 loss를 계산하여 사용하였다.

5. Semantic edge-aware smoothness loss

영상 평면의 인접한 픽셀의 깊이는 비슷한 값을 가질 가능성이 크기 때문에 추정된 깊이값에 smoothness 제약을 건다. 다만 물체의 경계에서는 일반적으로 급격한 깊이값의 변화가 일어나기 때문에, 종래의 기술들 은 RGB 값의 변화가 심한 지점을 물체의 에지로 간주하고 에지에서는 smoothness 제약을 줄이는 방식으로 edge-aware smoothness loss를 사용하였다.

하지만 해당 방법은 물체 간에 RGB 값이 비슷한 경우에는 에지를 알아차릴 수 없는 문제가 있다. 반대로, 연속된 영역이지만 RGB 값이 급하게 변하면 (대표적으로 로드마크와 도로) 에지로 판단하여 smoothness 제 약을 잘못 줄여버리기도 한다 (<Fig. 6>).

<Fig. 6>

Simple edge (bottom left) vs Semantic edge (bottom right)

이 문제를 해결하기 위해 시맨틱을 고려한 에지 추출 네트워크(Acuna et al., 2019)를 이용하여 에지를 추 출하여 semantic edge-aware smoothness loss를 구현하였다. 학습 전에 모든 데이터셋에 대해서 에지 추출 네트 워크로 시맨틱 에지맵을 미리 추출해두고, 학습 과정에서 에지맵을 불러와서 사용하기 때문에 학습에 대한 추가적인 오버헤드는 없다. (Acuna et al., 2019)의 공식 구현에서 제공하는 Cityscapes 데이터셋으로 미리 학 습된 모델을 그대로 사용하였다. 추가로 물체가 멀수록 화면상에 작게 나와서 smoothness 조건이 성립되기 어려운 점을 고려하여 loss가 깊이맵의 제곱근에 반비례하도록 하였다.

L_{s m} = \frac{1}{| Ω |} \sum_{x \in Ω} \frac{max (0, 1 - 3 \times E_{s} (x))}{\sqrt{\hat{D_{t}} (x)}} (| \partial_{X} \hat{D_{t}} (x) | + | \partial_{Y} \hat{D_{t}} (x) |)

(3)

여기서,

E_s : 시맨틱 에지맵 (값 범위는 [0.0, 1.0])

6. Sky depth loss

자기지도학습의 주요 원리는 자차량의 움직임이 있을 때 먼거리의 물체는 화면상에서 조금 움직이고 가 까운 물체는 화면상에서 많이 움직이는 점을 이용하는 것이다. 하지만 하늘 영역은 텍스쳐가 부족하기 때문 에 자기지도학습에 큰 힌트가 되지 못하여 충분히 먼 거리로 학습이 잘되지 않는다.

본 논문에서는 시맨틱 세그멘테이션으로 미리 하늘영역을 검출하여 먼 거리로 학습이 되도록 loss를 추가 하였다. (Yuan et al., 2020)의 공식 구현에서 제공하는 Cityscapes 데이터셋으로 미리 학습된 모델을 그대로 사용하였다. 시맨틱 에지와 마찬가지로 학습 전에 모든 데이터셋에 대해서 추출해두고 사용하기 때문에 추 가적인 학습 오버헤드는 없다.

L_{s k y} = \frac{1}{| Ω |} \sum_{x \in Ω} R e L U (D_{s k y} (x) - \hat{D_{t}} (x))

(4)

여기서,

D_sky : 하늘 영역은 200의 값을 가지고 나머지 영역은 0의 값을 가지는 깊이맵

loss의 계산식은 위의 식과 같고, 하늘 영역에 대해서 출력된 깊이맵이 200m 아래라면 L1 loss로써 작동하 고 200m 이상이면 loss가 걸리지 않는다. D_sky 를 구하기 위해 시맨틱 세그멘테이션 알고리즘으로 하늘영역을 판단할 때, 가장 일반적인 방법은 하늘 카테고리에 대한 점수가 다른 모든 카테고리들의 점수보다 높은 픽셀 들을 선택하는 것이다. 하지만 해당 방법은 영상 상부에 있는 표지판, 가로등, 신호등, 터널과 같은 물체들에 대한 픽셀이 하늘 카테고리로 오인식되는 경우가 자주 발생하였다. 그래서 충분히 신뢰할만한 하늘 영역에 대해서만 sky depth loss를 적용하기 위해서, 하늘 카테고리의 소프트맥스 값이 충분히 높은 픽셀들만 하늘 영역으로 판단하였다. 본 논문에서는 0.13의 문턱값을 사용하였다. 이 방법을 사용하면 검출되는 하늘 영역 이 작아지긴 하지만 smoothness loss나 photometric loss와 같은 다른 loss들의 영향으로 검출되지 않았던 하늘 영역도 먼 거리가 나오도록 학습된다.

7. Photometric loss

photometric loss는 과거의 자기지도학습 기반의 연구들에서 많이 사용한 L1 loss와 SSIM loss의 조합을 그 대로 사용하였다(Godard et al., 2019).

L_{p h} = \frac{1}{| Ω |} \sum_{x \in Ω} α | {\hat{I}}_{t} (x) - I_{t} (x) | + (1 - α) (1 - S S I M ({\hat{I}}_{t} (x), I_{t} (x)))

(5)

본 논문에서는 α = 0.15로 두고 사용하였다. 그리고, 동적인 주변 물체가 있는 부분에서 photometric loss의 전제가 성립하지 않는 문제를 일부 해결하기 위해 (Godard et al., 2019)에서 제시한 오토마스킹 기법도 그대 로 적용하였다. 간단히 리뷰하면, 어느 픽셀에서 현재프레임과 합성된 프레임 간의 loss가 합성되기 전 프레 임과의 loss보다 높으면 해당 픽셀을 photometric loss 계산에서 제외한다.

8. Total loss

지금까지 소개한 loss를 조합하여 아래의 total loss를 학습에 사용하였다. 본 논문에서는 $ω_{l i d a r} = 3.0, ω_{s m} = 1 e^{- 4}, ω_{s k y} = 3 e^{- 4}, ω_{p h} = 2.0$ 을 사용하였다.

L_{t a t a l} = ω_{l i d a r} L_{l i d a r} + ω_{s m} L_{s m} + ω_{s k y} L_{s k y} + ω_{p h} L_{p h}

(6)

Ⅳ. 실 험

1. 학습방법

본 논문의 주요 타겟은 실주행환경의 ETRI 데이터셋이지만 ETRI 데이터셋은 정답 데이터가 없기 때문에 과거 연구들과의 정량적 비교를 위해서 KITTI 데이터셋에 대한 학습과 평가도 진행하였다. 깊이추정을 위한 자기지도학습은 자차의 움직임이 있는 상황을 가정한다. 그래서 주변 프레임과의 조밀한 광류(optical flow)를 추출하여 중간값이 2.5 이상인 프레임들만 학습에 사용하였다. 광류 추출은 프레임의 가로/세로 해상도를 절 반씩 줄이고 scikit-image 라이브러리의 optical_flow_tvl1 함수를 사용하였다.

학습데이터 증강을 위해서 입력 데이터에 대해서 무작위로 좌우반전, 밝기 조절 (±40%), 명암 조절 (±40%), 채도 조절 (±20%), 색조 조절 (±20%)를 가하였다. 또, 학습 데이터셋 보다 훨씬 성긴 라이다 입력에도 강인 하게 하도록, 입력 라이다 점군 중 0~95%를 무작위로 제거해버리기도 하였다. 그리고 학습 시에 깊이완성네 트워크의 입력 프레임을 768x320 크기로 무작위 크롭하였다. 오도메트리 네트워크의 입력은 크롭하지 않은 이미지의 가로/세로를 절반씩 줄여서 사용하였다.

최적화기는 AdamW를 사용하였고 0.001의 초기 learning rate에서 시작하여 10 에폭마다 learning rate를 절 반씩 줄여 총 60 에폭으로 학습하였다. ETRI 데이터셋은 양이 많아서 한 에폭마다 전체 데이터셋의 1/4만 사 용하였다. 조금 더 원활한 학습을 위해서 ETRI 데이터셋으로의 학습은 KITTI 데이터셋으로 학습되어 있던 모델을 초깃값으로 사용하였다. 배치사이즈는 16으로 세팅하였다.

KITTI 데이터를 이용한 학습과 검증에는 데이터셋에서 공식적으로 제공하는 92,000프레임 가량의 학습용 영상-라이다 쌍과 1000프레임의 검증용 영상-라이다-깊이정답 데이터를 사용하였다. ETRI 데이터는 각기 다 른 장소에서 촬영된 8~9분가량의 시퀀스 21개 중 20개의 시퀀스를 학습용으로 사용하고 나머지 하나의 시퀀 스를 검증용으로 사용하였다. 각 시퀀스에는 대략 1만 프레임의 영상-라이다 쌍이 포함되어 있다.

추가적으로, 원활한 학습을 위하여 깊이 완성 네트워크에서 나오는 멀티 스케일 출력을 모두 학습에 사용 하였다. U-Net 디코더의 1/1 스케일 뿐 아니라 [1/2, 1/4] 스케일의 특징맵에도 3x3 콘볼루션 레이어를 하나씩 추가하여 멀티스케일 출력이 나오도록 하였고, 각각을 1/1 스케일로 bilinear 업스케일링 하여 loss를 구하고 조합하였다. 초기 10 에폭에서는 [1.0, 0.5, 0.5]의 가중치로 조합하였고, 다음 10 에폭에서는 [1.0, 0.1, 0.1]의 가중치로 조합하였다. 나머지 에폭에서는 1/1 스케일의 출력만 loss 계산에 사용하였다.

2. 정량적 결과 분석

과거의 자기지도학습 기반의 깊이 추정 연구들과 정량적인 성능을 비교하기 위해서 KITTI 데이터셋에서 단안 카메라 세팅만을 이용하여 학습하였다. 참고로 sky depth loss는 사용하지 않았다 (ω_sky = 0). 하늘 부분이 비정상적으로 학습되긴 하지만 어차피 KITTI 데이터셋에서는 하늘 영역에 대해선 정답 데이터가 없고, 오히 려 sky depth loss를 사용하면서 정량적 점수 측면에서 불이익이 있을 수 있어서 다른 연구들과의 공평한 비 교를 위하여 제외하였다.

<Table 2>는 단안카메라 영상에 대해서 자기지도학습으로 KITTI 데이터셋으로 학습하고 (정답데이터 사 용 X, 스테레오 세팅 사용 X), KITTI 데이터셋의 공식적인 검증 데이터셋으로 평가한 결과이다. 참고로 Yang et al.(2019)과 Wong et al.(2021)의 학습에는 가상 생성 데이터가 추가적으로 사용되었다. 그리고 Wong et al.(2020)의 추론시간인 22ms는 순수 네트워크만의 추론속도이고, 네트워크 입력으로 들어가는 라이다 투영 맵에 Scaffolding이라는 전처리를 가해주어야 해서 추가적인 시간이 소요된다. Ma et al.(2019)와 Yang et al.(2019)의 추론시간은 KITTI 벤치마크 사이트에 올라온 수치이고, Wong et al.(2020)과 Wong et al.(2021)의 추론시간은 논문에 기록된 수치이다. 정확도를 나타내는 수치인 RMSE (Root Mean Square Error)와 MAE (Mean Absolute Error)는 낮을수록 좋은 값이며 아래의 식으로 계산된다.

\begin{array}{l} R M S E = \sqrt{\frac{1}{| Φ |} \sum_{x \in Φ} {({\hat{D}}_{t} (x) - D_{g t} (x))}^{2}} \\ M A E = \frac{1}{| Φ |} \sum_{x \in Φ} | {\hat{D}}_{t} (x) - D_{g t} (x) | \end{array}

(7)

<Table 2>

Performance comparision on KITTI validation set

여기서,

D_gt : 정답 깊이맵
Φ: 정답 깊이맵에서 깊이값이 존재하는 픽셀의 집합

실험에 사용된 GPU의 속도가 다른 연구들보다 높다는 점과 추론에 사용한 프로그램이 다름을 감안해야 하지만, 제시한 방법은 다른 논문들에 비해서 10배 이상 빠른 속도를 보여준다. 그러면서도 깊이추정의 정확 도를 나타내는 RMSE와 MAE의 수치가 최신논문(Wong et al., 2021)의 정확도에 거의 근접함을 보여준다.

기존 연구들과의 비교뿐 아니라 본 논문에서 제시한 학습기법 중 일부를 적용하지 않았을 때의 결과도 <Table 2>에 나타나 있다. “Ours w/o Outlier Removal”은 아웃라이어 점군에 의한 영향을 제거하는 역할을 하 는 가려진 점군 필터링과 robust lidar depth loss를 사용하지 않았을 때의 결과로 정확도가 많이 떨어짐을 확 인할 수 있다. “Ours w/o Semantic Edge”는 edge-aware smoothness loss를 구할 때 시맨틱 에지 대신 RGB값 변 화에 따른 단순한 에지를 사용한 결과로 약간의 성능 저하가 발생함을 확인할 수 있다. 앞에서 설명하였듯이 sky depth loss는 KITTI 데이터셋의 정량적 정확도를 증가시키는 요인은 아니므로 비교 분석에 포함되지 않 았다.

우리가 제시한 네트워크가 기존의 연구들에 비해 현격히 빠른 추론속도를 가지면서도 대등한 정확도를 보이는 이유를 분석해보고자 한다. 우선, 제시한 네트워크의 빠른 속도는 Ⅲ-2장에서 설명한 대로 GPU 연산 에 최적화된 경량의 RegNet 인코더의 사용과 병렬적인 네트워크 구성 덕분이다. 반면에 Ma et al.(2019)와 Yang et al.(2019)는 비교적 무거운 인코더를 사용하였고, Wong et al.(2020)와 Wong et al.(2021)의 네트워크는 라이다 투영맵을 전처리하는 단계를 포함하는 직렬적인 구성을 하고 있다. 또한, 영상과 라이다 입력을 처음 부터 퓨전한 Ma et al.(2019)를 제외한 나머지 세 개의 연구들은 영상 인코더와 라이다 인코더의 규모를 다르 게 설정하여 한쪽 인코더의 결과가 먼저 나오더라도 다른 쪽 인코더의 결과를 기다려야 하는 불균형한 구조 로 되어 있다.

이처럼 기존 연구들보다 낮은 복잡도의 네트워크를 사용하지만 높은 정확도를 유지할 수 있는 주요요인 은 Ⅲ장에서 제시한 학습기법들을 도입한 덕분이다. <Table 2>를 보면 아웃라이어 점군에 의한 영향을 제거 하기 위해 사용한 가려진 점군 필터링 기법과 robust lidar depth loss 기법이 정확도를 크게 향상시켰음을 확 인할 수 있다. 이러한 기법들은 네트워크가 신뢰할 수 없는 점군을 자체적으로 필터링할 수 있는 능력을 갖 추도록 학습시킨다. 즉, 비교적 높은 수준의 시맨틱을 추출하지 않더라도 입력 점군으로부터 신뢰할 수 있는 정보만을 골라 강하게 추종할 수 있으므로 네트워크의 복잡도를 낮추는 것이 가능하다. semantic edge-aware smoothness loss 기법 또한 약간의 성능 향상을 주는 것을 확인할 수 있다. 학습 과정에서 시맨틱 에지에 대 한 정보를 간접적으로 부여함으로써 학습된 네트워크는 불연속적인 깊이가 나타나는 물체의 가장자리에 대 한 처리를 더 정확히 할 수 있다. 제시한 기법들은 학습 과정에만 적용되고 네트워크의 구조를 바꾸지 않으 므로 네트워크 추론시간은 똑같이 유지된다.

3. 정성적 결과 분석

본 장에서는 ETRI 데이터셋으로 학습한 결과를 시각화하여 분석해본다. ETRI 데이터셋은 정답데이터가 존재하지 않으므로 정성적인 비교만 진행한다. 이전 장의 KITTI 데이터셋으로의 학습 때는 관련 연구들과의 공평한 비교를 위해 자기지도학습 과정에서 전/후 프레임만 영상합성의 소스 이미지로 활용하였다. 이번 장 에서는 다른 연구들과 비교를 하진 않으므로 전/후 프레임뿐 아니라 스테레오 프레임도 영상합성의 소스 이 미지로 활용하였다. 이는, ETRI 자율주행 시스템에서 사용한 OS1-64 라이다의 특성상 먼 거리의 물체에 대 한 반사 성능이 저조함을 고려한 것이다. 추가로 ETRI 데이터셋은 KITTI 데이터셋보다 높은 해상도(1280x 480)를 가지고 있어서 추론시간은 2.42ms가 나온다.

<Fig. 7>은 sky depth loss 기법을 적용했을 때와 하지 않았을 때의 차이를 보여준다. 자기지도학습의 특성 상 하늘 영역에 대한 먼 거리 학습이 어려운 점을 sky depth loss가 잘 해결해주는 것을 확인할 수 있다. sky depth loss 기법의 경우 하늘에 대한 깊이정답이 있을 순 없으므로 정량적 수치로는 효과가 나타나지 않는다. 하지만 sky depth loss를 적용하지 않으면 근거리의 영상 상단에 장애물이 나타나는 것으로 오인식 될 수 있 고 신호등이나 표지판 같은 상단 구조물에 대한 거리를 명확히 인식할 수 없을 것이기에, 실제 자율주행시스 템 적용을 위해선 필수적인 기법이다.

<Fig. 7>

without sky depth loss (bottom left) vs with sky depth loss (bottom right)

<Fig. 8>은 화면 전체적으로 라이다 노이즈가 발생하였다. 그리고 영상 시점에서는 차량에 가려진 위치의 라이다 점군이 차량 영역에 맺힌 상황이다. 학습 과정에서 가려진 라이다 점군 필터링 기법과 robust lidar depth loss 기법을 적용하지 않으면 <Fig. 8>의 중간 그림처럼 출력 깊이맵이 신뢰할 수 없는 라이다 점군을 심하게 추종하는 모습을 보여준다. <Fig. 8>의 오른쪽 그림에서는 라이다 점군 필터링과 robust lidar depth를 적용하여 문제가 사라진 모습을 보여준다. 이는, <Table 2>에서 해당 학습 기법을 적용하지 않았을 때 정량 적 정확도가 많이 떨어진 결과를 뒷받침 해준다.

<Fig. 8>

Effect of lidar occlusion filtering and robust lidar depth

<Fig. 9>는 ETRI 데이터셋의 검증 셋에서 깊이완성 결과를 몇 가지 보여준다. 가벼운 네트워크이지만 전 체적으로 정확하고 노이즈 없는 깊이맵을 출력하도록 잘 학습되었음을 확인할 수 있다. 마지막으로 <Fig. 10>은 학습에 사용되지 않은 Velodyne社의 VLP-16 라이다로 수집한 데이터에 대해 추정해 본 결과이다. VLP-16은 16채널 라이다로 학습에 사용한 OS1-64 라이다 입력보다 훨씬 희소하다. 우리가 학습한 모델은 처 음 접한 희소한 라이다 입력에 대해서도 좋은 일반화 성능을 보여줌을 확인할 수 있다.

<Fig. 9>

Result on ETRI dataset

<Fig. 10>

Results on unseen lidar (VLP-16) setting

Ⅴ. 결 론

본 연구는 실제 자율주행시스템에 탑재될 수 있는 RegNet 기반의 고속의 깊이완성 알고리즘을 구현하였 다. 정답데이터가 없는 다량의 주행데이터를 활용하고자 자기지도학습을 사용하였고, 경량 네트워크이지만 노이즈가 섞이거나 성긴 라이다 입력이 들어오는 어려운 환경에서도 정확도를 높이기 위해 학습 단계에서 다양한 기법들을 적용하였다. 신뢰할 수 없는 라이다 점군에 의한 학습 방해를 막고자 가려진 점군을 필터링 하고 아웃라이어에 강한 robust lidar depth loss를 도입하였다. 더 정확한 smoothness loss를 계산하고자 시맨틱 에지를 이용하였고, 자기지도학습이 잘 적용되지 않는 하늘 영역을 처리하고자 시맨틱 세그멘테이션 기반의 sky depth loss를 적용하였다. 그 결과 2.5ms 아래의 빠른 추론속도에 최신 연구들에 근접한 정확도를 가진 깊 이완성 네트워크를 만들 수 있었다.

향후에는 다양한 환경(ex. 밤, 우천)에 강인한 네트워크에 연구가 필요하다. 또, 동적객체, 유리재질과 같은 자기지도학습의 전제에 부합하지 않는 물체들에 대한 처리를 더 완벽하게 하는 방법을 찾을 필요가 있다.

ACKNOWLEDGEMENTS

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 21AMDP-C161756-01).

Figure

<Fig. 1>.

Example of KITTI dataset

<Fig. 2>.

Example of ETRI dataset

<Fig. 3>.

Our self-supervised learning framework

<Fig. 4>.

Lightweight depth completion network

<Fig. 5>.

Occlusion filtering for lidar projection (Left -> Right)

<Fig. 6>.

Simple edge (bottom left) vs Semantic edge (bottom right)

<Fig. 7>.

without sky depth loss (bottom left) vs with sky depth loss (bottom right)

<Fig. 8>.

Effect of lidar occlusion filtering and robust lidar depth

<Fig. 9>.

Result on ETRI dataset

<Fig. 10>.

Results on unseen lidar (VLP-16) setting

Table

<Table 1>.

Decoder of U-Net

<Table 2>.

Performance comparision on KITTI validation set

Reference

Acuna D. , Kar A. and Fidler S. (2019), “Devil Is in the Edges: Learning Semantic Boundaries From Noisy Annotations,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.11067-11075.
Cheng X. , Wang P. and Yang R. (2018), “Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network,” Proceedings of the European Conference on Computer Vision(ECCV).
Eigen D. , Puhrsch C. and Fergus R. (2014), “Depth Map Prediction from a Single Image using a Multi-Scale Deep Network,” 27^th International Conference on Neural Information Processing Systems(NIPS), pp.2366-2374.
Godard C. , Aodha O. M. , Firman M. and Brostow G. (2019), “Digging Into Self-Supervised Monocular Depth Estimation,” 2019 IEEE/CVF International Conference on Computer Vision(ICCV), pp.3827-3837.
Guizilini V. , Ambruș R. , Pillai S. , Raventos A. and Gaidon A. (2020), “3D Packing for Self-Supervised Monocular Depth Estimation,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.2482-2491.
Li A. , Yuan Z. , Ling Y. , Chi W. , Zhang S. and Zhang C. (2020), “A Multi-Scale Guided Cascade Hourglass Network for Depth Completion,” 2020 IEEE Winter Conference on Applications of Computer Vision(WACV), pp.32-40.
Ma F. and Karaman S. (2018), “Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image,” 2018 IEEE International Conference on Robotics and Automation(ICRA), pp.4796-4803.
Ma F. , Cavalheiro G. V. and Karaman S. (2019), “Self-Supervised Sparse-to-Dense: Self-Supervised Depth Completion from LiDAR and Monocular Camera,” 2019 International Conference on Robotics and Automation(ICRA), pp.3288-3295.
Radosavovic I. , Kosaraju R. P. , Girshick R. , He K. and Dollár P. (2020), “Designing Network Design Spaces,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.10425-10433.
Scharstein D. and Szeliski R. (2002), “A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms,” International Journal of Computer Vision, vol. 47, pp.7-42.
Wong A. , Cicek S. and Soatto S. (2021), “Learning Topology From Synthetic Data for Unsupervised Depth Completion,” In IEEE Robotics and Automation Letters, vol. 6, no. 2, pp.1495-1502.
Wong A. , Fei X. , Tsuei S. and Soatto S. (2020), “Unsupervised Depth Completion From Visual Inertial Odometry,” In IEEE Robotics and Automation Letters, vol. 5, no. 2, pp.1899-1906.
Yang Y. , Wong A. and Soatto S. (2019), “Dense Depth Posterior(DDP) From Single Image and Sparse Range,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.3348-3357.
Yuan Y. , Chen X. and Wang J. (2020), “Object-Contextual Representations for Semantic Segmentation,” Proceedings of the European Conference on Computer Vision(ECCV).
Zhou T. , Brown M. , Snavely N. and Lowe D. G. (2017), “Unsupervised Learning of Depth and Ego-Motion from Video,” 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.6612-6619.

SITE MAP

Efficient Self-supervised Learning Techniques for Lightweight Depth Completion

Abstract

경량 깊이완성기술을 위한 효율적인 자기지도학습 기법 연구

초록

Ⅰ. 서 론

1. 개요 및 선행 연구

<Fig. 1>

<Fig. 2>

2. 본 연구의 목적

Ⅱ. 데이터셋 소개

Ⅲ. 본 론

1. 깊이추정을 위한 자기지도학습 방법

<Fig. 3>

2. 경량 깊이완성 네트워크

<Fig. 4>

<Table 1>

3. 가려진 점군 필터링

<Fig. 5>

4. Robust lidar depth loss

5. Semantic edge-aware smoothness loss

<Fig. 6>

6. Sky depth loss

7. Photometric loss

8. Total loss

Ⅳ. 실 험

1. 학습방법

2. 정량적 결과 분석

<Table 2>

3. 정성적 결과 분석

<Fig. 7>

<Fig. 8>

<Fig. 9>

<Fig. 10>

Ⅴ. 결 론

ACKNOWLEDGEMENTS

Figure

Table

Reference

저자소개

Footnote

AUTHOR CHECK LIST

COPYRIGHT TRANSFER AND RESEARCH ETHICS FORM

ADOBE ACROBAT READER