Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.20 No.2 pp.95-111
DOI : https://doi.org/10.12815/kits.2021.20.2.95

Detection Algorithm of Road Damage and Obstacle Based on Joint Deep Learning for Driving Safety

Seungbo Shim*, Jae-Jin Jeong**
*Korea Institute of Civil Engineering and Building Technology
**Daegu, Catholic University, Department of Electronic & Electrical Engineering
Corresponding author : Seungbo Shim, seungboshim@kict.re.kr
4 February 2021 │ 17 February 2021 │ 2 March 2021

Abstract


As the population decreases in an aging society, the average age of drivers increases. Accordingly, the elderly at high risk of being in an accident need autonomous-driving vehicles. In order to secure driving safety on the road, several technologies to respond to various obstacles are required in those vehicles. Among them, technology is required to recognize static obstacles, such as poor road conditions, as well as dynamic obstacles, such as vehicles, bicycles, and people, that may be encountered while driving. In this study, we propose a deep neural network algorithm capable of simultaneously detecting these two types of obstacle. For this algorithm, we used 1,418 road images and produced annotation data that marks seven categories of dynamic obstacles and labels images to indicate road damage. As a result of training, dynamic obstacles were detected with an average accuracy of 46.22%, and road surface damage was detected with a mean intersection over union of 74.71%. In addition, the average elapsed time required to process a single image is 89ms, and this algorithm is suitable for personal mobility vehicles that are slower than ordinary vehicles. In the future, it is expected that driving safety with personal mobility vehicles will be improved by utilizing technology that detects road obstacles.



주행 안전을 위한 joint deep learning 기반의 도로 노면 파손 및 장애물 탐지 알고리즘

심 승 보*, 정 재 진**
*주저자 및 교신저자 : 한국건설기술연구원 인프라안전연구본부 전임연구원
**공저자 : 대구가톨릭대학교 전자전기공학부 조교수

초록


인구의 감소 및 고령화 사회가 진행되면서 운전자의 평균 연령은 높아지게 된다. 그에 따라 잠재적인 사고의 위험성이 높은 고령 운전자들은 자율 주행형 개인 이동체가 필요하게 된다. 이러한 이동체가 도로 주행 중에 안전성을 확보하기 위하여 여러 장애물에 대응할 기술이 요 구된다. 그 중에서도 주행 중에 마주할 수 있는 차량, 자전거, 사람과 같은 동적 장애물뿐만 아니라 도로 노면의 불량 상태와 같은 정적 장애물을 인식하는 기술이 가장 우선적으로 필요 하다. 이를 위해서 본 논문에서는 두 종류의 장애물을 동시에 탐지할 수 있는 심층 신경망 알 고리즘을 제안했다. 이 알고리즘을 개발하기 위해서 1,418장의 영상을 이용하여 7종의 동적 장 애물에 표기한 annotation data와 도로 노면 파손을 표시한 label 영상을 확보했다. 이를 이용하 여 학습한 결과, 46.22%의 평균 정확도로 동적 장애물을 탐지하고 74.71%의 mean intersection over union으로 도로 노면 파손을 탐지했다. 또한 한 장의 영상을 처리하는데 평균 소요시간은 89ms로 일반 차량보다 느린 개인 이동 차량에 사용하기 적합한 알고리즘을 개발했다. 향후 주 행 중 마주할 있는 도로 장애물을 탐지하는 기술을 활용하여 개인 이동 차량의 주행 안전성이 향상되길 기대한다.



    Ⅰ. 서 론

    1. 고령화 사회에 따른 개인 이동 수단의 기술 동향

    미래의 교통수단은 다양한 형태를 이루게 될 것으로 예상된다. 그 중에서도 최근 활발하게 보급이 이뤄지 고 있는 개인 이동 차량이 새로운 교통수단으로 자리매김을 할 것으로 예상된다. 특히 고령화 사회로 진입하 고 있는 미래에는 노약자와 장애인에게는 필수적인 교통수단이 될 것이다. 하지만 일반적으로 고령자들은 젊은 사람에 비해 상대적으로 장애물 인지 능력이 떨어지기 때문에 운전을 하는데 어려움을 많이 겪는다 (Borowsky et al., 2010). 게다가 충돌 사고의 경우 대다수가 운전자의 과실로 인해 발생한다는 점을 고려했을 때, 고령 운전자들은 젊은 운전자들에 비해 큰 위험에 노출되어 있다 (Singh, 2015). 따라서 그들은 직접적인 운전을 시도하기보다는 자율 주행형 차량에 의존하게 될 것이며 이는 더 많은 수요를 발생시킬 것이다. 이러 한 가운데 자율형 이동 차량은 크기가 작고 보관도 간편하며 비용도 저렴하므로 일반적인 자율 주행차에 비 해 선호도가 높을 것이다 (Tinnila and Kalli, 2015). 그리고 이는 교통 약자들에게 적극적인 사회 활동을 할 수 있는 발판이 되어주고 더 나아가 독립적인 삶을 영위할 수 있는 기반을 마련하게 할 것이다.

    이뿐만 아니라 개인 이동 수단은 대중 교통 인프라가 부족한 지역에서 대체 수단으로써 역할을 수행할 것 이다. 미래에는 젊은 층이 감소하면서 생산 활동 인구는 현저히 줄어들게 될 것이다. 가장 대표적인 예로 들 수 있는 국가는 일본으로 현재 유례없는 고령화 사회에 접어들었다 (Nakane and Farevaag, 2004;Muramatsu and Akiyama, 2011). 이 같은 현상은 특히 교외 지역으로 갈수록 더욱 심해지는데, 그에 따라 교통 인프라 시 설 또한 지속적으로 부족해지는 현상이 일어나게 된다. 이러한 문제에 대한 해결책으로 가격이 비교적 저렴 한 개인 이동 차량이 새로운 교통수단으로서의 대안이 될 수 있다. 하지만 이와 같은 개인 이동 차량은 앞서 언급한 바와 같이 고령자와 같이 빠른 조향 제어와 정확한 판단이 어려운 사람들에게는 여전히 큰 위험요소 로 작용한다. 이러한 위험요소를 경감시키기 위해 각종 센서가 장착되어 환경을 인식하고 제어하는 자동화 된 기술 개발이 필요하게 된다 (Argyros et al., 2002;Kobayashi et al., 2009).

    최근 들어 자율 주행 분야의 다른 기술들과 마찬가지로 센서 분야의 기술은 눈부신 발전을 이루고 있다. 이는 안전한 주행을 위한 차량 주변 환경 인식 기술이 그만큼 중요하고 필요하기 때문이다. 이는 개인 이동 차량에서도 마찬가지다. 안전하게 자율 주행이 가능하기 위해서는 우선적으로 첨단 센서를 이용한 주행 관 련 장애물 인식 기술이 개발되어야 한다 (Ilas, 2013). 도로 주행 상에서 가장 대표적인 장애물로 볼 수 있는 대상은 차량, 사람, 자전거, 오토바이 등이다. 그리고 이런 대상을 인식하여 그에 대응하는 제어를 수행함으 로써 차량 사고를 예방할 수 있게 된다. 이 같이 움직임이 활발한 동적 장애물들과 달리 도로 노면에서 피해 야 할 장애물이 있다. 주로 도로 낙하물, 노면 파손 등과 같은 대상으로 도로 인프라와 연관된 정적 장애물 이다. 특히 포트홀과 거북등 균열과 같은 도로 노면 파손은 개인 이동 차량의 주행에 영향을 미친다. 이는 바퀴의 직경이 일반 차량에 비해 작아 도로 노면 상태에 따라 운전자가 받게 되는 영향이 큰데, 고령자와 장 애인이 운전하는 경우 그 정도가 심할 수 있다. 따라서 일반 차량도 노면 상태에 따라 사고가 발생하는 상황 (Madli et al., 2015)에서 소형의 개인 이동 차량은 더 큰 사고의 위험에 노출되어 있어 도로 노면 상태를 실시 간으로 인식할 수 있는 기술이 더 절실히 필요하다.

    최근 들어서 인공 지능을 활용한 객체 인식 (object detection) 기술이 자율 주행 분야 (Fayyad et al., 2020)에 서 활발히 연구되어 있다. 하지만 이들은 대부분은 동적 장애물을 탐지하는 것에 주력하는데, 이는 자율 주 행을 수행함에 있어서 도로 노면은 주행을 위해 항상 완벽한 상태를 유지하고 있다고 가정하기 때문이다. 그 래서 지금까지 개발된 자율 주행 분야의 연구는 도로 영역만을 탐지하는 것에 그쳤다 (Chen et al., 2018;Feng et al., 2020). 하지만 현실적으로 도로 노면 상태는 파손이 존재할 수밖에 없으며 이러한 불량 노면은 주행에 큰 영향을 미칠 수 있다. 그리고 이는 개인 이동 차량에서 더욱 민감하게 작용할 수 있다. 특히 운전 능력이 떨어지는 노약자들이 개인 이동 차량을 운행할 경우, 그들은 주변에 지나가는 차량, 사람, 자전거의 충돌뿐만 아니라 도로 불량 노면에 따른 전도 사고에도 쉽게 노출된다. 이와 같은 사고를 예방하기 위해서 두 종류의 장애물을 동시 탐지하는 센서 기술을 개인 이동 차량에 설치하여 노약자들이 안전하게 주행할 수 있도록 보조하는 기술이 필요하다. 따라서 본 논문에서는 자율 주행형 개인 이동 차량이 도로 주행 중에 마 주할 수 있는 동적 장애물뿐만 아니라 도로 노면 불량 상태까지 동시에 탐지할 수 있는 영상 기반의 인공 지능 기술을 제안하고자 한다.

    본 논문에서 제안하는 기술에 대한 기여도는 다음과 같다. 첫째, 독자적인 학습 데이터 세트를 확보했다. 즉 의미론적 분할과 동시에 객체 인식을 동시 학습할 수 있는 데이터 세트를 확보하여 학습과 검증을 동시 에 할 수 있도록 했다. 둘째는 자율 주행 분야에서 사용하는 객체 인식 알고리즘과 연결되어 도로 노면 파손 탐지를 동시에 수행할 수 있는 구조를 제안한 점이다. 간단한 구조를 기존의 객체 인식 심층 신경망 구조와 결합하여 multi-tasking 기반의 알고리즘을 개발했다. 끝으로 객체 인식과 도로 노면 파손을 동시에 탐지함에 도 불구하고 실시간으로 알고리즘이 수행된다는 점이 있다. 이러한 3가지 항목을 고려하여 Sistu et al.(2019) 과 같이 두 가지 기능을 동시에 학습하고 수행할 수 있는 joint deep learning을 개발했다.

    2. Related Researches

    주행 중에 접할 수 있는 장애물을 탐지할 수 있는 방법은 영상을 이용하는 방식이다. 이와 같은 연구는 딥 러닝의 등장으로 무수히 많은 연구가 수행되고 있다. 이들은 크게 two-stage 구조와 one-stage 구조로 구분된 다. two-stage 구조로 된 객체 인식 기술은 Fast R-CNN(Girshick, 2015), Faster R-CNN(Ren et al., 2015), Mask R-CNN (He et al., 2017) 등이 있다. 이들은 backbone network에서 대상에 대한 의미 있는 feature를 생성하고 다음으로 대상이 있을 수 있는 영역에 대한 후보군을 설정한다. 그리고 마지막으로 이 후보들 가운데 목표로 하는 대상을 선택하는 방식을 사용한다. 이에 반해 one-stage 구조로 객체 인식을 하는 기술로는 SSD (Liu et al., 2016), YoloV3 (Redmon and Farhadi, 2018), RefineDet (Zhang et al., 2018), M2Det (Zhao et al., 2019) 등이 있다. 이들은 대상이 있을 것으로 예상되는 후보 영역을 생성하는 것과 객체의 영역을 결정하는 단계를 하나 로 하여 연산 속도를 높이는데 주안점을 두었다. 이들은 공통적으로 합성곱 연산이 적용된 많은 수의 신경망 층으로 구성된 backbone network에서 feature를 추출하는 단계를 가지고 있다. 이는 합성곱 연산이 foreground 와 background의 차이를 명확히 구분할 수 있다고 가정하기 때문이다. 합성곱 연산과 비선형 활성화 함수로 각각의 신경망 층과 연결되고 그 깊이가 깊어질수록 의미 있는 feature를 생성한다. 그리고 이렇게 얻은 정보 를 바탕으로 여러 방법을 적용하여 영상 내에서 객체의 위치와 종류를 결정하게 된다.

    지금까지는 하나의 입력 영상에서 심층 신경망의 구조에 따른 다양한 알고리즘을 소개했다. 다음으로 스 테레오 영상을 입력으로 하여 장애물 탐지는 물론 3차원 정보까지 구하는 기술에 대하여 서술하고자 한다. Li et al.(2019)는 Faster R-CNN (Ren et al., 2015)를 활용한 알고리즘은 좌우 영상에 모두에서 feature를 추출하 고 region proposal network를 통해 객체가 있을 수 있는 후보군을 확보한다. 다음으로 stereo regression block을 추가하여 3차원 box를 추정하는 방법을 제안했다. Li and Qin.(2018)은 2D 객체 인식을 활용하여 경량화된 3 차원 객체 인식 기법과 spatial and temporal information을 이용하여 객체 추적 기법을 제안했다. Chen et al.(2017)은 stereo vision을 이용하여 3D object proposal generation을 하는데 에너지 최소화 기법을 적용했다. 그리고 이렇게 생성된 정보는 객체의 자세와 2차원 bounding box를 추정하는데 활용하는 방법을 소개했다.

    지금까지 살펴본 주행 환경 인식 기술들은 자율 주행 차량에서 활용할 것을 목적으로 하고 있다. 이는 도 로 위에서 동적인 움직임을 가진 객체에 대한 인식으로 주행 차량과 충돌을 예방하기 위한 기술로 볼 수 있 다. 이 같은 동적 대상물은 형태가 일정하여 bounding box 형태로 탐지가 가능하다. 하지만 도로 노면 파손은 그 형태가 일정하지 않아 bounding box 형태로 탐지할 경우 정상 도로 노면 영역까지 포함된다. 따라서 도로 노면 파손을 화소 단위로 탐지하는 segmentation 방식이 더 정확하다. 그렇기 때문에 객체 인식 기술로 도로 노면 파손을 탐지하게 되면 정확도가 떨어지게 된다. 이는 노면 상태에 따라 큰 영향을 받는 개인 이동 차량 과 같은 경량 이동체의 주행 안전성을 떨어뜨리는 요인이 된다.

    포트홀과 같은 도로 노면의 파손은 운전자의 조향 제어에 심각한 영향을 미친다. 도로 노면 파손이 영향 을 미치는 정도는 다양하겠지만, 차량의 타이어가 폭보다 큰 파손을 마주할 경우 교통사고의 원인이 될 수 있다. 이 같은 도로 노면 파손의 원인은 기후와 기온 차에 의한 자연적인 요인과 지속적인 사용으로 인한 노 후화에서 기인한 것이다. 원인이 이렇다 보니 현실적으로 도로 노면 파손을 원천적으로 막는 것은 현실적으 로 불가능하며 신속한 보수를 위한 유지관리 기술에 관심을 가지게 된다. 그 중에서도 영상을 이용한 도로 노면 파손을 탐지하는 연구가 지속적으로 수행되어 왔다. Koch and Brilakis(2011)의 연구는 포트홀 탐지를 위 해 각종 영상처리 기법을 사용한 것으로 히스토그램 정보와 파손 영역의 기하학적 정보를 활용했다. 뿐만 아니라 형태학적인 영상 처리 기법과 아스팔트 재질 정보를 이용하여 인식 알고리즘 개발을 개발했다. 또, Buza et al. (2013)은 그레이 영상으로부터 추출한 히스토그램 정보를 활용한 spectral clustering 방식을 사용했 다. 그리고 총 9단계의 순차적인 특징기반의 방법을 사용하여 포트홀을 탐지하는 알고리즘을 제안했다. Jo et al.(2016)은 순차적인 규칙 기반의 알고리즘을 사용하여 포트홀을 탐지하는 연구를 제안했다. 그는 이진영상 을 생성하고 차선을 인식한 후 차선 내부에서 존재하는 객체들에 여러 필터를 적용하여 도로 노면 파손을 탐지했다.

    이와 같은 영상을 이용한 도로 노면 탐지 분야에도 deep learning과 융합을 통한 연구들이 나타나기 시작 했다. Jenkins et al.(2018)이 제안하는 알고리즘은 auto-encoder 방식을 기본으로 하는 U-net (Ronneberger et al., 2015)을 사용한다. 그는 crack forest dataset (Shi et al., 2016)에서 제공하는 데이터를 사용했고, 총 80장의 영 상으로 학습을 수행하였으며 20장의 영상으로 검증했다. 그 결과 92.46%의 정확도, 82.82%의 재현율 그리고 87.38%의 F1-Score를 보여주었다. Zou et al.(2019)은 DeepCrack이라는 알고리즘을 제안했다. 이 알고리즘의 특징은 encoder와 decoder 단계 사이에 skip-layer를 사용하여 스케일 마다 가중치가 업데이트되도록 심층 신 경망을 설계했다는 점을 특징으로 했다. Bang et al.(2019)은 블랙박스 카메라를 통해 수집한 영상으로 auto-encoder 형태의 심층 신경망 알고리즘을 제안했다. 학습을 위해 Full HD 영상에서 균열 영역을 표시하여 427장의 학습용 영상과 100장의 테스트 영상을 확보했다. 이를 활용하여 전이 학습 기반의 학습을 수행했고, 그 결과 77.68%의 평균 정확도를 나타냈다.

    그러나 이러한 영상을 이용한 도로 노면 파손 탐지는 인프라 유지관리를 위한 목적으로 기술이 발전해온 관계로 실시간 탐지에 대한 수요가 부족했다. 따라서 자율 주행 분야에 적용하기 위해서는 연산 속도에 대한 향상이 필요할 것으로 보인다.

    Ⅱ. 도로 장애물 탐지를 위한 학습 데이터의 구성

    1. 도로 장애물 대상

    본 논문에서 사용한 총 영상의 수는 1,418장이다. 이는 모두 Maeda et al.(2018)가 제공한 데이터를 사용하 였다. 이는 모바일 카메라로 촬영된 것으로 향후 개인 이동 차량에도 이와 유사한 카메라가 사용될 것을 고 려했을 때 학습용으로 사용하기에 가장 적합한 입력 영상이다. 그러나 동일한 입력 영상이라고 하여도 사용 목적에 따라 데이터의 구성은 차이를 갖는다. Maeda et al.(2018)는 도로 균열을 여러 종류로 구분하여 탐지 하기 위해 학습용 데이터를 구성하였으나 본 논문에서는 파손 여부로 판별하기 위해 데이터를 구성하였다. Maeda et al.(2018)는 유지관리를 위해서 보수의 우선 순위를 결정해야 하므로 여러 종류로 classification을 할 필요가 있었다. 하지만 본 논문의 목적은 도로 파손의 보수가 아닌 회피다. 따라서 빠른 연산 속도를 고려해 야 하므로 단순한 형태로 학습용 데이터를 구성하였다. Maeda el al.(2018)가 제공하는 영상은 일본의 7개 지 역으로부터 촬영한 영상들이고 label data를 확보하기 위해 bounding box 형태로 annotation 되어 있다. 하지만 본 논문에서는 <Fig. 1(a)>과 같이 도로 파손이 있는 원본 영상들 가운데 1,418장을 선별하였고 ground truth는 <Fig. 1(b)>과 같이 segmentation을 위해 label image를 사용하였다.

    <Fig. 1>

    Image dataset

    KITS-20-2-95_F1.gif

    전동 휠체어가 도로 주행 중 마주할 수 있는 장애물은 자동차, 트럭, 버스, 자전거, 오토바이, 사람, 신호등 으로 가정하였다. 이들은 도로 주변에 고정적으로 설치된 장애물이 아니라 동적인 이동이 가능한 객체로 주 행 중에 잠재적 위험 요소로 볼 수 있다. 본 논문에서 이러한 위험 요소를 탐지하기 위해서 본 논문에서 <Fig. 1(c)>과 같은 annotated data를 추가하였다. 앞서 선별한 영상에서 7가지의 동적 장애물에 대해서 bounding box 형태의 annotation 작업을 수행했다. 그리고 이와 같은 작업을 1,418장의 영상에 반복하였다. 그 결과 segmentation과 object detection을 동시에 수행할 수 있는 독자적인 학습용 데이터 세트를 확보하였다.

    2. Data augmentation

    학습 데이터의 다양성을 확보하기 위해 3가지 기법으로 입력 영상을 augmentation했다. 첫 번째 기법은 영 상의 brightness를 조정하였다. 주행 중에는 날씨의 상황에 따라 조도가 변경될 수 있어 이 점을 고려했다. 두 번째는 입력 영상에 임의의 blur 효과를 넣었다. 렌즈의 심도가 낮을 경우 주행 거리를 모두 감당하기에는 초점의 범위가 짧다. 이는 인식 성능에 큰 영향을 미치므로 이 점을 학습 과정에서 고려하였다. 끝으로 조도 의 변화에 대한 인식 성능의 민감도를 낮추기 위해서 contrast normalization을 최종적으로 사용했다. 본 논문 에서는 다양하게 변형된 입력 영상을 확보하기 위해서 3가지 기법을 임의의 조합방식으로 중첩하여 사용하 였다. 3가지의 기법으로 가질 수 있는 조합은 총 8가지로 <Fig. 2>와 같고 이 중 하나의 영상이 1/8의 확률로 선택되어 학습의 입력 영상으로 사용된다.

    <Fig. 2>

    Image augmentation for segmentation

    KITS-20-2-95_F2.gif

    Ⅲ. 도로 노면 위험 상태 인식 심층 신경망

    1. M2Det 활용한 객체 인식 심층 신경망 (Zhao et al., 2019)

    M2Det은 multilevel and multiscale detection의 뜻으로 객체 인식을 위해 다양한 수준의 feature와 다양한 크 기의 영상을 활용한다는 의미다. 측정하려는 대상은 대상의 촬영 거리에 따라 영상 내에서 크기가 달라진다. 이를 해결하기 위해서 입력 영상의 크기를 달리하여 학습을 수행한다. 그리고 측정 대상의 형상과 context에 따라 feature의 복잡도 또한 달라진다. 예를 들어 신호등의 경우 대부분의 형태는 서로 유사하지만 사람의 경 우 연령이나 착용한 의상 등에 따라 형태와 context가 매우 다양해진다. 이를 해결하기 위해 다양한 수준의 feature가 필요하다. 이 두 가지 요구사항을 만족시키기 위해서 multiscale과 multilevel 방식을 모두 적용한 MD2Det를 사용하였다.

    M2Det에서 사용한 Multilevel Feature Pyramid Network (MLFPN)은 <Fig. 3>과 같다. 이는 크게 3가지 모듈 로 구성되는데, Feature Fusion Module (FFM), Thinned U-shape Module (TUM), Scale-wise Feature Aggregation Module (SFAM)이 되겠다. FFM은 feature를 통합하는 기능으로 예를 들어 backbone network에서 추출한 feature를 동일한 크기로 변경하여 base feature로 통합하는 역할을 수행한다. TUM은 auto-encoder 형태로 다양 한 크기의 객체 인식을 위해 의미 있는 feature를 생성하는 역할을 수행한다. 끝으로 SFAM은 TUM에서 생성 된 feature를 통합하여 다양한 level의 feature pyramid를 생성한 후에 classification과 localization을 위한 정보를 제공한다.

    <Fig. 3>

    Proposed network structure for joint deep learning

    KITS-20-2-95_F3.gif

    2. Semantic segmentation network structure

    본 논문에서는 <Fig. 3>과 같이 segmentation을 위해 hierarchical feature를 사용한다. 이는 단계별로 생성되 는 여러 크기의 feature를 사용하는 방식이다. 도로 균열이 있는 영상이 입력으로 들어왔을 때, backbone network을 통과한다. M2Det은 backbone network로 VGG16를 사용한다. 그 결과 총 4단계에 걸쳐서 backbone block (B block)으로 구성되고 각각은 auto-encoder (AE) block으로 연결된다. 하나의 B block은 그 크기가 절 반씩 줄어들어 다음 B block으로 이어진다. 따라서 B block은 단계가 지나면서 출력의 크기가 [576×576, 288×288, 144×144, 72×72]와 같이 변하게 된다. 다음으로 AE block의 입력으로 사용될 경우, 그 출력의 크기 는 입력의 크기와 동일하다. 다만 입력의 채널 수와 관계없이 최종 출력의 채널 수는 2로 파손 영역과 정상 영역으로 구분할 수 있도록 하였다. 끝으로 AE block의 출력은 576×576로 up-sample이 되어 출력인 sub-output이 된다. 총 4개의 sub-output은 average operation을 거쳐 softmax 함수를 적용한 후 모두 0과 1로 normalization이 된 값이 되도록 한다. 그리고 두 번째 채널의 값이 0.5보다 큰 위치는 도로 노면 파손이 존재 하는 것으로 간주한다.

    본 논문에서는 backbone network에서 생성된 feature를 AE block의 입력으로 사용된다. AE block은 입력이 들어왔을 때 먼저 <Fig. 4>와 같이 convolution - batch normalization – rectifier linear unit (Conv-BN-ReLU) 연 산과정을 거친다. 이때 kernel size는 7×7로, padding은 3으로 하여 연산 과정에서 크기를 동일하게 유지한다. 다음으로 2개의 encoder block과 decoder block으로 구성된 심층 신경망을 사용한다. encoder block의 경우 skip connection을 포함한 residual network와 down sample 합성곱 연산을 포함한 residual network로 구분된다 (He et al., 2016). 전자는 입력 정보가 합성곱 연산 후에 소실되는 것을 줄이기 위해서 마지막 활성화 함수 전에 입 력정보의 가중치 값을 더하는 skip connection을 사용한 심층 신경망이다. 후자는 최초의 합성곱 연산에서 stride를 2로 설정하여 크기를 절반으로 줄이는데, 입력 정보도 kernel size가 1×1인 또 다른 합성곱 연산을 통 해 크기를 줄여 가중치 값을 더하는 심층 신경망이다. 이 encoder block을 한번 지날 때마다 feature의 크기는 절반으로 줄어들게 된다. 그리고 이를 2차례 반복하게 되어 크기는 4분의 1이 된다. 이렇게 줄어든 feature를 복원하기 위해 decoder block을 사용하였다. decoder block의 경우 두 개의 decoder network로 구성된다. 이 network는 앞선 block에서 줄어든 크기를 원래대로 복원하는 과정이 주된 역할로, 본 논문에서는 transposed convolution 연산을 사용하였다 (Dumoulin et al., 2016). 이 연산을 수행하면 feature의 크기는 2배가 된다. 그리 고 이를 2차례 반복하여 원래의 입력 크기로 만든다. 끝으로 마지막 신경망에 Conv-BN-ReLU를 연산으로 붙 여서 마지막 출력 채널의 수가 2가 되도록 한다. 그 결과 최종적으로 5단계의 연산을 통해 생성되는 feature 의 채널수는 [64, 128, 64, 32, 2]와 같이 된다.

    <Fig. 4>

    Auto-encoder block structure

    KITS-20-2-95_F4.gif

    3. 손실 함수

    본 논문에서 제안하는 segmentation의 심층 신경망의 가중치를 업데이트하기 위해서 Eq. 1과 같은 손실함 수를 사용한다. i는 화소의 위치를 나타내고 s는 심층 신경망의 output 단계로 1, 2, 3, 4로 표현된다. N은 sub-output의 크기를 나타내는 것으로 576×576이다. ys,is단계에서 i위치의 label 값으로 0 또는 1이 되고 P(ys,i)는 동일 위치에서 prediction 확률 값이 된다. hierarchical feature로부터 얻은 여러 개의 sub-output에 cross-entropy의 손실함수를 적용 후 그 값을 summation하는 방법을 사용하였다.

    l o s s = s = 1 4 C E ( s ) C E ( s ) = 1 N i = 0 N y s , i log ( ( P ( y s , i ) ) + ( 1 y s , i ) log ( 1 P ( y s , i ) )
    Eq. (1)

    다음으로 본 논문에서 사용하는 object detection의 심층 신경망의 가중치를 업데이트하기 위해 Liu et al.(2016)이 사용한 손실함수를 사용한다. 그들이 제안한 손실함수는 다양한 비율을 가진 candidate bounding box에서 탐지하고자 하는 객체를 포함하고 있는 bounding box를 선택하는 것을 목표로 한다. 그렇기 때문에 M2Det 또한 수만개의 candidate bounding box를 생성하고 이들을 ground truth bounding box와 비교하여 그 차 이가 가장 작은 적은 bounding box를 선택하도록 학습한다. 이때 차이를 나타내는 지표를 손실함수로 사용하 는데, 그 식은 Eq. 2와 같이 정의한다. 이 식에서 Lconf는 탐지하려는 객체의 종류를 결정하는 역할을 수행하 고, Lloc는 영상 내에서 객체의 위치를 결정하는 역할을 수행한다. x p i , j i번째 candidate bounding box와 j번 째 p종류를 나타내는 ground truth bounding box의 중첩도가 50%이상인 경우 1이라고 하고, 그 외에는 0이 된 다. candidate bounding box들 가운데 중첩도가 50% 이상인 box들은 Pos라고 하고 그 외 box는 Neg라고 한 다. 그리고 Pos에 포함된 box들의 수를 N이라고 한다. c는 객체의 종류를 추정한 확률 값이다. l은 영상 내 의 객체의 위치를 추정한 값을 의미하며, g는 영상 내에 실제 객체의 위치를 나타낸다.

    L ( x , c , l , g ) = 1 N ( L c o n f ( x , c ) + α L l o c ( x , l , g ) )
    Eq. (2)

    Lloc에 대해 자세히 설명하면 그 식은 Eq. 3과 같이 정의된다. cx, cy는 bounding box (d)의 센터 화소 좌표 이고, w, h는 너비와 높이를 나타낸다. 그리고 g는 ground truth bounding box를 의미한다. 그 결과 l m i g m j 의 차이를 모두 합하여 얻은 값을 손실 함수 값으로 사용한다.

    L l o c ( x , l , g ) = Σ N i [ P o s ] Σ m [ c x , c y , w , ] x k i , j s m o o t h L 1 ( l m i g m ^ j ) g c x ^ j = ( g c x j d c x i ) / d w i g c y ^ j = ( g c y j d c y i ) / d h i g w ^ j = log ( g w j d w i ) g h ^ j = log ( g h j d h i )
    Eq. (3)

    Lconf은 Eq. 4와 같이 정의된다. Pos에 해당하는 bounding box들에 대한 확률 값과 Neg에 해당하는 bounding box들에 대한 확률 값을 가리킨다. 전자에 해당하는 항은 bounding box 안에 탐지하고자 하는 대상 을 포함하고 있을 때, 높은 확률 값을 나타낸다. 반면에 후자에 해당하는 항은 bounding box에 탐지하고자 하 는 대상이 없을 경우에 높은 확률 값을 얻을 수 있다. 결론적으로 이 두 항의 합으로 객체의 종류를 추정하 는 손실 값을 얻을 수 있다.

    L c o n f ( x , c ) = Σ N i [ P o s ] x p i , j log ( c p ^ i ) Σ i [ N e g ] log ( c 0 ^ i ) w h e r e c p ^ i = exp ( c p i ) p exp ( c p i )
    Eq. (4)

    4. 학습 조건

    도로에서 마주할 수 있는 동적 또는 정적 장애물을 탐지하기 위한 심층 신경망을 학습하기 위해 전체 데 이터 중에 1,218장은 학습용으로 사용하였고, 200장은 검증용으로 사용하였다. 그리고 최적화 함수는 ADAM 을 동일하게 적용하였다 (Kingma and Ba, 2015). 그리고 이 함수에서 사용한 매개변수로 learning rate는 0.001, beta-1은 0.9, beta-2는 0.999로 설정하였다. 학습을 수행하기에 앞서 가중치의 초깃값은 모두 Xavier로 설정하 였다 (Glorot and Bengio, 2010). batch의 크기는 14로 설정하여 총 2,000회의 Epoch를 진행하는 동안 가장 성 능이 좋은 모델을 선정하였다. 알고리즘의 구현은 Ubuntu 18.04 기반의 Pytorch를 사용하였고, 개발용 PC의 사양은 Intel Xeon Gold 6226R, 128GB RAM, NVIDIA Quadro RTX 8000이 되겠다.

    Ⅳ. 실험 결과 및 분석

    1. 인식 성능 평가 방법

    본 논문에서 제안하는 방식을 3가지 측면에서 비교하고자 한다. 첫째, 동적 장애물에 대한 인식 성능이다. M2Det을 인식 방식을 그대로 사용은 하지만, 학습에 사용한 데이터 세트는 다르고 더욱이 도로 노면 파손 탐지하기 위한 심층 신경망을 추가로 사용하였다. 이런 이유로 본 논문에서 Zhao et al.(2019) 공개한 심층 신 경망의 가중치를 그대로 사용한 결과를 살펴본다. 그들은 사전에 학습된 모델을 공개하였고, 이를 활용하여 본 논문에서 사용하는 테스트 데이터 세트에 적용하였다. 그리고 이 결과를 대조군을 설정하였다. 다음으로 본 논문에서 확보한 학습용 데이터 세트 1,218장을 사용하여 학습하여 얻은 모델을 테스트 데이터 세트에 적 용하여 그 성능을 확인했다. 그리고 이 두 결과를 비교하여 본 연구에서 제안한 방식에 따른 인식 성능 변화 를 관찰하였다.

    둘째, 도로 노면 파손의 탐지 성능이다. 본 논문에서 제안하는 심층 신경망의 목적은 동적 장애물뿐만 아 니라 정적 장애물 또한 정확히 탐지하는 것이다. 그리고 정적 장애물 가운데 하나의 도로 노면 파손을 인식 하기 위해 학습을 수행하였다. 따라서 학습된 모델의 성능을 확인하기 위해 테스트 데이터 세트에 적용하여 도로 노면 상태 탐지 정확도를 파악하고자 한다.

    셋째, 연산 시간을 측정하여 비교한다. 객체 인식 알고리즘은 자율 주행 차량에 적용하는 것을 목표로 하 기 때문에 실시간 탐지가 중요하다. 이와 같은 알고리즘에 본 연구에서 도로 노면 파손을 탐지하는 기능을 추가하였다. 늘어난 계산량으로 인해 늘어난 연산 시간을 비교하였다.

    평가지표 또한 세 가지를 사용한다. 동적 장애물 인식 성능 지표, 도로 노면 파손 탐지 성능 지표, 그리고 연산 시간이다. 우선 동적 장애물을 평가하기 위해서 각 객체별로 average precision (AP)을 계산하였다. 이는 객체의 탐지 정확도를 나타내는 지표로 사용된다. 그리고 각 객체들이 갖는 AP 값의 평균을 구하여 모델의 인식 성능의 대표적인 지표로 mean AP (mAP)를 사용한다.

    도로 노면 파손 상태를 탐지하는 심층 신경망의 성능을 비교하기 위해서 본 논문에서는 4가지의 지표를 사용한다. 그것은 우선 화소 단위의 정확도를 측정할 수 있는 pixel accuracy (p-Acc.)이고, 중첩 평균 정확도 를 나타내는 mean IoU (m-IoU)이다. 다음은 면적의 가중치를 고려한 중첩 평균 정확도를 나타내는 frequency weighted IoU (f-IoU)와 precision (Pr)과 recall (Re)의 조화 평균인 F1 score (F1)다. 이들은 각각 Eqs. (5), (6), (7), 그리고 (8)과 같다. Eq. (5)에 있는 nij는 class j에 속해 있을 것으로 예측된 class i의 모든 화소 수를 나 타낸다. Eq. (6)에 있는 ncl는 class의 개수를 가리키고, ti는 class i에 속해 있는 모든 화소 수를 지칭한다.

    p-Acc : i n i i / i t i , where t i = j n i j
    Eq. (5)

    m-IoU : ( 1 / n c l ) i n i i / ( t i + j n j i n i i )
    Eq. (6)

    f-IoU : ( k t k ) 1 i t i n i i / ( t i + j n j i n i i )
    Eq. (7)

    FI : 2 × Pr × R e Pr + R e
    Eq. (8)

    셋째는 연산 시간에 대한 측정으로 총 200장의 영상에 알고리즘을 적용하였을 때 소요되는 시간을 비교하 였다. 입력 영상을 모델에 입력하고 출력이 나올 때까지 걸린 시간을 모두 측정하여 평균 구하는 방식이다. 그리고 이를 객체 인식만 수행하는 알고리즘과 본 논문에서 제안한 알고리즘에 적용하여 그 시간을 비교하 였다.

    2. 인식 성능 비교 분석

    먼저 동적 장애물의 인식 성능을 비교한 결과는 <Table 1>과 같다. 대부분의 대상에서 인식 성능이 저하 된 것을 확인할 수 있다. 트럭과 신호등을 제외하고는 대부분이 인식 성능이 저하되었다. 하지만 mAP의 경 우 PASCAL 데이터를 이용한 학습된 모델을 그대로 적용하였을 때, 43.90%가 나타났지만, 자체적으로 확보 한 데이터를 사용하였을 경우 46.22%로 2.32%가 증가하였다.

    <Table 1>

    Performance evaluation result of object detection (%)

    KITS-20-2-95_T1.gif

    본 논문에서 사용한 객체 인식의 방식은 M2Det 알고리즘이다. Zhao et al.(2019)이 제안한 방식은 MS COCO 데이터 세트를 사용했을 때, 64.6%의 mAP를 보여주었다. 이는 80,000여 장의 영상을 이용해 학습을 수행하였다. 그리고 그 모델을 본 연구의 테스트 데이터 세트에 적용하였을 때, 대부분의 객체에서 높은 인 식 성능을 보여주고 있다. 이와 같이 차이가 나는 원인은 학습하는 데이터 수가 부족하기 때문이다. 본 논문 에서는 학습을 위해 1,218장을 사용하고 있고, 이는 MS COCO 데이터 세트의 약1.5%에 해당한다. 이런 점을 개선하기 위해서는 학습 데이터의 수를 늘리거나 자율 주행 분야에서 개발된 여러 기법을 적용해야할 것이 다. 하지만 본 논문의 목적은 객체 인식의 성능을 검증하는 것에 있는 것이 아니라 segmentation과 동시에 도 로 장애물 탐지를 수행한다는 점에 있다. 객체 인식과 segmentation은 그 방식 차이에 따라 각각의 용도가 다 르다. 객체 인식은 compact한 대상을 추출하는데 유리한 반면, segmentation은 형상이 일정하지 않은 대상을 추출하는데 유리하다. 이와 같은 두 장점을 융합하여 다양한 도로 장애물을 추출할 수 있다는 점에 목적이 있다. 그리고 이것을 본 연구를 통해서 구현하였다. 따라서 부족한 객체 인식 성능은 향후에 데이터 수를 늘 리고, 여러 학습 기법을 적용하여 향상시키도록 한다.

    동일한 테스트 세트를 대상으로 정적 장애물에 대한 인식 성능 결과는 <Table 2>와 같다. 각 지표별로 p-Acc는 97.92%, m-IoU는 74.71%, f-IoU는 96.32%, 그리고 F1은 68.04%의 결과를 얻었다. 이 결과는 이전 논 문인 Shim and Cho(2020)에서 얻은 결과와 비교할 수 있다. 기존에는 1,500장으로 학습하고 150장으로 테스 트하여 69.178%의 m-IoU를 얻었다. 하지만 본 논문에서 이전과 달리 1,500장의 영상 중에서 232장은 도로 노 면 파손만을 포함하고 있어 학습에서 제외하였고, 50장은 테스트 데이터 세트에 포함하였다. 그 결과 1,218 장으로 학습을 수행했고, 200장으로 테스트하였다. 그 결과, 74.71%의 m-IoU를 얻어 약 5.532%의 성능 향상 을 보였다. 이 같은 성능 향상은 backbone network로부터 얻은 정보를 처리하는 방식에서 기인한 것이다. 기 존의 방식에는 단지 convolution, batch normalization, softmax 함수를 이용하여 균열 영역을 탐지하였다. 하지 만 본 논문에서는 이와 달리 AE block이 추가되면서 더 의미 있는 feature를 생성해내고 이를 바탕으로 균열 영역을 탐지하도록 했다. 이를 통해 인식 성능 향상에 있어 학습용 데이터 수가 아닌 심층 신경망의 구조에 의존도를 높이도록 하였다.

    <Table 2>

    Performance evaluation result of segmentation (%)

    KITS-20-2-95_T2.gif

    끝으로 연산속도의 경우 M2Det(pre-trained)과 같이 객체 인식만 사용한 알고리즘은 하나의 영상을 처리하 는데 평균 46ms가 소요되었다. 이에 반해 M2Det + Ours의 경우는 평균적으로 89ms의 처리 속도를 가졌다. 처리 속도가 2배가량 늘어났음에도 불구하고 이는 실시간을 유지하고 있다. 자율주행 차량에서 주로 사용하 는 LiDAR (Light Detection and Ranging)의 경우 처리 속도는 50 ~ 200ms다. 이를 통해 주행 중 마주할 수 있 는 장애물을 인식할 수 있도록 기술을 개발한다. 하지만 개인 이동 차량의 경우, 그 주행 속도는 차량보다 느리기 때문에 필요한 처리 속도 또한 이보다는 느리게 된다. 따라서 89ms의 처리속도는 개인 이동 차량에 사용하기에는 충분한 연산속도로 볼 수 있다.

    3. 결과 영상

    본 논문에서 제안하는 M2Det + Ours 방식을 통해 얻은 결과 영상은 <Table 3>과 같다. 이 영상들은 ground truth가 표기 영상과 탐지 결과가 표기된 영상으로 구분된다. <Table 3>의 (a) 행에 있는 도로 영상은 ground truth로 탐지하고자 하는 동적 장애물을 bounding box로 표기하였고, 도로 노면 파손을 붉은색으로 덧 칠하였다. 그리고 <Table 3>의 (b) 행에 있는 도로 영상은 본 논문에서 제안하는 알고리즘을 적용하여 얻은 결과로, 동일하게 동적 장애물을 bounding box로 나타내고 도로 노면 파손은 파란색으로 덧칠하였다. 결과 영상에서 나타나듯이 차량, 트럭, 자전거, 오토바이, 신호등, 사람 등을 탐지하는 것을 확인하였고, 이와 더불 어 도로노면 파손을 또한 ground truth와 유사하게 파악하는 것을 확인할 수 있다.

    <Table 3>

    Result images of object detection and segmentation

    KITS-20-2-95_T3.gif

    Ⅴ. Conclusion

    미래에는 인구 감소 및 노령화로 인하여 개인 이동 수단에 대한 수요의 증가가 분명해 보인다. 이에 따라 노인과 장애인 같은 교통 약자의 주행 안전성을 확보하기 위해 자율 주행 기술의 확산이 가속화될 것이다. 하지만 현재까지 자율 주행을 위한 기술 개발은 차량에 대부분 집중되어 있고, 또한 이 기술은 도로 노면이 주행에 있어 완벽한 조건을 가지고 있다는 전제 위에서 가정하고 있다. 하지만 도로 노면은 여러 환경적인 요인으로 파손이 수시로 발생하고 이로 인한 교통사고 또한 빈번하게 발생하여 지속적으로 유지관리가 필요 한 대상이다. 또한 도로 노면 파손은 비교적 중량이 무겁고 무게 중심이 낮은 일반 차량에 비해 개인 이동 차량의 주행 중 조향 제어에 더 큰 영향을 준다. 따라서 개인 이동 수단에 있어서 도로 노면 상태를 인식할 수 있는 기술은 동적 장애물을 인식하는 기술과 더불어 운전자의 주행 안전을 위해 필수적인 센서 기술이다. 이 같은 기술을 개발하기 위해 본 논문에서는 다양한 도로 장애물을 인식할 수 있는 심층 신경망을 제안했 다. 또한 이를 총 1,418여 장으로 학습과 검증을 수행했고 객체 인식 심층신경망에 segmentation 심층 신경망 을 연결하여 방식을 제안했다. 그 결과 46.22%의 mAP로 동적 장애물을 인식하는 것을 확인하였고, 74.71% 의 m-IoU로 도로 노면 파손을 탐지하는 것을 확인하였다. 결과적으로 기존의 M2Det 알고리즘에 도로 노면 파손을 탐지할 수 있는 심층 신경망을 추가하여 완성하였다. 하지만 도로 주행 안전을 위해 정적 장애물인 도로 노면 파손은 탐지 성능 향상이 되었지만, 동적 장애물은 그렇지 못하였다. 이는 학습 데이터가 절대적 으로 부족하여 발생한 것으로 향후 연구에 데이터 수의 확충을 통해 성능 향상을 도모하고자 한다.

    ACKNOWLEDGEMENTS

    본 연구는 한국건설기술연구원 주요사업 “이종 데이터 변환을 통한 준지도 학습 기반 균열 탐지 기술 개 발”의 연구비 지원에 의해 수행되었습니다.

    Figure

    KITS-20-2-95_F1.gif

    Image dataset

    KITS-20-2-95_F2.gif

    Image augmentation for segmentation

    KITS-20-2-95_F3.gif

    Proposed network structure for joint deep learning

    KITS-20-2-95_F4.gif

    Auto-encoder block structure

    Table

    Performance evaluation result of object detection (%)

    Performance evaluation result of segmentation (%)

    Result images of object detection and segmentation

    Reference

    1. Argyros A. , Georgiadis P. , Trahanias P. and Tsakiris D. (2002), “Semi-autonomous navigation of a robotic wheelchair,” Journal of Intelligent and Robotic Systems, vol. 34, no. 3, pp.315-329.
    2. Bang S. , Park S. , Kim H. and Kim H. (2019), “Encoder-decoder network for pixel-level road crack detection in black-box images,” Computer Aided Civil and Infrastructure Engineering, vol. 34, no. 8, pp.713-727.
    3. Borowsky A. , Shinar D. and Oron-Gilad T. (2010), “Age, skill, and hazard perception in driving,” Accident Analysis & Prevention, vol. 42, no. 4, pp.1240-1249.
    4. Buza E. , Omanovic S. and Huseinovic A. (2013), “A pothole detection with image processing and spectral clustering,” In Proc. the 2nd International Conference on Information Technology and Computer Networks, Antalya, Turkeys, pp.48-53.
    5. Chen L. , Yang Z. , Ma J. and Luo Z. (2018), “Driving scene perception network: Real-time joint detection, depth estimation and semantic segmentation,” In Proc. 2018 IEEE Winter Conference on Applications of Computer Vision(WACV), Lake Tahoe, NV, USA, pp.1283-1291.
    6. Chen X. , Kundu K. , Zhu Y. , Ma H. , Fidler S. and Urtasun R. (2017), “3d object proposals using stereo imagery for accurate object class detection,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 5, pp.1259-1272.
    7. Dumoulin V. and Visin F. (2016), A guide to convolution arithmetic for deep learning, arXiv:1603.07285. Available at https://arxiv.org/abs/1603.07285
    8. Fayyad J. , Jaradat M. A. , Gruyer D. and Najjaran H. (2020), “Deep learning sensor fusion for autonomous vehicle perception and localization: A review,” Sensors, vol. 20, no. 15, 4220.
    9. Feng D. , Haase-Schuetz C. , Rosenbaum L. , Hertlein H. , Glaeser C. , Timm F. , Wiesbeck W. and Dietmayer K. (2020), “Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges,” IEEE Transactions on Intelligent Transportation Systems, vol. 22, no. 3, pp.1-20.
    10. Girshick R. (2015), “Fast r-cnn,” In Proc. the IEEE International Conference on Computer Vision(ICCV), Sangtiago, Chile, pp.1440-1448.
    11. Glorot X. and Bengio Y. (2010), “Understanding the difficulty of training deep feedforward neural networks,” In Proc. 13th International Conference on Artificial Intelligence and Statistics(AISTATS), Sardinia, Italy, pp.249-256.
    12. He K. , Gkioxari G. , Dollár P. and Girshick R. (2017), “Mask r-cnn,” In Proc. the IEEE International Conference on Computer Vision(ICCV), Venice, Italy, pp.2961-2969.
    13. He K. , Zhang X. , Ren S. and Sun J. (2016), “Deep residual learning for image recognition,” In Proc. the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV, 2016, pp.770-778.
    14. Ilas C. (2013), “Electronic sensing technologies for autonomous ground vehicles: A review,” In Proc. 8th International Symposium on Advanced Topics in Electrical Engineering(ATEE), Bucharest, Romania, pp.1-6.
    15. Jenkins M. D. , Carr T. A. , Iglesias M. I. , Buggy T. and Morison G. (2018), “A deep convolutional neural network for semantic pixel-wise segmentation of road and pavement surface cracks,” In Proc. 26th European Signal Processing Conference(EUSIPCO), Rome, Italy, pp.2120-2124.
    16. Jo Y. , Ryu S. K. and Kim Y. R. (2016), “Pothole detection based on the features of intensity and motion,” Journal of the Transportation Research Board, no. 2595, pp.18-28.
    17. Kingma D. P. and Ba J. (2014), Adam: A method for stochastic optimization, arXiv:1412.6980. Available at https://arxiv.org/abs/1412.6980
    18. Kobayashi Y. , Kinpara Y. , Shibusawa T. and Kuno Y. (2009), “Robotic wheelchair based on observations of people using integrated sensors,” In Proc. 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems, St. Louis, USA, pp.2013-2018.
    19. Koch C. and Brilakis I. (2011), “Pothole detection in asphalt pavement images,” Advanced Engineering Information, vol. 25, no. 1, pp.507-515.
    20. Li P. and Qin T. (2018), “Stereo vision-based semantic 3d object and ego-motion tracking for autonomous driving,” In Proc. the European Conference on Computer Vision(ECCV), Munich, Germany, pp.646-661.
    21. Li P. , Chen X. and Shen S. (2019), “Stereo r-cnn based 3d object detection for autonomous driving,” In Proc. the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Long Beach, CA, USA, pp.7644-7652.
    22. Liu W. , Anguelov D. , Erhan D. , Szegedy C. , Reed S. , Fu C. Y. and Berg A. C. (2016), “Ssd: Single shot multibox detector,” In Proc. European Conference on Computer Vision (ECCV), Amsterdam, Netherlands, pp.21-37.
    23. Madli R. , Hebbar S. , Pattar P. and Golla V. (2015), “Automatic detection and notification of potholes and humps on roads to aid drivers,” IEEE Sensors Journal, vol. 15, no. 8, pp.4313-4318.
    24. Maeda H. , Sekimoto Y. , Seto T. , Kashiyama T. and Omata H. (2018), “Road damage detection and classification using deep neural networks with smart phone images,” Computer-Aided Civil and Infrastructure Engineering, vol. 33, no. 12, pp.1127-1141.
    25. Muramatsu N. and Akiyama H. (2011), “Japan: Super-aging society preparing for the future,” The Gerontologist, vol. 51, no. 4, pp.425-432.
    26. Nakane J. and Farevaag M. (2004), “Elder care in Japan,” Perspectives(Gerontological Nursing Association(Canada)), vol. 28, no. 1, pp.17-24.
    27. Redmon J. and Farhadi A. (2018), Yolov3: An incremental improvement, arXiv:1804.02767. Available at https://arxiv.org/abs/1804.02767
    28. Ren S. , He K. , Girshick R. and Sun J. (2015), Faster r-cnn: Towards real-time object detection with region proposal networks, arXiv:1506.01497. Available at https://arxiv.org/abs/1506.01497
    29. Ronneberger O. , Fischer P. and Brox T. (2015), “U-net: Convolutional networks for biomedical image segmentation,” In Proc. International Conference on Medical Image Computing and Computer-Assisted Intervention(MICCAI), Munich, Germany, pp.234-241.
    30. Shi Y. , Cui L. , Qi Z. , Meng F. and Chen Z. (2016), “Automatic road crack detection using random structured forests,” IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 12, pp.3434-3445.
    31. Shim S. and Cho G. C. (2020), “Lightweight semantic segmentation for road-surface damage recognition based on multiscale learning,” IEEE Access, vol. 8, pp.102680-102690.
    32. Singh S. (2015), “Critical reasons for crashes investigated in the national motor vehicle crash causation survey,” Traffic Safety Facts Crash Stats. Report No. DOT HS 812 115; National Center for Statistics and Analysis, Washington, DC, USA.
    33. Sistu G. , Leang I. and Yogamani S. (2019), Real-time joint object detection and semantic segmentation network for automated driving, arXiv:1901.03912. Available at https://arxiv.org/abs/1901.03912
    34. Tinnila M. and Kalli J. (2015), “Impact of future trends on personal mobility services,” International Journal of Automotive Technology and Management, vol. 15, no. 4, pp.401-417.
    35. Zhang S. , Wen L. , Bian X. , Lei Z. and Li S. Z. (2018), “Single-shot refinement neural network for object detection,” In Proc. the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Salt Lake City, UT, USA, pp.4203-4212.
    36. Zhao Q. , Sheng T. , Wang Y. , Tang Z. , Chen Y. , Cai L. and Ling H. (2019), “M2det: A single-shot object detector based on multi-level feature pyramid network,” In Proc. the AAAI Conference on Artificial Intelligence, Honolulu, HI, USA, vol. 33, no. 1, pp.9259-9266.
    37. Zou Q. , Zhang Z. , Li Q. , Qi X. , Wang Q. and Wang S. (2019), “DeepCrack: Learning hierarchical convolutional features for crack detection,” IEEE Transactions on Image Processing, vol. 28, no. 3, pp.1498-1512.

    저자소개

    Footnote