Ⅰ. 서 론
1. 배경
대부분의 도로는 아스팔트와 콘크리트로 포장을 한다. 이 재료들은 오래 전부터 도로 포장에 사용되어 온 만큼 포장분야에 많은 기술적인 진보와 발전이 있었다. 하지만, 이와 같은 기술의 지속적인 발전에도 불구하 고 여전히 도로 파손은 끊임없이 발생한다. 이와 같은 현상의 원인은 기후와 기온 차이에 의한 자연적인 요 인과 지속적인 사용으로 인한 노후화가 있다. 원인이 이렇다 보니 현실적으로 도로노면 파손을 원천적으로 막을 수 없다. 그래서 자연스럽게 도로 노면 파손을 보수하는 유지관리 분야로 관심이 가지게 된다.
우리나라의 경우 유지관리를 해야 할 도로의 길이는 2018년 기준 총 약 110,000km이다. 이 중 고속국도가 약 4,700km이고, 일반국도가 약 14,000km이다. 이를 유지보수하기 위해서는 막대한 비용이 소요되는데, 이 비용 절감을 목적으로 도로 관리 주체는 전국 도로의 효율적 관리를 위한 기술 개발이 필요한 상황이다. 이 런 상황에서 가장 중요한 점은 어느 곳에서 도로 파손이 발생하였는지 빠르고 정확하게 파악하는 것으로, 이 런 이유로 도로 노면 파손 정보를 수집하는 기술 개발이 가장 우선적으로 필요하다.
이런 기술들 중에 현재까지 적용되고 활용되는 도로 노면 파손 탐지 시스템은 3가지 형태로 나눠질 수 있 다 (Jo et al., 2016). 그리고 이들 중에서 가장 각광받고 있는 것은 영상 인식 기반의 시스템이지만, 아직까지 상용화된 알고리즘이 존재하지 않아 그에 따른 기술 개발이 필요한 실정이다. 아울러 실제 현장에 적용되기 위해 도로 노면 파손 탐지를 위한 최적의 심층 신경망에 대한 개발이 요구되어지고 있다.
이런 문제들을 해결하기 위해 본 논문에서는 첫째 도로 노면 파손 정보 수집을 위해 기존에 수행되었던 연구들에 관해 기술한다. 둘째는 도로 노면 파손 객체 인식을 위한 기존 알고리즘에 대한 분석과 영역 기반 의 새로운 알고리즘에 대해 설명한다. 셋째는 제안한 알고리즘의 성능에 대해서 비교와 실험 결과를 분석 한다.
2. 관련 연구
본 연구와 관련된 해외 연구들을 먼저 살펴보겠다. koch and Brilakis의 연구는 포트홀 탐지를 위해 각종 영상처리 기법을 사용한 것으로 히스토그램 정보와 파손 영역의 기하학적 정보를 활용하였다. 뿐만 아니라 형태학적인 영상 처리 기법과 아스팔트 재질 정보를 이용하여 인식 알고리즘 개발을 개발하였다 (Koch and Brilakis, 2011). Buza et al.은 그레이 영상으로부터 추출한 히스토그램 정보를 활용한 스펙트럼 클러스터링 (Spectral Clustering) 방식을 사용하였다. 그리고 총 9 단계의 순차적인 특징기반의 방법을 사용하여 포트홀 탐지하는 알고리즘을 제안하였다 (Buza et al., 2013). Jog et al.은 영상 정보를 바탕으로 도로노면 파손을 인 식하는 것을 넘어 3차원 형상 복원까지 하는 방법을 제안하였다. 연속적으로 촬영한 비디오를 연속되는 프 레임으로 나누고 이를 바탕으로 3차원 복원하고 모델링까지 하여 실제 파손영역의 깊이 정보까지 복원하였 다 (Jog et al., 2012).
국내에서도 이와 같은 연구가 진행 중이다. Rye et al.이 제안한 방법을 살펴보면 도로노면 파손의 경우 조도 변화가 생기는 영역을 이진화를 했을 때 노면 파손 영역은 항상 남아 있다고 가정을 하였다. 그리고 이진영상을 활용하여 여러 단계의 기법(Morphology operation, Feature-based candidate extraction, Candidate region refinement)을 적용 후 도로 노면 파손의 후보 영역을 추출하였다. 끝으로 이들 가운데 OHI (Ordered Histogram Intersection) 기법을 이용하여 최후에 노면 파손 영역을 결정하였다 (Ryu et al., 2015). Jo et al. 또 한 이와 유사하게 순차적인 규칙 기반의 알고리즘을 제안하였다 (Jo et al., 2016). 이 알고리즘은 Ryu et al. 의 방법과 동일하게 이진영상을 만들지만 후보 영역을 생성할 때 차선 인식 알고리즘을 사용했다. 이는 차 선 외부 영역을 노면 파손 후보 영역에서 제외시키고 차선을 노면 파손으로 인식하는 확률을 낮추기 위해 서였다. 그리고 본래의 취지대로 실제 블랙박스까지 제작하여 알고리즘을 탑재하고 실제 주행 실험까지 완 료하였다. Chun et al.의 경우는 포트홀 탐지를 위해서 인공지능 알고리즘을 제안하였다. 완전 합성곱을 활 용한 심층 신경망으로 의미론적 분할 (Semantic Segmentation)을 구현하였다. 총 3,000여장의 영상을 활용하 여 자기부호화 형식의 심층 신경망으로 학습하였고, 450장으로 평가를 하였으며 우수한 성능으로 도로노면 파손 영역을 인식한다 (Chun et al., 2018).
이와 같은 기존 연구들을 살펴보면 특징 기반의 인식 기술과 특정 규칙을 활용한 영상처리 기술이 주를 이룬다. 그리고 최근에 들어서야 의미론적 분할과 같은 인공지능을 활용한 인식 기술들이 소개되어 졌다. 하 지만, 주행 차량에 탑재에 되어 고속연산 처리를 하며 인식하는 인공지능 기술은 아직까지 미비하다. 따라서 본 논문에서는 이 점을 개선하고자 도로 노면 파손 탐지를 고속으로 할 수 있는 객체 인식 방식으로 하는 기법을 제안한다. 그 중에서도 영역 기반의 합성곱 (Region based Convolutional Neural Network, R-CNN) 방법 을 활용한 알고리즘 개발하였다 (Girshick et al., 2014). 영역 기반의 합성곱을 활용한 심층 신경망은 많은 종 류들이 있지만, 본 논문에서는 Fast R-CNN를 활용한 방법을 사용하였다 (Girshick, 2015). Fast R-CNN은 영역 기반 합성곱을 이용한 심층 신경망의 한 종류로 영상 분야에서 객체 인식 알고리즘으로 널리 알려져 있다. R-CNN 계열의 알고리즘은 발표된 논문 순서에 따라 Fast R-CNN, Faster R-CNN, Mask R-CNN가 있고, 이 순 서대로 성능이 향상되고 기능 또한 계속해서 추가되었다. 각 알고리즘 마다 특징이 있는데, Fast R-CNN은 심 층 신경망을 활용해 특징 지도 (Feature map)를 제안하여 연산 속도를 크게 향상 시켰다는 점에서 의미를 갖 는다. 다음으로 Faster R-CNN은 앞서 얻은 특징지도에서 인식하고자하는 객체가 있을 수 있는 영역을 제안 하는 신경망 (Region Proposed Network)을 제안하였다. 이를 통하여 기존의 Selective Search 알고리즘을 수행 하면서 소요되었던 연산 시간을 크게 단축하였다 (Ren et al., 2015). 끝으로 Mask R-CNN은 지금까지의 경계 박스 형태로 결과가 나오는 객체 인식 기술과는 달리 객체의 영역을 정확히 분할할 수 있는 기능을 수행한 다 (He et al., 2017).
이 알고리즘들의 공통된 점은 모두 특징 지도를 사용한다는 점인데, 이는 그 만큼 특징 지도를 구성하는 Backbone 신경망이 알고리즘의 성능에 큰 영향을 미친다는 뜻이다. 이런 이유로 본 논문에서는 우선 ResNet (He et al., 2016)을 Backbone 신경망으로 활용한 알고리즘에 대해 설명한다. 그리고 본 연구에서 인식하고자 하는 대상에 최적화하여 성능을 향상시킬 수 있는 새로운 Backbone 신경망 기반의 Fast R-CNN 기법에 대해 서 제안한다. 다음으로 동일한 실험데이터와 동일한 기법을 사용하지만, 서로 다른 심층 신경망을 사용했을 경우의 차이점을 비교 분석한다. 끝으로 본 연구의 결론과 향후 연구 방향에 대해서 언급한다.
Ⅱ. 영역 기반 합성곱을 이용한 심층 신경망
1. ResNet 기반의 Fast R-CNN 모델 설계
먼저 ResNet을 Backbone 신경망으로 활용한 Fast R-CNN 기법을 도로 노면 파손 탐지에 활용하였다. 이를 위해서 기존에 확보하였던 입력 영상의 크기를 224×224로 변환하여 하였다. 그리고 Selective Search (Uijlings et al., 2013) 알고리즘을 통해 1개의 영상 당 약 4,000개의 관심 영역 (Region of Interest) 경계 상자를 확보하였다. 다음으로 Ross et al.이 사용한 방식과 동일하게 1개의 영상마다 64개의 관심 영역 경계 상자를 추출하는데, 그 구성은 다음과 같다. 먼저 64개중 25%는 영상에서의 참 영역 (Ground Truth Area)과 중첩 영 역 (Intersection Over Union)이 50% 이상한 것들로 구성한다. 그리고 나머지는 중첩 영역이 10%이상과 50%미 만인 것으로 구성을 하였다. 이렇게 구성하고자 하였음에도 불구하고 64개의 관심 영역 경계 상자가 충당되 지 않는다면 중첩 영역이 10% 미만인 것들 가운데 임의로 추출하여 그 수를 채운다. 학습을 위해 이 과정을 매번 반복할 때마다 이 구성 비율은 유지되지만, 관심 영역 경계 상자는 4,000개 중에서 임의로 선택된 것들 로 구성된다.
입력 영상과 관심 영역 경계 상자가 준비가 되면 다음 단계에서는 Backbone 신경망을 통해 특징지도를 생 성한다. Ross et al.이 발표한 논문에 따르면 Fast R-CNN에서 사용하는 특징 지도를 생성하기 위해 AlexNet (Krizhevsky et al., 2012), VGG (Simonyan et al., 2014)를 주로 사용하였다. 하지만 본 논문에서는 ResNet를 사 용하여 특징지도를 생성하였다. 이는 2015년 ILSVRC (ImageNet Large Scale Visual Recognition) 대회에서 우 승한 신경망으로 Faster R-CNN에서도 특징 지도로 사용이 된다. VGG에 비해서 신경망의 수가 많지만, 그 인 식 성능만큼은 매우 뛰어나 현재 널리 활용되어지고 있기 때문이다. 이렇게 생성된 특징 지도의 크기는 입력 영상의 크기와 비교했을 때 16분의 1로 줄어드는데 이 비율을 관심영역 경계 상자 크기에 동일하게 적용하 여 축소시킨다. 그리고 이 축소된 영역만큼을 특징지도에서 정사영 (ROI Projection)시킨 후 해당 영역을 14×14 크기로 변환시키는 관심 영역 풀링 (ROI Pooling)을 수행한다.
끝으로 관심 영역 풀링에서 생성된 정보를 바탕으로 본 알고리즘의 최종 출력인 분류 확률 (Classification Probability)과 경계 상자 회귀 (Bounding Box Regression)를 구한다. 이 역할은 분류 신경망 (Classifier Network) 이 수행한다. 이 신경망은 Selective Search 방법에 의해 얻은 관심 영역 경계 상자들 중에 도로노면 파손 영 역을 최종적으로 선별하는 것을 목적으로 한다. 본 연구는 도로노면 파손 영역 여부를 구분하기 때문에 분류 확률 출력은 64×2 형태가 된다. 또한, 다른 출력인 경계 상자 회귀의 수는 분류 확률에 해당하는 수와 동일 하지만, 사각형의 정보를 담고 있어야하기 때문에 64×8 형태가 된다. 이로써 입력 영상으로부터 도로 노면 파손 영역의 존재 여부와 그 위치가 결정이 된다.
2. Proposed Net 기반의 Fast R-CNN 모델 설계
기존의 Ross et al.이 활용한 심층 신경망은 PASCAL, COCO 데이터베이스에 있는 영상을 대상으로 실험을 한 것이다. 특히 PASCAL 데이터베이스에 영상들은 일상생활에서 흔히 볼 수 있는 20가지 종류의 대상을 분 류하고 해당 객체들의 위치를 영상 내에 표시해 두었다. 그리고 Ross et al.의 알고리즘은 이 데이터베이스에 서 최고의 성능을 내기 위해 심층 신경망이 설계되고 학습되었다.
반면에 도로 노면 파손 영역은 일반적인 데이터베이스의 구성과 차이가 있다. 대부분의 영상은 도로 노면 을 촬영한 것인데, 그 중에서 도로노면 파손이 있는 영상만을 선별하여 모아 두었다. 따라서 일반적으로 널 리 사용되는 심층 신경망을 사용하는 것보다는 도로노면 파손을 인식하기 위한 최적화된 심층 신경망이 개 발이 필요하다.
이를 위해서 여러 가지 파라미터를 조정을 하였다. 첫째 입력 영상의 크기를 기존의 224×224×3에서 원본 영상의 크기를 그대로 사용할 수 있도록 조정하였다. 이는 기존에 수집된 영상의 크기를 그대로 사용하는 것 으로 크기 조정에 의한 왜곡을 최소화하기 위함이 목적이다. 또한 특징지도의 크기는 ResNet에서 사용한 동 일한 비율을 적용 후 16분의 1로 축소하여 13×50×1024의 행렬이 되도록 하였다. 다음으로 관심 영역 풀링 (ROI Pooling) 단계에서도 관심영역 경계사장의 크기를 동일하게 축소하여 그에 해당하는 영역을 특징 지도 에서 추출한 후 13×50 크기로 변환하였다.
둘째, Backbone 신경망의 구조와 수를 수정하였다. ResNet은 합성곱 중심으로 이루어진 심층 신경망에 잔 차 학습 (Residual Learning)이라는 개념을 사용한다. 이를 통해 앞단 신경망 정보가 뒷단의 신경망까지 이어 갈 수 있어 정보의 손실을 최소화 한다. 본 논문에서는 이 신경망 구조에 수용 영역 (Reception Field)을 넓히 기 위한 확장 합성곱 (Dilated Convolution) 방식을 추가하였다. 이와 같은 구조를 선택한 이유는 심층 신경망 을 수가 증가하면서 생기는 경사 사라짐 문제를 해결하고 적은 연산량으로 수용 영역을 넓히기 위함이다. 기 존의 합성곱 방식은 객체 인식에서 수용 영역을 넓히기 위해 필터의 크기를 넓히는 방식을 사용하였다. 하지 만, 필터의 크기가 커짐에 따라서 연산량이 증가하여 속도가 느려지는 경향이 나타나는 문제 발생하였데, 이 를 해결하고자 제안되었던 방식이 확장 합성곱이다. 이와 같은 이유로 2가지 장점을 모두 활용하여 <Fig. 1> 과 같은 Proposed Net 신경망 구조를 설계하고 제안하였다.
셋째, 분류 신경망에 대한 수정이다. Fast R-CNN은 특징지도에서 얻은 정보를 활용하여 검출하고자하는 대상의 영상 내 위치와 종류를 결정한다. 기존에 사용되는 기법은 평균 풀링 방식 (Average Pooling)으로 특 징지도로부터 얻은 정보의 손실을 최소화 할 수 있도록 하는 방식이다. 하지만 본 논문에서는 최대 풀링 (Max Pooling) 방식을 사용하였다. 이는 평균 풀링 방식에 비해 최대 풀링 방식은 특정 영역 내의 최대 값을 취하기 때문에 경계선과 같은 특징이 되는 화소정보를 그대로 반영하기 때문이다. 이런 이유로 의미있는 화 소 값을 종단 신경망까지 전달할 수 있도록 설계하였다.
Ⅲ. 실험 결과
1. 학습 환경
본 실험에서는 ResNet를 사용하는 방법과 Proposed Net을 사용하는 방법을 비교 분석하였다. 이를 위해서 우선 심층 신경망 학습을 위해 데이터를 확보하였다. 향후 기술 개발 후의 현장 적용을 고려하여 실제 도로 주행을 통해 도로 노면을 촬영하였다. 이 때 영상에서 도로 노면이 가장 잘 보이도록 높이 200, 넓이 800 크 기로 영상을 잘라내어 원본 영상을 만들었다. 그리고 이 영상 내에서 도로 노면 파손이 있는 영역을 사각형 으로 표시하여 참 영상을 확보하였다. 이와 같은 방식으로 <Fig. 2>와 <Fig. 3>과 같이 원본 영상과 참 영상 을 하나의 세트로 하여 총 600여 세트를 확보하였다.
두 알고리즘의 분명한 성능 비교를 위해서 동일한 방법으로 학습을 수행하였다. 우선 학습을 위해서 약 500 세트를 임의로 추출하였다. 학습 횟수는 배치 크기를 2장으로 하여 학습용 데이터 세트 전체를 활용하였 고 이와 같은 방법을 총 500회 반복하였다. 그리고 최적화 알고리즘은 ADAM을 사용하였고, 학습비율 (Learning Rate)은 0.0001로 하였다. 손실 함수는 Ross et al.이 제안한 방법을 그대로 사용하였고, 밸런스 파라 미터 또한 1로 두었다.
2. 실험 결과 비교 및 분석
우선 학습 결과를 확인하기 손실 값을 기록하였다. 본 실험은 Multi-Task 기반의 학습이 진행되기 때문에 분류 손실(Classification Loss) 값과 경계 상자 회귀 손실 (Bounding-box Regression Loss) 값을 얻을 수 있다. 이 손실 값들은 <Fig. 4>와 <Fig. 5>에서 각각 확인할 수 있는데, Proposed Net의 손실 값이 ResNet의 손실 값 보다 작은 것으로 나타났다.
다음으로 두 가지의 서로 다른 심층 신경망을 활용한 인식 알고리즘의 성능을 평가하였다. 이를 위해 학 습에 사용되지 않은 테스트 영상 세트를 동일하게 적용하였다. 이 테스트 영상 세트는 총 111장으로 구성되 어 있고, 총 186개의 도로 노면 파손 영역을 포함하고 있으며, 모두 참 영역이 표시 되어있다. 이와 같은 정 보를 활용하여 두 심층 신경망 알고리즘에 동일하게 적용하여 인식 성능을 비교하였다.
인식 성능을 비교하기 위한 방법으로 우선 정확도-재현율 곡선 (Precision-Recall Curve)을 활용하였다. 이는 인식과 탐지 기술의 성능 평가를 하는데 보편적으로 사용되는 것으로 검출되는 비율과 그에 따른 정확도를 평가하는 방식이다. 이 때 사용하는 검출 성공 여부 기준은 두 가지를 사용한다. 첫째는 알고리즘이 탐지한 도로 노면 파손 영역과 참 영역과의 중첩 비율이다. 본 논문에서는 이 중첩 비율을 50% 이상인 경우, 75% 이상인 경우, 90% 이상인 경우로 나눠서 실험을 수행했다. 두 번째는 두 알고리즘이 탐지한 결과에 대한 확 률 값을 활용하는 방법이다. 두 알고리즘 모두 탐지한 도로 노면 파손 영역의 정확도를 확률 값으로 생성하 는데, 이 값을 기준으로 탐지 성공 여부를 구분할 수 있다. 본 논문에서는 50% 이상인 결과를 파손으로 보는 경우와 90% 이상인 경우를 파손으로 보는 경우로 나눠서 실험을 수행하였다.
<Fig. 6>은 알고리즘에 의해 탐지된 도로 노면 파손 영역의 정확도 확률 값을 50% 이상인 결과만을 탐지 에 성공한 것으로 간주한 경우다. 그리고 3개의 중첩 비율을 임계값으로 하여 성공한 탐지와 그렇지 않은 것 으로 구분하였다. 마찬가지로 <Fig. 7>도 동일한 규칙을 적용하였으나 한 가지 차이점은 정확도 확률 값이 90% 이상인 결과만을 성공한 탐지로 간주한 점이다. 두 가지 결과를 분석해본 결과 ResNet 심층 신경망을 사용한 경우에는 중첩 비율을 기준으로 임계값에 변화를 주었을 때, Proposed Net 심층 신경망의 인식 성능 보다 변화가 더 크게 나타났다. 또한 정확도 확률 값 변화에 의한 두 알고리즘의 인식 성능 차이 또한 ResNet 심층 신경망이 크게 나타나는 것을 확인할 수 있었다. 따라서 ResNet 심층 신경망보다 Proposed Net 심층 신경망이 임계값 변화에 더 강건하다고 볼 수 있다.
다음은 mAP (mean Average Precision)을 활용한 분석이다. mAP는 서로 다른 알고리즘의 성능에 대해서 정 량적으로 비교하기 위한 기법이다. 본 논문에서도 ResNet 심층 신경망 알고리즘과 Proposed Net 심층 신경망 알고리즘에 대한 정략적 성능 비교를 위해 이 기법을 사용했다. 분석 결과는 <Table 1>과 같이 나타났다. ResNet을 사용한 심층 신경망의 경우는 중첩 영역 임계값이 높아질수록 인식 성능이 현격히 떨어지는 것을 보였다. 그리고 확률 값의 임계값 높게 정할수록 인식 성능도 떨어지는 경향을 보였다. 반면에 Proposed Net 심층 신경망 알고리즘의 경우 중첩 영역 임계값이 높아질수록 인식 성능이 다소 적게 떨어지는 경향이 나타 났다. 하지만, 확률 값의 임계값은 인식 성능에 영향을 거의 받지 않는 것으로 나타나 앞선 언급한 것과 마 찬가지로 Proposed Net 심층 신경망을 이용한 알고리즘이 더욱 강건한 것으로 들어났다.
두 심층 신경망 알고리즘의 수행 결과는 <Fig. 8>와 같이 나타난다. 여기서 붉은 색 경계 상자는 알고리즘 이 찾아야할 참 영역이다. 알고리즘이 수행되면 그 결과는 경계 상자와 그에 해당하는 확률 값으로 나타나는 데 이 정보를 참 영역과 같이 표시하여 알고리즘의 성능을 직관적으로 파악할 수 있도록 하였다. ResNet 심 층 신경망 알고리즘의 결과는 초록색 경계 상자로 표시하고 Proposed Net 심층 신경망 알고리즘은 파란색 경 계 상자로 표시하여 성능 차이를 확인할 수 있도록 하였다. 이 결과를 보면 ResNet 심층 신경망 알고리즘을 통해 얻은 결과는 Proposed Net 심층 신경망 알고리즘의 결과와 비교 했을 때, 참 영역과의 중첩되는 영역에 서 계속해서 차이가 난다. 이로 인하여 도로 노면 파손 영역의 정확한 탐지가 어려워지고 성능 또한 저하되 는 것으로 파악된다.
Ⅳ. 결 론
도로 노면 파손 영역 탐지 기술은 효율적인 도로 포장 상태 관리를 위한 기술로 운전자 사고 예방을 위해 서는 반드시 필요하고 그 활용성이 매우 크다. 이에 본 논문에서는 도로 노면 파손 탐지를 위한 영역 기반의 합성곱 기반의 인공지능 모델을 제안하였다. 이 인공지능 모델을 개발하기 위해서 우선 도로 노면 파손 영상 을 실제 주행을 통해 촬영하였다. 그 결과 원본 영상과 참 영상 세트로 600여장을 확보하였다. 이를 Fast R-CNN 기법에 적용하여 도로 노면 파손을 위한 객체 인식 알고리즘을 개발하였고 이를 Intel CPU I7와 Geforce GTX 1080 TI가 장착된 개발 환경에서 학습을 수행하였다. 또한 새로운 인공 지능 모델을 제안하여 ResNet 모델을 사용하는 결과와 인식 성능을 비교하였다. 그 결과 새롭게 제안한 인공지능 모델은 파라미터 에 변화와 강건한 것으로 나타났고, 전반적인 성능에서도 우수한 것으로 나타났다. 특히 mAP는 ResNet 모델 을 사용한 경우에는 최대 87.01%인데 반해 본 논문에서 제안한 인공지능 모델을 사용할 경우에는 97.68%로 10.67% 향상된 것으로 나타났다. 게다가 도로 노면 파손 영역의 추출 정확도 또한 ResNet 모델을 사용하는 것보다 높게 나타나 정확한 면적 정보를 추출하는데 유리하다.
향후 연구로는 본 인식 알고리즘을 실제 주행 환경에 적용하여 인식 성능의 확인이 필요하다. 이를 위해 서는 실제 환경을 반영할 수 있도록 영상 데이터베이스를 확충해야 한다. 특히 차량이 포함된 영상과 도로 안전 시설물이 포함된 영상을 많이 확보하여 오탐과 과탐을 줄일 수 있도록 학습을 수행해야 한다. 뿐만 아 니라 영역 기반의 합성곱 알고리즘 중에 하나인 Faster R-CNN 기법을 적용하여 인식 성능 향상과 속도 향상 이 필요하다. 이 기법 중에서도 Region Proposal Network를 적용하여 Fast R-CNN에서 사용 중인 Selective Search 알고리즘을 대체할 필요가 크다.