Ⅰ. 서 론
도로노면의 파손을 탐지하기 위하여 다양한 연구들이 진행되어 왔고, 그 중에서도 블랙박스 형태로 카메라를 차량에 설치하여 도로 주행 중에 카메라로 획득한 영상을 다양한 알고리즘들을 활용하여 도로노면 파손을 탐지 하는 연구들이 진행되어 왔다 (Kim and Ryu, 2014). 그 중에서도 심층신경망(Deep Neural Network, DNN)의 하나 의 형태라고 할 수 있는 합성곱 신경망(Convolutional Neural Network, CNN) 기반의 모델은 다양한 분야에서 우수 한 성능을 보이고 있다. 분류 문제를 다루는 ImageNet Large Scale Visual Recognition Competition(ILSVRC)에서도 CNN 기반의 알고리즘 모델들이 강세를 보이고 있으며 (Krizhevsky et al., 2012), 회귀(regression) 문제 (Eigen et al., 2014), 객체 탐지(object detection) (Ren et al., 2017), 의미론적 분할(semantic segmentation) (Badrinarayanan et al., 2016;Long et al., 2015) 등에서 기존의 고전적인 영상처리 알고리즘에 비하여 높은 성능을 보이고 있는 추세 이다. 이 중에서 의미론적 분할은 입력 이미지 정보에서 픽셀 단위 혹은 인스턴스 단위로 각각의 영역을 고유의 의미를 가지게끔 분할하는 신경망 구조를 가리키며, 합성곱 신경망만을 활용하여 자기부호화기(autoencoder) 형 태로만 구성된 것이 특징이다 (Badrinarayanan et al., 2016;Long et al., 2015). 이러한 의미론적 분할 형태로 합성곱 신경망을 구성하여 도로노면의 파손을 탐지하는 연구들이 진행되고 있다 (Chun et al., 2018).
다양한 구조로 이미지 처리 방식에서 심층신경망이 높은 성능을 보이고 있지만, 이는 대부분 지도 학습 (supervised learning)에 국한되어 있는 경우가 많다 (Goodfellow et al., 2016). 전통적인 기계학습 방법들은 지도 학습과 비지도 학습(unsupervised learning)으로 나뉠 수 있는데 (Christopher, 2016), 지도 학습이란 입력 데이터 와 레이블된 데이터를 쌍으로 가지는 있는 데이터셋을 활용하여 모델을 학습하는 경우를 말하며, 합성곱 신 경망에서는 이미지 정보를 입력 데이터로 많이 활용하고 있다. 레이블된 데이터는 신경망의 구조에 따라 이 미지, 분류, 회귀 등으로 다양하게 나타날 수 있는데, 이러한 레이블된 데이터를 획득하기 위해서는 굉장히 많 은 시간과 노력이 필요하게 된다. 반면에 레이블되지 않은 단순한 입력 데이터만을 모으는 것은 풍부한 양의 데이터를 상대적으로 손쉽게 수집 및 획득이 가능하다. 레이블된 데이터가 없이 이러한 입력 데이터만을 가 지고 입력 데이터의 구조나 특징을 추출하고, 새로운 입력 데이터를 생성하는 등의 작업을 할 수 있는 모델을 학습하는 것을 비지도 학습이라고 할 수 있다 (Christopher, 2016). 의미론적 분할 기반의 도로노면 파손 탐지 기술을 지도 학습으로 학습하는 경우에는 <Fig. 1>과 같은 이미지들이 입력과 레이블된 이미지 데이터셋으로 활용된다고 볼 수 있다 (Chun et al., 2018). 기연구된 도로노면 파손 탐지의 경우에는 이러한 이미지 데이터를 총 5,000장을 수집하였으며, 여기에서 4,000장은 학습 데이터셋으로 활용하였고, 나머지 1,000장은 검증 데이 터셋으로 활용하였다 (Chun et al., 2018). 이러한 데이터셋은 모델 학습을 위하여 하나하나 레이블링 작업을 해줘야하며, 단순 입력 데이터를 모으는 시간에 비하여 굉장히 많은 시간과 노력이 필요하게 된다.
본 논문에서는 이러한 지도 학습의 데이터셋을 모으는 어려움을 완화하고, 도로노면 파손 탐지 기술의 성 능을 개선하고자 수도 레이블링(pseudo labeling)을 활용한 준지도 학습(semi-supervised learning) 기반의 도로 노면 파손 탐지 기술을 제안하고자 한다 (Cholaquidis et al., 2018). 준지도 학습이란 레이블된 데이터셋과 레 이블되지 않은 데이터셋을 적절하게 혼합하여 활용하는 방식으로 본 논문에서는 준지도 학습 기법 중에서 수도 레이블 이미지 데이터를 활용하여 도로노면 파손 탐지 기술의 성능을 개선하고자 한다. 먼저, 레이블된 데이터를 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습한다. 여기서, 여러 개의 모델을 학 습하여 앙상블을 형성하고, 레이블링되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행한다. 신경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데이터를 모두 활용하여 다시 한 번 신경망 모델을 학습한다. 이러한 과정을 반복적으로 수행하면서 많은 양 의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 기술의 성능을 개선한다. 또한, 동일한 데 이터셋을 활용하여 레이블된 데이터셋만을 활용하여 학습한 신경망 모델과 수도 레이블된 데이터셋까지 활 용하여 학습한 신경망 모델의 성능을 비교한다.
본 논문의 구성은 다음과 같다. 먼저, 서론에 이어서 2장에서는 수도 레이블을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술의 데이터셋 생성 방법과 신경망 구조 및 학습 방법에 대해서 기술한다. 그다음으로 3장에서는 제안된 준지도 학습 기반의 도로노면 파손 탐지 기술의 성능을 검증하였는데, 총 네 명의 전문가 가 각각의 결과 이미지를 평가하여 성능을 비교하였다. 마지막으로 4장에서는 본 논문의 결론을 맺는다.
Ⅱ. 수도 레이블을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술
서론에서 언급하였듯이 준지도 학습이란 대량의 레이블되지 않은 데이터셋과 상대적으로 적은 레이블된 데이터셋을 활용하는 것을 뜻한다 (Cholaquidis et al., 2018). 다량의 레이블되지 않는 데이터셋에 수도 레이블 링을 하여 대량의 데이터셋을 확보하고, 이를 다시 학습할 경우에는 현재 모델이 가지는 한계에 대한 바이어 스를 그대로 나타낼 수 있으므로, 반복적인 수도 레이블링 작업과 데이터셋을 점차적으로 늘려가면서 학습 을 수행하는 것이 일반적이다. 본 논문에서는 준지도 학습 중에서 수도 레이블한 데이터셋을 재활용하는 수 도 레이블링 기법을 활용한다.
<Fig. 2>는 도로노면 파손을 탐지하기 위하여 본 논문에서 제안하는 수도 레이블을 활용한 준지도 학습 방법에 대한 블록 다이어그램이다. 먼저, 레이블된 데이터를 활용하여 합성곱 신경망 기반의 도로노면의 파 손 탐지를 수행할 수 있는 모델을 학습한다. 여기서의 학습 모델은 바이너리 의미론적 분할 형태로 학습하였 고, 자세한 모델의 신경망 구조 및 학습 방법은 (Chun et al., 2018)에서 제시한 구조와 동일하다. 입력층을 제 외하고 총 6개의 합성곱층(convolutional layer)을 가지며, 이 중에서 3개는 스트라이드(strided) 합성곱층이며, 나머지 3개는 역합성곱층(deconvolutional layer)을 활용하였다. 최대 풀링(max pooling)을 사용하지 않고, 합성 곱층에 스트라이드를 [2 x 2]를 주는 형태로, 자기부호화기 형태가 나타나도록 구성하였으며, 여기서의 커널 (kernel) 사이즈는 [5 x 5]로 활용하였다. 손실 함수는 최소평균제곱오차(Minimum-Mean-Squared-Error, MMSE) 형태로 구성하였으며 (Han et al., 2016), 여기서의 최적화 기법은 adaptive moment estimation (ADAM)을 활용 하였다 (Kingma and Ba, 2015). 활성화 함수로는 Rectified Linear Unit (ReLU)가 사용되었고 (Nair and Hinton, 2010), 합성곱층과 활성화 함수(activation function) 사이에는 배치 정규화(batch normalization)를 수행하였다 (Ioffe and Szegedy, 2015). 이렇게 신경망 구조를 구성하였고, 총 5,000장의 레이블된 데이터셋을 활용하여 모 델을 학습한다. 여기서, 모델의 성능을 높이기 위해서 총 5개의 모델을 생성하고, 이에 대하여 앙상블 (ensemble)을 형성하였다 (Maclin and Opitz, 1999). 앙상블이란 여러 개의 학습한 모델 중에서 최적의 성능을 보이는 단 하나의 모델만을 활용하는 것이 아니라, 여러 개의 다양한 모델로부터 얻은 결과를 조합해서 활용 하는 것을 가리킨다. 심층신경망 이외의 다양한 기계학습 방법들을 조화롭게 쓰는 것도 가능하지만, 본 논문 에서는 제시한 신경망 구조를 반복적으로 학습하여 얻어진 모델들만을 활용하여 앙상블을 형성하였다. 구체 적으로는 K-fold cross validation 기법을 통하여 앙상블을 형성하였고, 여기서의 K는 5로 설정하였다. K-fold cross validation 기법이란 <Fig. 3>에서 나타나듯이 학습 데이터셋을 K개의 균등한 데이터셋으로 분배한다. 여기서, K-1개의 데이터셋을 학습 데이터셋으로 활용하고, 나머지 하나의 데이터셋을 검증(validation) 데이터 셋으로 활용한다. 검증 데이터셋은 에폭(epoch)에 따른 과적합(overfitting) 여부와 학습 종료시점 등을 제시할 수 있는 지표로 활용 가능하다. K개의 데이터셋 중에서 검증 데이터셋을 어떤 데이터셋으로 활용하는지에 따라서 총 K개의 모델이 생성 가능하다. 본 논문에서는 검증 데이터셋이 20%로 분배되도록 K를 5로 설정하 였으며, 이에 따라 총 5개의 모델을 생성하였다. 이렇게 생성된 5개의 모델로 앙상블을 형성하였다.
총 5,000장의 레이블된 데이터셋을 활용하여 학습된 모델들의 결과로부터 또 다른 5,000장의 레이블되지 않은 이미지 데이터셋을 입력으로 넣어서 예측된 출력 이미지 데이터셋을 획득한다. 이렇게 획득한 신경망 모델이 수도 레이블한 이미지 데이터셋으로 간주하고, 총 10,000장의 이미지 데이터셋을 통하여 다시 한번 신경망 모델을 학습한다. 마찬가지로 여기에서도 총 5개의 모델을 생성하고, 이에 대하여 앙상블을 형성하였 다. 이를 5,000장의 레이블된지 않은 이미지 데이터셋으로 나눠서 반복적으로 수행하였고, 레이블된 데이터 셋을 5,000장 그리고 수도 레이블된 데이터셋을 55,000장을 활용하여 최종적으로는 총 60,000장의 데이터셋 을 활용하여 모델을 생성하였다. 수도 레이블된 데이터셋 55,000장에 대해서 에러가 존재하는 데이터를 수작 업을 통하여 보정하면 더 좋은 성능을 보일 수 있지만, 이러한 작업은 레이블링하는 작업과 마찬가지로 시간 과 노동력이 필요하므로 본 논문에서는 수도 레이블된 데이터셋을 그대로 활용하였다. 대신에 수도 레이블 데이터셋을 활용하여 새롭게 학습된 모델들이 기존 모델들과 성능을 비교하는 방법으로는 검증 데이터셋을 총 1,000장으로 고정하고 이에 대한 손실값(loss value) 및 정확도(accuracy)를 비교하여 성능이 좋아지는지 검 증하였다. 만일, 손실값이 높아지거나 정확도가 떨어지는 방향으로 모델이 학습될 경우에는 5,000장의 수도 레이블된 데이터셋은 활용하지 않았다.
Ⅲ. 성능결과 및 평가
먼저, <Fig. 4>는 <Fig. 2>의 신경망 모델로 출력된 이미지 예시이다. 그림에서 빨간색으로 표시된 영역은 기존의 수도 레이블된 데이터셋을 활용하지 않고, 레이블된 데이터셋만을 활용하여 학습한 모델이 도로노면 의 파손 영역이라고 추정한 결과이며, 초록색으로 표시된 영역은 수도 레이블 데이터셋까지 활용하여 학습 한 모델의 결과이다. 노란색으로 표시된 영역은 두 학습 모델 모두가 도로노면의 파손 영역이라고 추정한 결 과이다. 그림에서 볼 수 있듯이, 레이블 데이터셋만을 활용한 모델의 결과에서는 여러 부분에서 오탐하는 영 역이 나타나는 것을 볼 수 있다. 수도 레이블 데이터셋까지 활용한 모델에서는 오탐하는 부분이 존재하기는 하지만 기존 레이블 데이터셋만을 활용한 모델에 비해서는 그 빈도수와 영역의 크기가 작은 것을 확인 가능 하다. 이에 대한 정성적인 성능을 비교하기 위하여 주관적인 성능평가를 수행하였다. (Chun et al., 2018)에서 수행한 방식과 동일한 방식으로 수행하였으며, 동일한 DB와 동일한 전문가가 성능평가를 수행하였다. 먼저, 도로노면을 촬영하는 도중에 ROI(Region of Interest) 안에 들어올 수 있는 이미지를 450장을 선정하였고, 여 기서, 학습에 활용된 데이터셋과 겹치지 않는 이미지 데이터만을 활용하였다. <Fig. 5>는 평가에 활용되는 데이터셋의 예시 사진을 보여준다. 그림에서 보이는바와 같이, 도로노면의 파손 영역이 포함된 이미지만 있 는 것이 아니라 도로노면을 스캔하면서 ROI 안에 들어올 수 있는 로드 마킹, 이음선, 줄눈, 그림자, 자동차 등을 포함하고 있다 (Chun et al., 2018).
총 4명의 평가자가 주관적으로 450장의 이미지를 평가하였으며, 여기에서 450장의 이미지 순서는 임의적 으로 나타나게 하였다. 한 장의 이미지를 보고 평가자는 <Table 1>에서 보이는 것처럼 가장 근접하다고 생각 되는 항목으로 평가하게 된다. 이미지 상에서 도로노면 파손이 있는 경우에 제안된 모델이 제대로 도로노면 파손 부분만을 분할한 경우와 그렇지 못한 경우, 이미지 상에서 도로노면 파손 부분이 없는 경우에 제대로 도로노면 파손이라고 분할하지 않은 경우와 그렇지 못한 경우로 나뉘게 된다. 이는 어떠한 알고리즘의 성능 을 통계적으로 평가할 경우에 많이 활용되고 있는 평가방법이며, 실제로 많은 분야에서 널리 활용되고 있다 (Goutte and Gaussier, 2005). 본 논문에서의 도로노면 파손 부분이 사고로 이어질 수 있거나 보수가 충분히 필 요하다고 볼 수 있는 정도를 도로노면 파손 정도로 정의하였고, 평가자 4명 모두 도로교통 쪽에 종사하고 있 는 전문가이다. 일반적으로 이러한 성능 비교는 픽셀 단위에서의 객관적인 성능 비교로 이루어지지만, 본 논 문에서는 이미지 단위에서의 4명의 평가자를 통하여 주관적인 성능 비교가 수행되었다. 이는 도로노면파손 부분을 정확하게 분할하는 것은 도로교통에 종사하고 있는 전문가라 할지라도 개인차가 크게 나타나며, 정 확한 도로노면파손 부분을 분할하는 것보다 전반적인 정밀도나 민감도를 보는 것이 더 중요하다고 판단하였 다. <Table 1>는 제안된 도로노면 파손 탐지 기술의 평가결과를 나타낸다. 먼저, Tp, Tn, Fp, Fn으로 나뉘는 것을 볼 수 있다. 각각은 Positive인 경우에 Positive로 잘 판정하였을 경우가 Tp, Negative인 경우에 Negative로 잘 판정하였을 경우가 Tn, Negative인데도 불구하고 Positive로 판정하였을 경우가 Fp, Positive인데도 불구하 고 Negative로 판정하였을 경우가 Fn이다 (Goutte and Gaussier, 2005). 본 논문의 경우에는 도로노면 파손이라 고 분할해야 하는 곳을 정확하게 분할하였을 경우가 Tp에 해당된다. 각각의 전문가는 학습된 모델이 도로노 면 파손이라고 탐지한 결과 이미지를 보고, Tp, Tn, Fp, Fn 중에서 하나의 경우로 평가하였다. 네 개의 지표 를 통하여 최종적으로 민감도(recall), 정밀도(precision), 정확도(accuracy), F1-score로 도출할 수가 있다 (Goutte and Gaussier, 2005). 민감도의 경우에는 실제 positive의 수에서 positive로 얼마만큼 잘 분류하였는가를 나타낸 다. 반환율 혹은 재현율이라고도 불리며, Fn와 밀접한 관련이 있다. 본 논문의 경우에는 도로노면 파손 부분 을 얼마만큼 도로노면 파손 부분이라고 잘 분할하였는가를 제시하는 수치이다. 정밀도의 경우에는 실제 예 측한 positive의 수에서 얼마만큼의 Tp가 존재하는지를 나타내는 지표로, Fp와 관련성이 높다. 정확도의 경우 전체 데이터셋에서 정확하게 예측한 비율을 가리키며, F1-score의 경우에는 정밀도와 민감도의 조화 평균으 로 계산되며, 정밀도와 민감도를 통합한 하나의 측정지표라 할 수 있다. 표에서 나타나는 것처럼, 먼저 정확 도 측면에서는 기존 모델의 0.8728에서 제안된 모델이 0.9387로 향상된 것을 확인 가능하다. 또한, 기존 모델 의 경우 정밀도의 수치가 0.7012였지만, 제안된 모델의 경우에는 0.9014로 크게 향상되었다. 이는 오탐에 대 한 탐지 성능이 크게 개선되었다고 볼 수 있다. Fp의 수치를 보더라도 기존에는 총 193개의 Fp가 존재했지 만, 제안된 모델에서는 50으로 감소된 것을 확인 가능하다. 반면에, 민감도 부분에서는 기존의 0.9264의 수치 였지만, 0.8822로 감소된 것을 확인 가능하다. 이는 도로노면 파손에 대한 탐지가 민감도가 감소된 것으로 Fn가 밀접한 관련이 있다. 실질적으로 Fn 수치가 기존에는 총 36개 존재하였는데, 제안된 모델에서는 61개로 증가하였다. 최종적으로 F1-score를 비교해보면 0.7982에서 0.8917로 향상된 것을 확인 가능하다. 이는 민감도 부분에서는 성능이 저하되었지만, 정밀도 부분에서 성능이 크게 향상되었기 때문에 전반적으로 F1-score가 기존 모델에 비하여 높은 수치를 받은 것으로 판단할 수 있다. 향후, 다양한 학습 방법 및 양질의 데이터셋 을 확보하여 더욱 더 강건한 형태의 신경망 모델 학습이 필요하다고 볼 수 있겠다.
Ⅳ. 결 론
지도 학습의 입력 및 레이블 데이터셋을 모으는 어려움을 완화하고자, 본 논문에서는 수도 레이블 데이터 셋을 활용한 준지도 학습 기반의 도로노면 파손 탐지 기술을 제안하였다. 이를 위하여, 레이블된 데이터셋만 을 활용하여 도로노면 파손을 탐지할 수 있는 신경망 모델을 학습하였다. 여기서, 여러 개의 모델을 학습하 여 앙상블을 형성하고, 레이블링되지 않은 이미지 데이터들에 대하여 도로노면 파손 탐지를 수행하였다. 신 경망 모델이 나타난 결과 이미지를 수도 레이블된 데이터로 간주하고, 레이블된 데이터와 수도 레이블된 데 이터를 모두 활용하여 다시 한 번 신경망 모델을 학습하였고, 이러한 과정을 반복적으로 수행하면서 많은 양 의 수도 레이블된 데이터를 확보 및 활용하여 도로노면 파손 탐지 모델을 계속하여 업데이트하였다. 학습된 모델의 성능을 주관적으로 평가하였을 때, 기존 모델에 비하여 정밀도 성능이 크게 향상되었고, 민감도 성능 은 소폭 감소하였다. 하지만, 최종적으로 F1-score는 기존 모델에 비하여 높은 수치를 획득하였다. 이는 민감 도 부분에서는 성능이 저하되었지만, 정밀도 부분에서 성능이 크게 향상되었기 때문에 전반적으로 F1-score 가 기존 모델에 비하여 높은 수치를 받은 것으로 판단할 수 있다. 향후, 다양한 학습 방법 및 양질의 데이터 셋을 확보하여 더욱 더 강건한 형태의 신경망 모델 학습이 필요하겠다.