Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.18 No.6 pp.191-201
DOI : https://doi.org/10.12815/kits.2019.18.6.191

Development of an Integrated Traffic Object Detection Framework for Traffic Data Collection

Inchul Yang*, Woo Hoon Jeon**, Joyoung Lee***, Jihyun Park****
*Integrated Road Management Center, Dept. of Infrastructure Safety Research, KICT
**Dept. of Civil and Environmental Engineering, New Jersey Institute of Technology
***Co-author: Dept. Professor of Civil and Environmental Engineering, New Jersey Institute of Technology
****Co-author: Dept. of Civil and Environmental Engineering, New Jersey Institute of Technology

† Corresponding author : Woo Hoon Jeon, cwhoon@kict.re.kr
20191111 │ 20191127 │ 20191128

Abstract


A fast and accurate integrated traffic object detection framework was proposed and developed, harnessing a computer-vision based deep-learning approach performing automatic object detections, a multi object tracking technology, and video pre-processing tools. The proposed method is capable of detecting traffic object such as autos, buses, trucks and vans from video recordings taken under a various kinds of external conditions such as stability of video, weather conditions, video angles, and counting the objects by tracking them on a real-time basis. By creating plausible experimental scenarios dealing with various conditions that likely affect video quality, it is discovered that the proposed method achieves outstanding performances except for the cases of rain and snow, thereby resulting in 98% ~ 100% of accuracy.



교통 데이터 수집을 위한 객체 인식 통합 프레임워크 개발

양 인 철*, 전 우 훈**, 이 조 영***, 박 지 현****
*주저자 : 한국건설기술연구원 인프라안전연구본부 도로관리통합센터 연구위원
**교신저자 : 한국건설기술연구원 인프라안전연구본부 도로관리통합센터 수석연구원
***공저자 : Dept. of Civil and Environmental Engineering, New Jersey Institute of Technology 교수
****공저자 : Dept. of Civil and Environmental Engineering, New Jersey Institute of Technology 석사과정

초록


본 연구에서는 다양한 외부 조건 하에서 촬영된 영상을 대상으로 신속하고 정확하게 교통 객체를 검출하는 교통 객체 검출 통합 프레임워크를 개발하였다. 제안된 프레임워크는 딥러닝 기술 기반의 직접 객체 인식 기술과 다중 객체 추적 기술, 그리고 동영상 전처리 기술로 구성 되며, 영상의 안정성, 기상, 촬영 각도 등의 다양한 외부 조건에서 촬영된 영상을 대상으로 승 용차, 버스, 트럭, 및 미니밴과 같은 교통 객체를 인식하고, 이를 실시간으로 추적하여 교통량 데이터를 계수한다. 제안된 방법의 성능 검증을 위해 다양한 외부 조건에서 촬영된 영상 8개를 대상으로 제안된 방법의 성능 검증을 수행한 결과, 우천 및 강설을 제외한 모든 조건에서 98% 이상의 높은 정확도를 보이는 것으로 나타났다.



    Ⅰ. 서 론

    교통량, 속도, 점유율 등의 교통 데이터는 교통 혼잡 관리 및 교통정책 수립과 같은 실무적인 분야는 물론 교통류 이론의 개발과 검증 등과 같은 전문 학문분야에도 널리 활용되는 기본 자료이다. 교통 데이터를 수집 하기 위해서는 많은 비용이 필요한데, 이는 기본적으로 데이터 수집에 필요한 장비 (루프 검지기, 비디오 카 메라, 레이더 센서) 대부분이 고가의 설치비용은 물론 지속적인 유지 관리 비용이 요구되기 때문이다.

    최근 들어 시민의 안전과 범죄예방 및 범죄 수사지원 목적을 위해 전국적으로 CCTV의 설치 및 운용이 빠 르게 확산됨에 따라 수집된 CCTV 영상에 컴퓨터 시각화(Computer Vision) 기술을 접목한 연구가 증가하고 있다. 교통 분야도 예외는 아닌데, 현재까지 널리 쓰이는 교통 데이터 수집용 컴퓨터 시각화 기술은 주로 수 집된 비디오 영상의 미리 지정한 특정 위치에서 영상의 화소(Pixel) 변화를 프레임 단위로 분석하는 방식이 대세였다. 그러나 화소 기반 시각화 기술은 날씨, 조명, 그림자, 빛 번짐 현상 및 까다로운 카메라 설치 기준 등 그 기술에 내재된 한계점이 부각되면서 교통 데이터 수집분야에서는 점차 그 활용도에 의구심이 높아지 고 있는 실정이다. 이미 컴퓨터 시각화 분야에서는 화소 기반 방식 보다 그 속도와 정확도 측면에서 우수한 학습 기반의 직접 객체 검출 방식으로 관심이 이동하고 있는 추세이다. 더불어 스마트폰, 차량 블랙박스, 드 론 등 다양한 영상 촬영 장비 기술의 발전에 따라 다양한 환경에서 수집되는 도로교통 영상이 생산되고 있 으나 이러한 다양성을 포괄하여 객체 인식을 할 수 있는 연구는 미진한 실정이다.

    이에 본 연구에서는 직접 객체 검출 방식을 활용하여 다양한 외부 조건 하에서 촬영된 영상을 대상으로 교통 객체를 신속․정확하게 검출하는 교통 객체 검출 통합 프레임워크를 제안하고 그 성능을 검증하였다. 여기서 다양한 외부 조건에는 영상의 안정성, 날씨, 촬영 각도 등을 포함한다. 이를 위하여 관련 연구 문헌을 검토한 후 통합적인 교통 객체 추출 프레임워크를 제안하였고, 프레임워크를 구성하는 개별 핵심 요소인 동 영상 전처리 기술과 직접 객체 인식 기반의 컴퓨터 시각화 기술, 다중 객체 추적 기술을 설명하였다. 그리고 다양한 외부 조건에서 촬영된 영상을 대상으로 제안된 방법의 성능을 검증하였다.

    Ⅱ. 문헌고찰

    Nam(2018)은 기존의 Mean-Shift 객체 추적 알고리즘의 성능을 개선하기 위하여 SPAT(Spartial Partition Analysis Tracking) 객체 추적 방법을 제안하였다. Mean-Shift 알고리즘은 계산 속도가 빠르고 상대적으로 양 호한 수준의 추적 정확도를 보여 실시간 영상을 이용한 객체 추적에 많이 활용되어 왔으나 영상 내 음영 혹 은 빛 번짐, 반사, 산란 등에 의하여 객체의 히스토그램을 구성하는 색상과 강도에 변화가 생기는 경우 다른 객체로 인식하는 부작용 또한 존재한다. 이를 극복하기 위하여 YOLO(You Look Only Once, Redmon et al., 2016) 기반 객체 검출기 검출 정보를 추가하여 더욱 객체의 색상변화에 따른 영향을 최소화 하고자 하였다.

    Lee et al.(2018)은 컴퓨터 시각화 기반 객체인식 기술에 딥러닝 모형을 적용하여 차량 및 보행자 계수방법 을 제시하였다. CCTV로부터 1,941개의 학습데이터와 195개의 검증데이터를 구성하여 Darknet (Redmon et al., 2016)에서 제시하는 GoogLeNet (Szegedy et al., 2014) 기반의 Inception (Szegedy et al., 2016) 객체 분류모델을 학습시켰다. 이는 딥러닝 기법을 활용한 높은 정확도의 CCTV영상 분석을 시도했다는 점에서 큰 의미가 있 으나 영상 촬영 위치가 차량을 검지하기에 이상적인 조건일 경우로 한정되는 한계점이 존재한다.

    Lee and Shin(2019)은 CCTV 기반 터널 내 돌발 상황 검지시스템의 오탐지율을 낮추고자 딥러닝 기법을 활 용하였다. 터널 내 경광등, 햇빛의 반사, 차량통행 시 발생하는 음영 등 돌발상황으로 오인식하는 영상을 학 습하여 상황검지의 정확도를 높였다.

    Park et al.(2019)은 차량에 설치된 모노카메라의 영상으로부터 딥러닝을 활용하여 차량을 검출하는 연구를 수행하였다. 이는 차량에 설치된 카메라로 촬영된 영상을 활용하였다는 측면에서 의미가 있으며 차량이라는 객체뿐 아니라 객체와의 거리를 동시에 검출하는 방안을 제시하였다.

    지금까지 살펴본 바와 같이 기존 연구를 통해 영상 내 교통 객체를 추출하는 연구가 꾸준히 진행되어 왔 다. 하지만 본 연구와 같이 다양한 외부 조건 하에서 촬영된 영상을 대상으로 하는 방법과 이를 기반으로 교 통 객체를 인식 및 추적하여 교통 데이터를 직접 수집하는 연구는 드문 편이다. 이에 본 연구에서는 동영상 전처리기와 직접 객체 인식 기술, 다중 추적 기술을 통합한 교통 객체 인식 및 데이터 수집 프레임워크를 제 안하고, 다양한 외부 조건(영상의 안정성, 기상 상태, 촬영 각도)에서 촬영된 영상을 대상으로 그 성능을 검 증한다.

    Ⅲ. 교통 객체 인식 통합 프레임워크 개발

    1. 개요

    본 연구에서 제안하는 교통 객체 인식 방법의 통합 프레임워크는 <Fig. 1>과 같다. 제안된 방법의 구성 요 소는 크게 세 가지로 구분된다. 첫 번째 구성 요소는 직접 객체 인식 작업을 수행하는 객체검출기(Object Detector)이고, 두 번째 요소는 영상 내 객체의 이동경로를 추적하는 객체추적기(Object Tracker), 그리고 마지 막 요소는 동영상을 객체검출기와 객체추적기에 적용하기 위해 여러 가지 가공 작업을 하는 동영상 전처리 기(Video Pre-processor)이다.

    2. 동영상 전처리기

    동영상 전처리기는 관심영역(Region of Interest; ROI) 설정과 추출, 크기 조정(Video Resize), 프레임 분할 (Frame Split), 그리고 동영상 재생성(Video Reproduction) 기능을 수행한다. 동영상으로부터 교통 객체를 검출 하기 위해서는 먼저 동영상 내에 관심영역을 설정하는데, 이는 전체적인 프로세스의 속도 향상을 위한 작업 이다. 영상 내 도로와 함께 촬영된 임야, 하천, 건물 등의 주변 지형지물은 교통객체와는 무관하기 때문에 전 체 작업의 성능을 저하시키는 주요인이다. 따라서 이러한 교통데이터 수집과 직접 관련이 없는 지형지물 등 을 사전에 제거함으로써 교통 객체 검출에 소요되는 시간을 줄일 수 있다. 관심 영역은 네 꼭지점으로 구성 된 사각형으로 설정하도록 하였고, 예기치 못한 동영상의 흔들림 혹은 PTZ (Pan/Tilt/Zoom) 변화 등을 고려하 기 위하여 실제 필요한 관심영역보다 다소 큰 영역을 선택하도록 하였다. 관심영역이 설정되면, 동영상 전처 리기는 관심영역 내 동영상만을 추출한 후 필요에 따라 크기를 조정하는데, 이는 객체검출기에서 좀 더 정확 한 객체 인식이 가능하도록 하기 위함이다.

    동영상 전처리기는 동영상 프레임 분할(이미지화)과 동영상 재생성 기능을 갖는다. 다음 절부터 설명하게 될 객체검출기와 객체추적기는 각기 다른 형태의 입력값을 요구한다. 객체검출기는 이미지(정지 영상)에서 객체를 검출하기 때문에 동영상을 이미지화하여야 하지만, 객체추적기는 그 반대로 동영상에서 객체를 추적 하기 때문에 객체검출기에서 출력된 이미지를 다시 동영상으로 만들어주는 작업이 필요하다. 따라서 동영상 전처리기는 크기 조정이 완료된 동영상을 객체 검출을 위해 프레임 단위로 분할하여 이미지화함으로써 객체 검출기의 입력값을 준비하고, 객체 검출이 완료된 연속된 이미지를 동영상 형태로 재구성함으로써 객체추적 기의 입력값을 준비하는 작업을 수행한다.

    3. 객체검출기

    최근 빅데이터 처리기술과 함께 최신 딥러닝 기법이 컴퓨터 시각화 기술에 적용되기 시작하면서 기존의 화소 기반 방식 대신 영상 내 개별 사물을 직접 인지하는 기법이 등장하게 되었으며, 이는 자율주행차의 핵 심 기술로도 활용되고 있다. 이 기술은 다양한 사물을 인식할 수 있도록 사전에 학습된 기계를 이용, 주어진 이미지 내에 존재하는 사물들을 판별하고 개별 사물별로 판별 정확도를 제공한다. <Fig. 2>는 구글의 웹기반 직접 객체 인식 기술 체험 소프트웨어를 이용해 사진 속 개별 사물들을 판별한 후 그 정확도를 보여주고 있 다. 이미지에는 Motorcycle로 인식되는 사물이 존재하는데, 그것이 실제 Motorcycle일 확률이 96%임을 보여주 고 있다. 또한, Motorcycle은 큰 범주에서 Vehicle, Mode of Transport, Transport등의 상위 범주로 인식될 수 있 음을 보여준다. 이외에도, Road, Sky, Asphalt 등도 각각 87%, 82%, 75% 정확도를 가지고 학습된 기계, 즉 사 물을 판별하는 인공지능에 의하여 인식되었음을 보여주고 있다.

    Szegedy et al.(2016)은 합성곱 신경망 구조를 기본으로 하는 GoogLeNet의 성능을 향상시킨 Google Inception 영상 분류기를 개발하였다. 이는 기존 기술에 비해 상대적으로 객체 추출 속도가 빠르고 향상된 정 확도를 보이고, 또한 저해상도(320x320이하) 영상에서 기존의 분류 모형에 비해 보다 정확한 결과를 도출하 는 것으로 나타났다. 추출된 객체들은 자동으로 해당 객체가 속한 그룹으로 표지화(Labeling)되는데, 이때 객 체 그룹은 Open Images Dataset1)에 정의된 총 600개의 객체 그룹 분류기준을 사용한다. Open Images Dataset 은 약 190만개의 서로 다른 정지영상에서 추출한 약 1600만 개의 객체를 600개의 그룹으로 분류해 놓은 기 계 학습을 위한 범용 영상 데이터베이스로 누구나 이용할 수 있는 Open Source이다.

    본 연구에서는 Google Inception 영상분류기를 객체검출 핵심 모형으로 사용하기 위해 Google Cloud Platform (GCP) Vision API2)를 이용하였는데, GCP Vision API는 미리 학습된 클라우드 기반의 고성능 영상처 리 모형을 사용할 수 있도록 구축한 다기능 기계학습 플랫폼으로, 영상 내 불특정 객체의 검출 및 표지화, 그리고 문자 및 로고 검출, 안면 인식 등을 가능케 한다. 파이썬을 이용하여 매 10 프레임마다 선택된 영상 들을 GCP로 전송하고, 그 검출 결과(영상 내 객체의 위치와 표지)를 수신하는 객체검출기를 개발하였다. 즉, 초당 30 프레임(30 fps)의 동영상이 사용되는 경우 매 10/30초 마다 정지 영상이 GCP로 전송되는 것으로, 1초 에 총 3개의 이미지가 분석됨을 의미한다. 또한 객체 표지화를 위해 Open Images Dataset의 600개 객체 그룹 중 교통 객체와 관련 있는 Vehicle, Car, Bus, Truck, Van 그룹만을 사용하였다.

    <Fig. 3>은 객체검출기에 의하여 검출된 차량 객체들을 보여준다. 그림에서 볼 수 있듯이 검출된 객체들은 주로 카메라와 가까운 영역에서 관측되는 경우가 많은데, 이는 객체의 형상이 선명할수록 더 정확한 객체 인 식이 가능하기 때문이다. 좌측 이미지의 경우 접근 교통류이기 때문에 상류부보다는 하류부에서 더 정확한 검출이 이루어진 반면 우측 이미지의 경우 상류부에서 더 정확한 검출이 이루어진 것을 확인할 수 있다. 또 한 차량의 전면부뿐만 아니라 후면부를 찍은 경우에도 정확하게 객체 검출이 가능한 것을 알 수 있다.

    4. 객체추적기

    검출된 교통객체가 교통데이터로서 의미를 가지기 위해서는 검출된 개별 객체에 고유 번호를 부여하고, 연속된 시간 순서에 따라 각 객체의 이동경로를 추적하여야 한다. 따라서 이러한 추적과정을 수행하기 위해 서는 연속된 프레임, 즉 동영상 형태의 영상 데이터를 사용해야 하며, 이를 위해 동영상 전처리기는 객체 검 출을 위해서 프레임 단위로 분해되었던 이미지를 다시 동영상 형태로 취합하는 작업을 수행하고, 객체추적 기는 이를 입력값으로 하여 개별 객체를 추적하는 작업을 수행한다.

    동영상 기반 객체추적 알고리즘에는 배경분리기반 객체 추적(Background Subtraction Tracking)(Malik et al., 2013), 중심점 추적(Centroid Tracking) (Yilmaz et al., 2018), Continuously Adaptive Mean Shift(Camshift)(Allen et al., 2004), 그리고 Discriminative Correlation Filter with Channel and Spatial Reliability (CSR-DCF) (Lukezic et al., 2016), Kernelized Correlation Filters (KCF) (Henriques et al., 2015) 등이 있다. 교통 데이터용 동영상에는 다수 의 교통 객체가 하나의 영상에 존재하고, 또한 이들이 연속적으로 이동을 하기 때문에 이러한 특성을 고려하 여 본 연구에서는 CSR-DCF를 채택하였다. 기술적인 측면에서 CSR-DCF와 KCF가 유사한 성능을 보이나 속 도 측면에서는 KCF가, 정확도 측면에서는 CSR-DCF가 더 우수한 것으로 알려져 있다. 또한, 다수의 객체가 화면상 중복 겹침 되는 현상을 처리하는데 있어 CSR-DCF가 KCF에 비해 우수한 성능을 보이는 것으로 알려 져 있다.(Lukezic et al., 2016). 위에서 언급된 객체 추적 알고리즘에 대한 상세한 설명은 본고의 범위를 벗어 나는 바, 관심 있는 독자들은 관련 문헌을 참고하기 바란다.

    교통 객체 추적은 객체검출기를 통해 객체 검출이 된 시점부터 시작되며, 추적 중이던 해당 객체가 화면 에서 사라지기 전까지 계속되며 영상 내에서 사라지는 순간 통과교통으로 계수된다. <Fig. 4>는 다수의 교통 객체들의 위치 변화를 시간 순서에 따른 연속된 프레임별로 표시하여 나타내고 있다. 160번째 프레임에서 총 4대의 승용차량이 검출됨과 동시에, 객체추적기는 각각의 객체에 1부터 4까지의 일련번호를 부여한다. 그 리고 매 프레임별로 외곽선을 이용하여 객체를 추적하는데, 예를 들어 30 fps의 동영상의 경우 1/30초의 간격 으로 추적을 하게 된다. 170번째 프레임에서 볼 수 있듯이 1번 차량의 외곽선이 영상 밖으로 이동하는 순간 한 대의 차량이 통과한 것으로 계수하게 되고 그 차량의 일련번호는 재사용하지 않는다. 그리고 180번 프레 임에서와 같이 객체검출기에 의해 새로운 객체가 검출되면 새로운 일련번호를 부여한다. 즉, 추적되는 객체 의 생성과 소멸에 따라 일련번호의 부여와 삭제, 추적 과정을 반복하게 되며, 어떤 객체의 추적이 진행되는 과정 중 소요된 총 프레임 수를 파악하여 이를 이동 간 소요된 시간으로 변환함으로서 통행시간과 속도를 추정할 수 있을 뿐 아니라 점유율 등의 교통데이터 추정도 가능하다.

    Ⅳ. 실험 및 결과분석

    1. 실험 설정

    본 연구에서 제안된 교통 객체 검출 방법의 성능을 검증하기 위해 다음과 같이 세 가지 실험 인자와 개별 조건을 구성하였다.

    • - 영상의 안정성 (Stability): 고정(Fixed), 흔들림(Shaking)

    • - 영상 내 기상 상태 (Weather Condition) : 정상(Normal), 눈(Snow), 비(Rain), 안개(Fog)

    • - 영상 촬영 각도 (Video Angle): 차량 전면부(Vehicle Front), 차량 후면부(Vehicle Rear)

    전술한 바와 같이 기존의 화소 기반 교통 데이터 수집 기술은 그 특성상 영상의 안정성에 매우 민감한 반 면, 제안된 방법에서 사용하는 객체 직접 인식 기법은 영상의 흔들림이나 PTZ 변화에 상대적으로 적은 영향 을 받기 때문에 그 성능을 입증하는데 영상의 안정성은 적합한 조건이 될 것으로 사료된다. 또한, 기존의 교 통데이터 수집 기술은 영상 내 기상 상태에도 상당한 영향을 받음을 감안할 때 제안된 방법이 기상 상태에 따라 어떠한 성능을 보이는지도 중요한 성능 평가 항목이라 판단된다. 마지막으로 기존의 기술이 대부분 차 량 전면부에 대한 영상만을 대상으로 하였으나 제안된 방법은 후면부 영상에 대한 처리도 가능함을 보이기 위해 촬영 각도가 다른 영상을 실험 인자로 추가하였다. 실험에 사용된 영상과 각각의 영상에 대한 실험 조 건은 <Fig. 5>와 <Table 1>과 같다.

    성능 검증 지표로는 통과 교통량을 사용하였고, 실측자료는 데이터 수집요원이 직접 계수하였다. <Table 2>는 모형의 예측 성능 검증에 널리 이용되는 Confusion Matrix (CM)이다. 이는 딥러닝 기반 예측 방법의 효 과성 지표를 표현하는데 많이 활용되고 있는데, 예측된 값을 실제값과 비교하여 True Positive (TP), False Positive(FP), False Negative (FN), 및 True Negative(TN)으로 구분한다. TP는 실제 교통객체가 정확하게 교통객 체로 검출된 횟수이고, FP는 실제 비교통 객체가 교통 객체로 잘못 인식한 횟수, FN은 실제 교통 객체가 검 출되지 못한 횟수, 그리고 TN은 실제 비교통 객체를 비교통 객체로 검출하는 횟수를 나타낸다.

    정확도 ACC(%) = 100 x (TP + TN) / (TP+FP+FN+TN)
    (1)

    CM을 이용하여 식 (1)과 같이 정확도(Accuracy)를 성능 평가 지표로 사용하였는데, 정확도는 전체 경우의 수 중 TP와 TN의 합의 비율로 정의된다. 즉, 전체 검출된 객체 중 얼마나 많은 객체가 실제로 정확하게 검출 되었는지를 의미한다.

    2. 실험 결과 및 분석

    <Table 3>은 각 실험별로 얻은 실측 교통량(Ground Truth)과 TP, FP, FN, TN, 그리고 정확도를 보여준다. 66.7%와 81.4%의 낮은 정확도를 보인 실험4와 실험5, 즉 악기상(비, 눈) 조건의 동영상을 제외한 모든 실험 에서 98% 이상의 정확도를 보였다. 그리고 특징적인 것은 실제 비교통 객체를 교통 객체로 잘못 검출하거나 (FP) 비교통 객체로 검출하는(TN) 횟수가 없는 것으로, 이는 화소 기반의 객체 검출에 비해 딥러닝 기반의 직접 객체 인식 기술의 우수성을 나타낸다.

    가장 낮은 정확도를 보인 우천 시 영상(실험4)의 경우, 객체 검출기가 전체 교통 객체 중 약 33%에 해당하 는 객체를 비교통 객체, 예를 들어 동물, 벌레, 귀걸이, 조명 등으로 오인식 하였다. 이렇게 비교통 객체가 검 출된 경우 객체추적기 대상에서 제외되고 그에 따라 통과 교통량 수집에서 누락된다. 악기상 하에서 촬영된 영상의 경우 인간의 눈으로 보기에도 차량으로 정확히 인식하기에는 어려움이 있을 수 있다. 다만, 데이터를 추출하는 과정에서 인간은 필요한 객체의 형상 외에도 전체 영상에서 얻을 수 있는 다양한 정보를 바탕으로 객체를 검출한다. 즉, 1) 해당 영상이 비가 오는 상황에서 도로상의 구간을 촬영하고 있다는 점, 2) 도로상에 는 주로 차량들만 이동할 수 있다는 점, 그리고 3) 우천 시 많은 차량들이 전조등을 켜고 운행한다는 사실 등을 바탕으로 객체 인식에 대한 판단을 내리게 된다. 따라서 영상에서 보이는 어떤 객체의 형태가 실제 차 량 형태와는 다소 다르게 느껴지더라도, 앞서 언급한 판단 근거를 기반으로 차량으로 인식하게 되는 것이다. 딥러닝 기반의 객체검출기가 비록 무수히 많은 영상 자료를 바탕으로 학습을 하였으나, 인간의 복합적 판단 능력과는 아직 많은 차이가 있음에는 이견이 없을 것이다. 따라서 인간과 유사한 수준의 객체 검출 정확도를 이루기 위해서는 보다 다양한 조건에서 수집된 학습 자료를 이용하여 지속적으로 학습을 수행해야 한다.

    화소 변화 분석 기반의 객체 검출에 비해 직접 객체 검출 기술은 두 개 이상의 차량이 서로 겹치는 경우 에도 각 차량들을 정확히 분리하고 그에 따른 객체 추적을 수행하는 것으로 나타났다. <Fig. 6>의 좌측 그림 에서 볼 수 있듯이 좌표 (720,252)에 위치한 승용차는 전방에 위치한 소형 트럭에 의하여 부분적으로 가려져 있었으나, 객체검출기는 독립된 차량으로 인식했음을 보여준다. 또한 차로 변경을 나타내는 우측 그림에서도 여전히 승용차의 일부분이 트럭에 가려져 있으나 독립 객체로 인식하고 있음을 알 수 있다.

    Ⅴ. 결 론

    본 연구에서는 직접 객체 인식 기술을 활용하여 영상의 안정성, 기상 상태, 촬영 각도 등의 다양한 외부 조건 하에서 촬영된 영상을 대상으로 교통 객체를 신속․정확하게 검출하는 교통 객체 검출 통합 프레임워 크를 개발하고 그 성능을 검증하였다. 먼저 통합적인 교통 객체 검출 프레임워크를 제안하였고, 프레임워크 를 구성하는 개별 핵심 요소인 동영상 전처리 기술을 개발하고, 직접 객체 인식 기반의 컴퓨터 시각화 기술 인 Google Inception 영상 분류기와 다중 객체 추적 기술인 CSR-DCF를 통합하여 프레임워크를 완성하였다. 그리고 다양한 외부 조건에서 촬영된 영상을 대상으로 제안된 방법의 성능을 검증하였다. 검증 결과, 열악한 기상 조건을 제외한 실험상황에서 98% 이상의 정확도를 보였고, 특히 개별 객체를 형상에 따라 검출하고 이 를 추적하는 방식을 통해 차량 간 겹침 현상으로 인한 오검지 문제를 해결할 수 있었다. 이러한 검증 및 분 석을 통해 제안된 방법은 화소 기반 객체 검출 방법에 비해 우수하며, 일부 흔들림이 존재하는 영상, 예를 들어 스마트폰, 차량 블랙박스, 드론 등에서 촬영된 동영상에도 적용이 가능함을 입증하였다.

    성능 검증은 기 저장된 영상 파일을 대상으로 수행한 Off-Line 실험이다. 그러나 기술적인 측면에서 실시 간 동영상 자료와 저장된 동영상 자료를 사용하는 데는 큰 차이가 없기 때문에 실시간 영상 분석에도 활용 이 가능할 것으로 기대된다. 따라서 향후 관계 기관과의 협의를 통하여 실제 도로상에 설치된 실시간 CCTV 영상을 활용하여 교통 데이터를 직접 수집하는 연구가 필요하다. 또한, 정확도가 낮게 나온 강우 및 강설 시 에도 우수한 성능이 가능하도록 관련 영상 또는 이미지로 객체검출기를 학습할 필요가 있고, 본 연구에서 다 루지 못한 강수 세기 수준에 따른 성능 검증도 필요하다. 더불어 시간대에 따른 상이한 조명조건(이른 새벽, 낮, 이른 저녁, 늦은 밤)과 태양 혹은 다른 물체로부터의 빛 반사 효과 등에 대한 실험, 그리고 기존 유사 시 스템과의 비교 실험도 향후 연구에서 다루어질 필요가 있다. 마지막으로, 실험에서 사용된 영상은 모두 고속 도로와 같은 연속류 도로를 대상으로 촬영된 것이기 때문에 향후 단속류가 많은 도심부 도로 환경에서 촬영 된 영상에 대한 성능 검증이 필요할 것으로 판단된다.

    Figure

    KITS-18-6-191_F1.gif

    Integrated Framework for Traffic Object Detection

    KITS-18-6-191_F2.gif

    Direct Object Detection Technology (source: Google, 2019)

    KITS-18-6-191_F3.gif

    Examples of traffic objects detected by Object Detector

    KITS-18-6-191_F4.gif

    Examples of traffic object tracking techniques

    KITS-18-6-191_F5.gif

    Samples of video clips

    KITS-18-6-191_F6.gif

    Example of overlapped objects

    Table

    Experimental conditions and source of video clips

    Confusion Matrix (CM)

    Experiment result

    Reference

    1. Allen J. , Richard Y. D. , Jin S. (2004), “Object Tracking Using Cam Shift Algorithm and Multiple Quantized Feature Spaces,” '05 Proceedings of the Pan-Sydney Area Workshop on Visual Information Processing, pp.3-7.
    2. Henriques J. F. , Caseiro R. , Martins P. and Batista J. (2015), “High-Speed Tracking with Kernelized Correlation Filters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, pp.583-596.
    3. Lee K. and Shin H. (2019), “Effect on self-enhancement of deep-learning inference by repeated training of false detection cases in tunnel accident image detection,” Journal of Korean Tunnelling and Underground Space Association, vol. 21, no. 3, pp.419-432.
    4. Lee T. , Kim K. , Yun K. , Kim K. and Choi D. (2018), “A Method of Counting Vehicle and Pedestrian Using Deep Learning Based on CCTV,” Journal of Korean Institute of Intelligent Systems, vol. 28, no. 3, pp.219-224.
    5. Lukezic A. , Vojir T. , ˇCehovin Zajc L. , Matas J. and Kristan M. (2017), “Discriminative Correlation Filter with Channel and Spatial Reliability,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.6309-6318.
    6. Malik A. A. , Khalil A. and Khan H. U. (2013), “Object detection and tracking using background subtraction and connected component labeling,” International Journal of Computer Applications, vol. 75, no. 13.
    7. Nam S. (2018), Deep learning-based real-time object tracking on CCTV, M.S Thesis, Kwangwoon University, South Korea.
    8. Park M. , Kim H. , Choi H. and Park S. (2019), “A Study on Vehicle Detection and Distance Classification Using Mono Camera Based on Deep Learning,” Journal of Korean Institute of Intelligent Systems, vol. 29, no. 2, pp.90-96.
    9. Redmon J. , Divvala S. , Girshick R. and Farhadi A. (2016), “You only look once: Unified, real-time object detection,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.779-788.
    10. Szegedy C. , Liu W. , Jia Y. , Sermanet P. , Reed S. E. , Anguelov D. , Erhan D. , Vanhoucke V. and Rabinovich A. (2014), “Going deeper with convolutions,” 2015 IEEE Conference on Computer Vision and Pattern Recognition, pp.1-9.
    11. Szegedy C. , Vincent V. , Sergey I. , Jonathon S. and Zbigniew W. (2016), “Rethinking the Inception Architecture for Computer Vision,” 2016 IEEE Conference on Computer Vision and Pattern Recognition, pp.2818-2826.
    12. Yilmaz A. , Javed O. and Shah M. (2006), “Object tracking: A survey,” ACM Computing Surveys, vol. 38, no. 4, p.13.
    13. Youtube,https://www.youtube.com/watch?v=UM0hX7nomi8, Last Access: 2019.10.31.

    저자소개

    Footnote

    • https://opensource.google/projects/open-images-dataset
    • https://cloud.google.com/vision