Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.17 No.3 pp.98-110
DOI : https://doi.org/10.12815/kits.2018.17.3.98

A Study on Improvement of Dynamic Object Detection using Dense Grid Model and Anchor Model

Borin Yun^*, Sun Woo Lee^**, Ho Kyung Choi^***, Sangmin Lee^****, Jang Woo Kwon^*****

^*Dept. of Computer Science and Engineering, Univ. of Inha
^**Dept. of Computer Science and Engineering, Univ. of Inha
^***Dept. of Information and Electronic Engineering, Univ. of Mokpo
^****Dept. of Electronic Engineering, Univ. of Inha
^*****Dept. of Computer Science and Engineering, Univ. of Inha

Corresponding author : Jang Woo Kwon, jwkwon@inha.ac.kr

Received 20180409 │ Revised 20180413 │ Accepted 20180613

Abstract

In this paper, we propose both Dense grid model and Anchor model to improve the recognition rate of dynamic objects. Two experiments are conducted to study the performance of two proposed CNNs models (Dense grid model and Anchor model), which are to detect dynamic objects. In the first experiment, YOLO-v2 network is adjusted, and then fine-tuned on KITTI datasets. The Dense grid model and Anchor model are then compared with YOLO-v2. Regarding to the evaluation, the two models outperform YOLO-v2 from 6.26% to 10.99% on car detection at different difficulty levels. In the second experiment, this paper conducted further training of the models on a new dataset. The two models outperform YOLO-v2 up to 22.40% on car detection at different difficulty levels.

Key Words : CNNs , Next generation ITS , Safety Service , Object Detection , BVI pedestrian

고밀도 그리드 모델과 앵커모델을 이용한 동적 객체검지 향상에 관한 연구

윤 보 른^*, 이 선 우^**, 최 경 호^***, 이 상 민^****, 권 장 우^*****

^*주저자 : 인하대학교 컴퓨터공학과 석사과정
^**공저자 : 인하대학교 컴퓨터공학과 석사과정
^***공저자 : 목포대학교 정보전자공학과 교수
^****공저자 : 인하대학교 전자공학과 교수
^*****교신저자 : 인하대학교 컴퓨터공학과 교수

초록

본 논문은, 동적인 객체의 인식률 향상을 위해 고밀도 그리드 모델과 앵커 모델을 제안하 였다. 두 가지 실험은 수행하여 제안하는 CNN 모델들을 제안하였다. 첫 번째 실험에 있어서, YOLO-v2모델을 KITTI 데이터 셋에 적용시켜 보았고, 고밀도 그리드 모델과 앵커 모델을 기 존 YOLO-v2와 비교하였다. 실험에 있어서, 본 논문에서 제안하는 두 가지 모델은 기존의 YOLO-v2모델에 비하여 ‘어려움’ 난이도의 자동차 검지에 있어서 6.26%에서 10.99%까지 우 수한 성능을 나타낸 것을 확인하였다. 두 번째 실험에 있어서는 새로운 데이터 셋을 학습하 였고, 두 가지 모델은 기존의 YOLO-v2모델보다 22.4%까지 ‘어려움’ 난이도의 자동차 인식률 향상이 있음을 확인할 수 있었다.

키워드 : 합성곱 신경망 , 차세대 ITS , 안전서비스 , 객체 검지 , 맹인 및 시각 장애인 보행자

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ministry of Science and ICT
Institute for Information&communications Technology Promotion

Ⅰ 서 론

1 개 요

1) 문제의 정의

2017년 10월 WHO(World Health Organization)의 발표에 따르면 전 세계 약 285백만 명의 사람들이 맹인 또 는 시각 장애인이라고 밝혔다(World Health Organization, 2017). 본 연구는 시각장애인들의 보행 자유성을 확 보하기 위해 카메라 기반의 동적 객체 판별장치 개발을 위한 기초 연구이다. 시각장애인들의 이동 안정성과 독립성을 확보하기 위해 무엇보다도 중요한 요소는 보행에 있어서 방해물이 될 만한 객체를 실시간으로 탐 지할 수 있는 객체 인식기술이라 할 수 있다. 향후 동적 객체 판별장치 개발되면 시각장애인의 모자나 안경 등에 카메라를 장착하고 획득한 영상을 네트워크를 통해 서버로 전송하고 판단 결과를 시각장애인에게 소리 등의 정보로 변환하여 이들이 위험한 도로환경에서 보다 안전하게 이동할 수 있는 환경을 제공할 수 있다. 이를 위해 본 연구에서는 실시간으로 도로에서의 이동 물체를 신속히 인식하기 위한 방법을 제안한다. 그동 안 딥러닝 등을 통해 영상인식을 위한 많은 연구가 진행되어 오고 있으며 동적인 물체 인식을 위해 YOLO가 많이 활용되고 있다. 하지만 YOLO의 경우 작은 물체의 인식 등이 쉽지가 않은 단점이 있다.

2) 관련연구

전통적인 접근방법 : 맹인 또는 시각장애인의 안전한 보행에 있어서 다음과 같은 효과적인 연구들이 있었 다. 기존의 접근법 중 일부는 지팡이/안내 견을 이용하거나, 스테리오 비전 기반 장애물 탐지(Molton, 1998), NAVI(Wong, 2003) 및 실시간 비디오를 기반으로 한 어쿠스틱 퍼셉트론(Rao, 2012) 등 한 다양한 방법들이 있다. 하지만 이러한 기술들은 야외에서는 효과적이지 않거나 많은 하드웨어를 필요로 하기 때문에 가격이 비싸고 맹인 또는 시각장애인들에게 친숙하지 않다.

딥러닝을 통한 접근방법 : 인공지능은 기술 산업에 있어서 현재 활발히 연구가 되는 분야 중 하나이다. 합 성곱 신경망(Convolutional Neural Networks 이하 CNN)을 통해 수많은 컴퓨터 비전 응용 연구가 발표되었다. 카메라 입력만을 이용하여 물체를 인식하기 위한 시각장애인 전용 보행자 보행 도구 개발을 위해 CNN을 사 용한다면 다음과 같은 몇 가지 이점을 가질 수 있다. 첫째, 값비싼 센서들을 줄일 수 있어서 비용적인 측면 에서 도움이 된다. 둘째, 단순히 카메라의 입력과 이를 처리하는 프로세서만 있으면 되기 때문에 공간적인 측면에도 도움을 줄 수 있기 때문에 휴대성이 좋아지고 인체공학적인 설계가 가능하다. 마지막으로, 센서의 개수를 줄임으로써 계산량을 줄이게 되고 하드웨어의 소형화가 가능하게 된다. 즉 컴퓨터의 계산능력, 배터 리 수명 및 배터리 중량의 감소를 가져올 수 있어 실용화에 유리한 측면을 갖게 된다.

합성곱 신경망은 다중 레이어 뉴런 네트워크(Multi-layer neural Networks)의 한 종류로서 픽셀로 구성되어 있는 이미지 학습은 이미지의 시각적인 패턴을 학습하는 방법으로 사용되어진다. 그 중에서도 여러 합성곱 신경망을 쌓아서 학습하는 딥러닝(Deep Learning)은 이러한 수많은 문제들을 해결할 뿐만 아니라 컴퓨터비전 분야에 있어서 성공적인 궤도에 오를 수 있었다.

이러한 많은 시도에도 불구하고 컴퓨터 비전을 이용하여 시각 장애인의 편리성을 위한 객체점지 및 보행 보조에 대한 연구 및 시도는 많지 않았다. 컴퓨터 비전 기반의 출입문 탐지(Eichenseer, 2016)와 같은 시도들 이 있었는데, 제안하는 알고리즘으로는 출입문 탐지 알고리즘으로서 문들의 특징 들을 많은 모서리와 선들 의 결합하여 문을 감지하였다. 또한 제안하는 알고리즘은 주어진 출입문들의 데이터베이스를 사용하여 비슷 한 모양의 문에 대해서 문을 구분하는데 사용되고 평가되는데 사용되었다.

본 연구에서는 맹인 및 시각장애인의 보행 결정능력을 향상시키기 위하여 CNN을 사용하여 도시보행에 있어서 동적으로 등장하는 장애물(자동차, 보행자, 및 자전거를 타는 사람)을 감지하고자 한다. 2절에서는 본 논문에서 사용하고자 하는 실험데이터, 실험방법, 모델, 학습방법에 대하여 설명하고, 3장에서는 본 논문에서 제안하고자 하는 실험에 대한 자세한 설명과 한계에 대하여 설명 하고자 한다. 그리고 4장에서는 결론을 통 하여 향후 연구 방향에 대하여 설명하도록 한다.

Ⅱ 제안하는 방법

본 연구에서는 시각장애인의 보행 결정능력의 실제 적용을 위하여 장애물 탐지를 우선적으로 해결하기 위하여 두 가지 실험을 수행하였다. 첫 번째 실험(실험 1)에서는 먼저 KITTI 데이터 세트를 이용하여 YOLO-v2 모델과 제안하는 모델을 시험해보고 성능을 평가할 것이다. 두 번째 실험(실험 2)에서는 직접 획득 한 DOKR(Data on Korean Road)데이터 세트를 대상으로 YOLO-v2와 제안하는 기존 그리드 모델을 변경한 고 밀도 그리드모델(1216x352) 및 앵커 모델(anchor-model)에서의 성능을 비교 평가하고자 한다.

1 실험 1

1) Dataset

본 연구에서는 연구결과의 효용성을 입증하기 위하여 동영상 객쳉 인식 실험에 많이 사용되는 표준 데이터 셋을 사용할 것이다. 연구에 많이 사용되는 데이터 세트에는 Real-World Fisheye Video Sequence(Eichenseer, 2016), Road Lane Detection (KITTI)(Geiger, 2012), 그리고 2d Object Detection (KITTI)(Geiger, 2012)가 있다. 이 데이터 세트 모두 본 연구에서 제안하는 실외 데이터에 필요한 정보가 담겨져 있지만 본 연구에서는 KITTI 데이터 세트를 사용하였다. KITTI를 선택한 이유는 첫째로, 본 연구에 적합한 형태로 Ground Truth가 설계되 었고, 둘째로는 옥외환경(도시, 주거, 도로, 캠퍼스 및 사람 등)에 적합한 각가지 물체에 대한 데이터를 보유 하고 있으며 셋째로 영상이 인간이 보는 눈의 각도와 비슷한 각도에서 촬영되었기 때문이다.(Geiger, 2012)

본 연구에서는, 7480장의 영상에 나타난 33,630개의 물체의 데이터를 통하여 훈련을 시켰으며 이중 영상 을 8:2의 비율로 나누어, 5,984장의 영상을 훈련 데이터 세트로 사용하였으며 1,496개의 이미지를 테스트 데 이터 세트로 사용하였다. 또한 영상에 포함되어 있는 8개의 객체종류 중 시각장애인이 도로 보행상황에서 가장 빈번하게 마주치며 위험을 가할 수 있는 3개의 종류만을 인식하도록 하였다. 3개의 종류는 자동차, 보 행중인 사람과 자전거를 타고 있는 사람으로 정의하였다. KITTI 훈련용 세트에 나타나 있는 본 논문에서 제 안하는 객체의 종류와 개수, 비율은 <Table 1>과 같다.

2) 제안하는 모델

본 실험에서는 YOLO-v2 네트워크를 기반으로 변형된 네트워크 구조를 갖는 YOLO-v2 실험을 진행을 하 였다. YOLO-v2의 입력 해상도는 416x416이며 VOC 2007의 경우 mAP(mean Average Precision)은 76.8% 이고 GTX Titian X의 그래픽카드의 병렬처리를 통해 67FPS(Frame Per Second)로 이미지를 처리 하게 된다 (Redmon, 2016). 시각장애인이 실생활에서 사용할 수 있으려면, 실시간 객체의 탐지속도와 높은 정확도가 요 구되어진다. 하지만, 이러한 본 연구에서는 목표 클래스를 탐지하기 위해서 데이터 세트에서 네트워크를 미 세 조정해야 한다. 이렇게 하기 위해서 우리는 네트워크의 마지막 레이어를 약간 변경했다. 목표 클래스의 수는 3으로 설정이 되고 이에 따라서 클래스의 필터는 40개의 레이어로 구성된다.

3) 고밀도 그리드 모델

본 연구에서 선택한 데이터 세트에는 몇 가지 중요한 문제점이 있다. 본 연구에서 제안한 모델의 원하는 입력 해상도와 달리 데이터 세트 영상은 정사각형의 해상도가 아니다. 또 다른 문제는 대상 객체의 크기가 큰 전체 이미지 해상도에 비해 매우 작다는 것이며 또한 이러한 작은 객체들은 일반적으로 함께 모여 겹쳐 있는 경우가 많다.

입력 해상도가 정사각형이 아닌 문제를 해결하기 위하여 본 논문에서는 입력 해상도에 맞추어 첫 번째 레 이어의 크기를 증가시키는 방식을 제안하였다. 제안한 네트워크 해상도는 정사각형 해상도가 아닌 직사각형 의 형태이기 때문에 해상도의 크기를 강제로 변환하지 않아도 되는 이점을 갖게 된다. <Fig. 1>은 본 연구의 고밀도 그리드 모델의 적용 과정을 다이어그램으로 나타내었다.

YOLO-v2 네트워크는 416x416의 네트워크 해상도를 사용하고 있으며 최종 그리드 셀은 13x13으로 구성되 어 있다(Redmon, 2016). 본 연구에서는 큰 이미지의 입력 해상도를 왜곡시키지 않기 위해여 2개의 입력 해상 도를 갖도록 네트워크를 변형한 고밀도 그리드 모델을 제안하였다. 이들의 입력해상도는 640x192와 1216x352 이며 각각 20x6 및 38x11에서 최종 그리드 셀을 생성하게 된다. <Fig. 2>는 본 실험에서 진행할 38x11의 최 종 그리드 셀의 샘플 이미지 화면이고, <Table 2>는 모델별 고밀도 그리드 모델의 입력 해상도와 최종 그리 드 셀의 크기를 나타낸다.

4) 앵커 모델

두 번째 제안하는 방법은 앞서 실행했던 고밀도 그리드 중 1216x352 모델에 의하여 생성된 각 그리드 셀 중심을 기준으로 앵커 모델을 적용하였다. 객체가 위치한 Ground Truth의 경계 박스의 영역을 최적화를 위하 여 훈련 데이터들의 폭과 높이를 k-평균 클러스터링을 적용하여 최적 경계박스의 폭과 높이를 산출하였다. <Fig. 3>은 본 논문에서 제안한 앵커모델의 동작 다이어그램이다.

실제 상황에 적용하기 위해 앵커모델에서는 고유한 크기 바운딩 박스 크기를 사용하였다. 앵커 모델의 경 우, 본 연구에서는 고유의 앵커 박스를 생성하기 위하여 훈련 세트에서 k- 평균 클러스터링을 사용하여 박스 의 크기를 조정하였다. 본 연구에서는 재현율(recall) 및 검출(detection) 알고리즘의 복잡성의 균형을 위해서 앵커 박스의 수를 5로 설정했다.

데이터 세트에 대한 클러스터링을 수행한 후 <Fig. 4>에 표시된 앵커 박스의 각각 다른 5세트를 생성하였 다. 이를 통해 앵커 박스의 크기는 폭과 높이는 <Table 3>과 같다.

5) 훈 련

본 연구에서 TensorFlow상에서 Python3을 이용하여 네트워크를 구현하고 최적화를 위해 Adam Optimizer를 사용하였고 2개의 제안하는 모델을 학습시키기 위하여 GTX TITAN X 그래픽카드를 사용하였다. 각 모델에 대해하여 YOLO-v2 모델은 batch size는 32 subdivision은 8로, 고밀도 그리드 모델과 앵커 모델은 똑같이 사용 할 수 있으나 큰 입력 해상도로 인해 batch size 8과 subdivision 8로 설정하여 학습하였다. 이는 정방향/역방향 과정들이 YOLO-v2가 나머지 모델보다 4배 더 빠르게 진행됨을 의미한다. 또한 초기 훈련은 1.00E-05의 학습 률(learning rate)로 30개 epoch로 훈련시켰으나 제안한 모델들은 일정한 패턴의 손실함수의 값으로 진동함을 보였다. 학습모델의 손실함수가 최소가 되도록 우리는 1.00E-06의 더 작은 학습률을 가진 또 다른 30개 epoch를 가지고 모든 모델을 훈련시켰다. 훈련 임계값은 0.6을 사용하였으며 이는 0.6 이상의 점수를 가진 객 체들에 대해서만 훈련되고 나머지는 무시된다는 것을 의미한다.Fig. 5

6) 실험 결과

실험에서 검출하려고 하는 각 클래스에 대한 IOU (Intersection over Union) 임계값이 다르며 본 연구에서는 각 클래스에 대한 KITTI 벤치마크(Geiger. A, 2012)를 참조하였다. KITTI 벤치마크 에서 제공하는 평가 도구 를 사용하여 모든 모델의 mAP(mean Average Precision)와 상대적인 난이도(difficulty level)를 계산하였으며 인 “자동차”는 IOU의 임계 값(threshold)이 0.7이며 “보행자”및 “자전거 타는 사람”은 0.5의 값을 갖는다.Fig. 6

KITTI 데이터 세트는 각 클래스에 대해 다음과 같은 세 가지 수준의 난이도가 정의되어 있다. (1) 저난이 도: 최소 경계 상자(minimum bounding box) 높이가 40 픽셀이고 최대 은폐 수준(maximum occlusion level)에 따라서 "완전히 표시됨", 최대 오차 15% (2) 보통난이도 : 최소 경계 상자 높이 25 픽셀, 최대 교접 수준은 " 부분적으로 겹쳐짐", 최대 오차 30% (3) 고난이도 : 최소 경계 상자 높이는 25 픽셀, 최대 교접 수준은 "보기 어려움", 최대 오차 50%, (4) 고려하지 않음 : “크기가 너무 작거나 상당 부분 은폐되어 있음”(Geiger. A, 2012)로 분류된다.

<Table 2>는 실험 1의 결과이며, Anchor model은 모든 수준의 자동차 감지에서 가장 높은 결과를 나타냈 다. Anchor Model이 자동차 검지의 경우 YOLO-v2와 비교해 보았을 때 6.99∼10.59% 우수함을 나타냈다.

고밀도 그리드 모델의 경우 두 가지 입력 모델을 사용하였으며 1216x352 변형입력 모델이 모든 클래스 감 지 및 모든 고난이도 데이터에 대하여 640x192 변형입력 모델보다 더 나은 결과를 나타내는 것으로 보였다. 1216 x 352 변형입력의 고밀도 그리드 모델은 자동차 검지에 있어서 4.66∼8.99%로 YOLO–v2모델보다 더 좋은 결과를 나타내었다. 하지만 Anchor 모델이나 640x192의 고밀도 그리드모델과 비교해 보았을 때에는 차 량탐지에 있어서 Anchor Model이 데이터 난이도 수준에 따라 1.6∼3.18% 만큼 고밀도 그리드 모델보다 더 나은 성능을 나타낸다는 것을 확인할 수 있었다. 하지만 보행자 및 자전거 타는 사람을 인식하는 부분에 있 어서는 탐지에 있어서는 YOLO–v2가 가장 좋은 인식 결과를 보였다. <Table 4>

2 실험 2

1) 데이터세트

본 실험에서는 실제 적용을 위해 직접 촬영한 좀 더 다른 각도의 데이터 세트(DOKR)를 도입했다. DOKR 데이터 세트는 950개의 이미지로 구성되어 있으며 서로 다른 다섯 가지 CCTV 비디오 자료에서 수집된 영상 이다. 세트 1과 세트 2는 낮은 물체 밀도와 낮 시간에 촬영되었다. 세트3과 세트 5는 낮에도 있지만 피크 시 간대에 촬영되었다. 따라서 물체는 실제로 함께 모여 있다. 세트 4는 어두워 질 때 촬영된 자료이고 데이터 셋의 자료의 개수와 분포는 <Table 5>와 같다.

KITTI 데이터 세트를 샘플로 사용하여 DOKR 데이터 세트에 훈련을 위한 이미지 표기를 추가하였다. 본 연구에서는 DOKR 데이터세트의 모든 객체(자동차, 보행자, 자전거 타는 사람)에 모든 크기 및 모든 은폐된 이미지에 표기를 추가하여 이전 데이터 세트와 관련된 새 데이터 세트를 만들 수 있었다.

2) 훈 련

첫 번째 실험에서 훈련된 YOLO-v2, 고밀도 그리드 모델l 및 앵커모델을 DOKR 데이터 세트에서 더욱 미 세 조정(Find-Tune)하였다. 계산 량과 학습을 줄이기 위하여 두 번째 실험에서 선택한 고밀도 그리드 모델은 이전 실험에서 1216x352 변형 입력 모델이 640x192 변형 입력 모델보다 우수함을 보였기 때문에 1216x352로 선택하였다.

훈련은 1.00E-0.5의 학습률로 30개의 epoch에 대하여 동일한 프레임 워크 및 하드웨어 장비에 대한 모델을 처음부터 학습을 시켰다. 평균 손실(average loss)을 관찰해본 결과 10 epoch에서 수렴함을 관찰 할 수 있었다.

더 나아가 1.00E-0.6의 더 작은 학습률로 30개의 epoch에 대하여 재학습한 결과 평균 손실은 이전 모델에 대하여 더 적은 값으로 수렴함을 보였고 결론적으로 더 우수한 모델을 만들 수 있었다.

3) 실험 결과

평가를 위하여 KITTI 평가 벤치마크와 동일한 규칙을 따르고 KITTI 테스트 세트에서 테스트 해보았다.

두 번째 실험의 결과는 <Table 4>에 따르면 제안하는 고밀도 그리드 모델과 앵커 모델이 YOLO-v2보다 22.4%까지 향상된 자동차 검지 성능을 보임을 알 수 있었다. 제안한 모델 중에서는 고밀도 그리드 모델이 앵 커 모델보다 좋은 결과를 나타냄을 확인할 수 있었다. 고밀도 그리드 모델은 YOLO-v2보다 6.21∼22.4%만큼 향상된 결과를 나타내었고, 앵커 모델은 YOLO-v2보다 3.12∼9.31% 향상된 결과를 나타내었다.

보행자 감지 실험에서는 저난이도 데이터의 경우 고밀도 그리드 모델과 앵커 모델 모두 YOLO-v2 보다 4.46∼4.47% 만큼 향상된 결과를 나타내었지만, 중급 난이도와 고난이도 데이터에서는 YOLO-v2가 좋은 성 능을 나타냄을 확인할 수 있었다.

3 토 의

1) KITTI 데이터 실험

본 논문에서 제안한 두 모델은 보행자 또는 자전거 타는 사람을 검지하는데 있어 YOLO-v2보다는 좋은 결 과를 나타내지 못했지만 높은 자동차 검지 율을 보여 주었다. 1216x352 고밀도 그리드모델의 경우 자동차 감 지에 있어서 YOLO-v2모델보다 6.99∼10.59% 우수한 성능을 나타냄을 확인할 수 있었다.

본 연구에서는 실험을 위해 기존 훈련된 YOLO-v2 모델을 이용하여 미세조정을 통하여 학습하였기 때문 에 처음부터 학습한 경우 보다 훈련 시간을 줄일 수 있었다.

두 번째로, 본 연구에서 훈련한 데이터 세트에서 자동차, 보행자 및 자전거 타는 사람의 비율이 22396, 3354, 1250로 상대적인 불균형한 상태를 나타냈다. 이는 전체 학습 데이터 중에 83% 정도가 “자동차” 클래스 이었기 때문에 보행자나 자전거를 타는 사람의 학습률이 떨어져 실험에서의 인식률이 떨어 질 수 있다는 것 을 의미한다.Fig. 7

2) DOKR 데이터 실험

본 논문에서 제안한 고밀도 그리드 모델과 앵커 그리드 모델의 경우에는 기존의 학습된 Yolo-v2모델에 대 하여 DOKR 데이터 셋을 추가로 학습함으로써 고밀도 그리드 모델에서 성능이 눈에 띄게 개선되었음을 확 인할 수 있었다. <Table 7>에 따르면 고밀도 그리드 모델의 경우 KITTI 데이터 세트 대상의 첫 번째 실험과 비교해 보았을 때 최대 32.47% 향상되었음을 확인할 수 있었다. <Table 6>

그러나 제안한 모델 모두가 자전거를 탐지하는데 있어서는 YOLO-v2보다 성능이 좋지 않은 것으로 나타 났다. 하지만 고밀도 그리드 모델과 앵커 모델은 각각 저난이도 데이터와 중간난이도 데이터 수준에서 개선 된 인식률을 보였다.

고밀도 그리드 모델과 앵커 모델이 DOKR 데이터에서 보행자 감지가 개선의 이유 중의 하나는, DOKR 데 이터 세트를 이용한 훈련 데이터에서는 KITTI 데이터 세트 보다 보행자와 자전거 타는 사람의 객체들의 숫 자가 증가하였기 때문이라고 추측된다. KITTI 데이터 세트의 자동차 데이터 개수는 80% 이상으로 구성되는 반면 DOKR 데이터 세트에서는 자동차와 보행자 개수 등이 서로 비슷한 수준인 것으로 나타났다.

4 고 찰

<Fig 8>의 더 좋은 결과를 얻을 수 있으나 평가방식의 문제로 인하여 점수를 받지 못한 경우를 나타낸 것 이다. (a)의 왼쪽에 Ground Truth의 대부분이 은폐되어 “고려하지 않음”으로 분류된 경우에 대하여 본 논문의 모델은 탐지하였다. 이러한 경우에는 본 논문에서 제안한 모델에 대하여 추가적인 점수를 얻었어야 한다. 또 한 본 논문에서 제안한 모델은 (b)와 같은 경우의 “고려하지 않음”의 경계박스 조차 없는 상태의 객체도 탐 지할 수 있음을 확인하였다. 그러나 이러한 경우는 평가 기준이 없기 때문에 가산점 대신에 감점을 얻었다. 그럼에도 불구하고 자동차 탐지에 있어서, 본 논문에서 제안한 모델은 YOLO-v2보다 더 나은 성능을 보임을 확인할 수 있었다.

Ⅲ 결 론

본 논문에서 최근 많이 사용되고 있는 동적 객체 탐지 방법 중 하나인 YOLO-v2 네트워크와 두 가지의 제 안하는 모델을 KITTI 데이터 세트와 DOKR 데이터 세트에 적용하여 객체별로 인식률을 확인 하였고 우수한 성능을 가지고 있는 실시간 객체검지 모델을 제안하였다. 직접 촬영한 영상을 가지고 총 두 번의 실험에 걸 쳐서 첫 번째 실험에서는 본 논문에서 제안하는 모델은 자동차 검지에 있어서 6.99%에서 10.59%까지 성능이 향상됨을 확인할 수 있었다. DOKR 데이터 세트를 대상으로 한 두 번째 실험은 제안하는 모델이 실생활에 더 적합한 모델이라는 것을 보여주었다. 제안하는 모델은 자동차 모델에 대하여 22.4% 향상된 결과를 보여 주었고 ‘어려운 수준’의 검지에 있어서 성공적으로 객체검지를 할 수 있음을 확인하였다.

제안한 두 개의 모델이 향후 시각장애인을 위한 동적 물체 감지 장치 개발에 적용 가능한 가능성을 보여 주었다. 본 연구에서는 다음과 같은 몇 가지 중요한 결론을 얻을 수 있었다. (1) 고밀도 그리드 모델은 성능 이 좋지만 작거나 크기가 큰 또는 물체가 함께 모여 있는 장애물을 감지 할 때 좀 더 좋은 성능을 보이는 것 을 확인하였다. (2) 앵커 모델은 모든 환경에서 잘 작동하는 유연성 모델로는 적합하지 않다는 것을 확인할 수 있었다. (3) 객체인식의 정확도 향상의 제고를 위해서는 훈련용 데이터에 해당 객체의 데이터 개수 증가 가 필수적이라는 것을 확인하였다.

따라서 본 연구에서 향후 개선을 위해 객체별 데이터를 증가하여 더 많은 데이터를 사용함으로써 인식률 이 낮은 객체의 인식률을 향상시키고자 하며 실제 인식된 결과를 시각장애인들에게 소리 등의 정보로 변환 하기 위한 추가 연구를 준비하고 있다.

ACKNOWLEDGEMENTS

"본 연구는 과학기술정보통신부 및 정보통신기술진흥센터의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음"(IITP-2018-2014-1-00729)

"본 연구는 과학기술정보통신부 및 정보통신기술진흥센터의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음"(IITP-2017-2017-0-01642)

Figure

<Fig. 1>.

Diagram of Denser Grid Model works. Denser Grid model first re-scaling the network resolution with respect to the desired final grids.

<Fig. 2>.

Comparison of the final grid cell

<Fig. 3>.

Diagram of How Anchor Model Works in Training Phase. The networks predict bounding boxes and choose appropriate candidate.

<Fig. 4>.

Visualization of 5 anchor boxes with respect to the grid cell (violet area).

<Fig. 5>.

Detection Result of Anchor Model in Experiment 1. This Model could detect object at different size and flocked together objects.

<Fig. 6>.

Image Samples of DOKR Dataset (clockwise) (a) Day light and low density (b) Day light and peak hour (c) Day getting dark

<Fig. 7>.

Detection Result of Denser Grid Model (1216x352) in Experiment 2. Undetected objects in Experiment 1 could be detected in by Denser Grid Model

<Fig. 8>.

Examples of good detection but failed to be recognized by the evaluation tool.

Table

<Table 1>.

Object Distribution of KITTI Training Set

Classes	Number of Instance	Percentage
Car	22,396	82.95%
Pedestrian	3,354	12.42%
Cyclist	1,250	4.63%
Total	27,000

<Table 2>.

Net Resolution for each model and their relative SxS grid

Model	Net resolution	Final gridcell
YOLO-v2	416	416	13	13
Denser Grid1 640x192	640	192	20	6
Denser Grid2 1216x352	1216	352	38	11

<Table 3>.

New Anchor Sets generated by k-mean clustering on Kitti training set.

Anchor Sets	Width	Height
Set 1	3.8646	1.4651
Set 2	9.3327	3.3926
Set 3	14.7787	6.8529
Set 4	27.6848	4.0958
Set 5	32.8449	8.4675

<Table 4>.

mAP for each class detection in experiment 1

Detection(Class)	Easy (Car)	Moderate(Car)	Hard (Car)	Easy (Pedestrian)	Moderate (Pedestrian)	Hard (Pedestrian)	Easy (Cyclist)	Moderate(Cyclist)	Hard (Cyclist)
YOLO-v2	0.26771	0.19837	0.17463	0.29681	0.25347	0.25081	0.21529	0.18681	0.18494
Denser Grid 1 640x192	0.11956	0.08993	0.09377	0.06392	0.06525	0.04535	0.03130	0.03044	0.03201
Denser Grid 2 1216x352	0.33029	0.24495	0.26457	0.17010	0.11382	0.11646	0.07591	0.15482	0.15746
Anchor	0.36214	0.26827	0.28057	0.19314	0.10055	0.10584	0.14354	0.10963	0.11279

<Table 5>.

Object Distribution of DOKR Datasets

Classes	Number of Instance	Percentage
Car	6448	58.29%
Pedestrian	4570	41.31%
Cyclist	44	0.40%
Total	11062

<Table 6>.

mAP for each class detection in experiment 2

Detection(Class)	Easy (Car)	Moderate(Car)	Hard (Car)	Easy (Pedestrian)	Moderate (Pedestrian)	Hard (Pedestrian)	Easy (Cyclist)	Moderate(Cyclist)	Hard (Cyclist)
Yolo-v2	0.55186	0.48404	0.36530	0.39288	0.36940	0.28486	0.20740	0.17896	0.17915
1216x352	0.62615	0.54615	0.58931	0.44028	0.21160	0.15281	0.08599	0.14628	0.13998
Anchor	0.58301	0.49301	0.45842	0.43752	0.19615	0.14170	0.13484	0.11860	0.10792

<Table 7>.

Increase and Decrease in performance of the three models in Experiment 2

Models	Car	Pedestrian	Cyclist
Yolo-v2	28.41%	28.57%	19.07%	9.61%	11.59%	3.41%	-0.79%	-0.78%	-0.58%
1216x352	29.59%	30.12%	32.47%	27.02%	9.78%	3.64%	1.01%	-0.85%	-1.75%
Anchor	22.09%	22.47%	17.79%	24.44%	9.56%	3.59%	-0.87%	0.90%	-0.49%

Reference

A. Eichenseer (2016) A data set providing synthetic and real-world fisheye video sequences, In Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, pp.1541-1545.,
A. Geiger (2012) Are we ready for autonomous driving? the kitti vision benchmark suite, In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pp.3354-3361.,
N. Molton (1998) A stereo vision-based aid for the visually impaired., Image Vis. Comput., Vol.16 (4) ; pp.251-263
S.K. Rao (2012) Stereo acoustic perception based on real time video acquisition for navigational assistance.,
J. Redmon (2016) YOLO9000: better, faster, stronger, arXiv preprint, 1612.,
F. Wong (2003) Application of stereovision in a navigation aid for blind people, Proceedings of the 2003 Joint Conference of the Fourth International Conference on, Vol.vol. 2 ; pp.734-737
World Health Organization (2017) http://www.who.int/mediacentre/factsheets/fs282/en/
B. Yun (2018) Dynamic Obstacle Detection to Improve BVI Pedestrian’s Navigation Decision using CNNs., Paper presented at Society for Information Display’s Display Week 2018, Los Angeles, CA,

A Study on Improvement of Dynamic Object Detection using Dense Grid Model and Anchor Model

Abstract

고밀도 그리드 모델과 앵커모델을 이용한 동적 객체검지 향상에 관한 연구

초록