Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.21 No.5 pp.274-286
DOI : https://doi.org/10.12815/kits.2022.21.5.274

Training of a Siamese Network to Build a Tracker without Using Tracking Labels

Jungyu Kang^*, Yoo-Seung Song^**, Kyoung-Wook Min^**, Jeong Dan Choi^***

^*Autonomous Driving Intelligence Research Section, ETRI
^**Intelligent Robotics Resarch Division, ETRI
^***Co-author: Head of Intelligent Robotics Research Division, Electronics and Telecommunications Research Institute, Korea

^† Corresponding author : Jungyu Kang, cmiller2air@etri.re.kr

Received 5 September 2022 │ Revised 4 October 2022 │ Accepted 20 October 2022

Abstract

Multi-object tracking has been studied for a long time under computer vision and plays a critical role in applications such as autonomous driving and driving assistance. Multi-object tracking techniques generally consist of a detector that detects objects and a tracker that tracks the detected objects. Various publicly available datasets allow us to train a detector model without much effort. However, there are relatively few publicly available datasets for training a tracker model, and configuring own tracker datasets takes a long time compared to configuring detector datasets. Hence, the detector is often developed separately with a tracker module. However, the separated tracker should be adjusted whenever the former detector model is changed. This study proposes a system that can train a model that performs detection and tracking simultaneously using only the detector training datasets. In particular, a Siam network with augmentation is used to compose the detector and tracker. Experiments are conducted on public datasets to verify that the proposed algorithm can formulate a real-time multi-object tracker comparable to the state-of-the-art tracker models.

Key Words : Autonomous driving , Multi-object Detection , Multi-object tracking , Deep-learning

샴 네트워크를 사용하여 추적 레이블을 사용하지 않는 다중 객체 검출 및 추적기 학습에 관한 연구

강 정 규^*, 송 유 승^**, 민 경 욱^**, 최 정 단^***

^*주저자 및 교신저자 : 한국전자통신연구원 자율주행지능연구실 선임연구원
^**공저자 : 한국전자통신연구원 자율주행지능연구실 책임연구원
^***공저자 : 한국전자통신연구원 지능로보틱스연구본부 본부장

초록

이동객체 추적은 컴퓨터 비전 분야에서 오랜 시간 동안 연구가 진행되어 온 분야로 자율주 행이나 운전 보조 시스템 등의 시스템에서 아주 중요한 역할을 수행하고 있다. 이동객체 추적 기술은 일반적으로 객체를 검출하는 검출기와 검출된 객체를 추적하는 추적기의 결합으로 이 루어져 있다. 검출기는 다양한 데이터셋이 공개되어 사용되고 있기 때문에 쉽게 좋은 모델을 학습할 수 있지만, 추적기의 경우 상대적으로 공개된 데이터셋도 적고 직접 데이터셋을 구성 하는 것도 검출기 데이터셋에 비해 굉장히 오랜 시간을 소요한다. 이에 검출기를 따로 개발하 고, 별도의 추적기를 학습 기반이 아닌 방식을 활용하여 개발하는 경우가 많은데 이런 경우 두 개의 시스템이 차례로 작동하게 되어 전체 시스템의 속도를 느리게 하고 앞단의 검출기의 성능이 변할 때마다 별도로 추적기 또한 조정해줘야 한다는 단점이 있다. 이에 본 연구는 검출 용 데이터셋만을 사용하여 검출과 추적을 동시에 수행하는 모델을 구성하는 방법을 제안한다. 데이터 증강 기술과 샴 네트워크를 사용하여 단일 이미지에서 객체를 검출 및 추적하는 방법 을 연구하였다. 공개 데이터셋에 실험을 진행하여 학습 결과 높은 속도로 작동하는 이동객체 검출 및 추적기를 학습할 수 있음을 검증하였다.

키워드 : 자율주행 , 이동객체 검출 , 이동객체 추적 , 딥러닝

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

1. 연구의 개요

이동객체 추적은 컴퓨터 비전 분야에서 오랫동안 연구되어 온 주제다. 이동객체 추적은 연속된 영상에서 목표로 하는 객체의 위치를 찾아내고, 해당 객체의 경로를 예측하는 것을 목표로 한다. 이동객체 추적 기술 은 로봇, 감시 시스템, 상태 인식 등의 다양한 영상 기반 지능 시스템에서 사용되며, 특히 자율주행 분야에서 안전한 주행을 위한 주변 환경 인식에 필수적으로 사용된다. 자율주행 분야에 사용되는 시스템은 다양한 환 경에서 안정적으로 작동하는 강인성과 빠른 속도로 작동하는 실시간성을 동시에 필요로 한다.

기존의 많은 방법이 두 개의 독자적인 모델을 사용하여 이동객체 추적 문제에 접근하였다. 먼저 검출 모 델을 사용하여 각 입력 영상에서 목표로 하는 객체들을 검출한 후, 재식별 모델을 사용하여 연속된 영상에서 각 검출 결과들을 연결하는 방식을 사용하였다. 이때 검출 결과 간의 연결을 찾기 위하여 검출 결과 상자의 위치와 크기를 사용하거나, 검출된 상자 영역 내 영상을 추출하여 따로 모델을 학습하는 방법 등을 사용하였 다. 하지만 위와 같이 두 단계의 방식을 사용하는 것은 두 모델이 순차적으로 작동하기 때문에 실시간성을 가지는 시스템을 구성하기가 어렵고, 또한 먼저 작동하는 검출기의 특징이나 성능이 바뀔 때마다 재식별 모 델을 다시 조정해야 하는 문제가 있었다.

객체 추적 기술을 학습 기반의 모델로 구성할 때 가장 어려운 점은 다양한 환경의 데이터를 수집하기 어렵다는 것이다. 추적 레이블이 포함된 데이터셋을 구성하는 것은 연속된 영상에서 각 이미지에 대해 검출 레이블을 부여하고, 또 영상 간 상자들의 연결성을 구성해야 하는 과정이 필요하므로 단순 검출 데이터셋에 비해 구성하는 데 훨씬 많은 시간이 소요된다. 또한, 자율주행에 관련된 데이터셋의 경우, 높은 프레임 속도로 촬영된 영상을 사용하기 때문에 같은 크기의 데이터셋을 구성해도 검출 데이터셋에 비해 환경의 다양성을 가지기 어려운 특성이 있다. 그 결과 자율주행과 같이 다양한 환경에서 강인함을 요구하는 모델을 구성하는 데 어려움이 있다.

2. 연구의 목표

본 연구에서는 샴 구조의 신경망을 사용하여 검출 레이블만을 가지고 추적 검출기를 학습시키는 것을 목 표로 한다. 한 장의 영상을 다양한 방법으로 증강하여 증강된 데이터들 사이에서 동일한 객체들을 식별할 수 있도록 네트워크를 구성한다. 이렇게 구성된 네트워크가 성공적으로 학습을 진행할 수 있도록 앵커 기법을 사용하지 않는 검출기에 재식별 가지를 추가하여 검출과 동시에 추적을 위한 재식별 특징을 추출할 수 있도 록 유도한다. 검출된 재식별 특징 간의 유사도는 벡터 간 내적 값을 사용하여 측정하며, Hungarian Matching 을(Kuhn, 1955) 사용하여 연속된 프레임에서 상자 간의 연결을 찾아내도록 한다.

제안된 방식을 사용하면 추적 레이블이 없이도 성공적으로 추적기를 학습할 수 있어 더 다양한 데이터셋 환경에 대하여 학습을 진행해 강인한 모델을 만들 수 있고, 두 개의 모델을 사용하지 않기 때문에 매우 빠른 속도로 작동하는 모델을 학습시킬 수 있다. 공개된 데이터셋에서 제안된 모델에 대한 실험을 진행하여 제안 된 모델이 추적 레이블을 사용하지 않고도 추적 레이블을 사용해 학습된 모델들과 비견될만한 성능을 보이 며, 실시간으로 작동하여 실제 자율주행 차량에 탑재 가능한 모델임을 증명하는 것을 목표로 한다.

본 연구의 주요 기여 내용은 아래와 같다.

본 연구는 추적 레이블 없이 검출 레이블만을 가지고 추적기 모델을 학습시키는 방법을 제안함으로써 데 이터셋의 제약이 없이 다양한 환경에서 강인하게 작동할 수 있는 모델을 학습시키는 방법을 제안한다.

본 연구는 기존에 널리 사용되던 객체 검출 알고리즘을 기반으로 별도의 재식별용 가지를 만들어 검출과 추적을 동시에 실시간으로 진행하는 모델을 학습하는 기법을 제안한다.

본 연구에서 제안된 방식을 공개된 추적 데이터셋 MOT15(Leal-Taixe et al., 2015), MOT17(Milan et al., 2016), MOT20(Dendorfer et al., 2020)을 사용하여 검증하며, 추적기 레이블을 전혀 쓰지 않고 성공적으로 추 적기를 학습할 수 있음을 보인다.

Ⅱ. 선행 연구

1. 객체 검출기

객체 검출은 주어진 입력 영상에서 목표로 하는 객체들을 상자 형태로 검출하는 것을 목표로 한다. 이를 해결하기 위해 Pascal(Everingham et al., 2010), CoCo(Lin et al., 2014), 등의 데이터셋이 제안되었고 더 크고 강 인한 모델을 만들기 위해서 CrowdHuman(Shao et al., 2018) 등의 데이터셋이 제안되었다.

대표적인 객체 검출기 모델로는 Faster R-CNN(Ren et al., 2015), YOLO(Redmon et al., 2016), RetinaNet(Lin et al., 2017) 등이 제안되었다. 앞에 언급된 모델들은 다양한 크기의 객체를 효과적으로 검출하기 위해 앵커 기반의 모델을 제시하였다. 앵커 기반의 모델은 한 개의 추출된 특징에서 다양한 상자 후보를 제안하게 되어 전체 영상에서 객체가 존재하는 영역이 상대적으로 적어 발생하는 불균형 문제를 줄여주는 효과가 있다. 하 지만 FairMOT(Zhang et al., 2021)은 앵커 기반의 검출기는 한 개의 특징이 여러 개의 상자에 연관되게 되어 추적과 검출을 동시에 하기에는 적합하지 않다고 서술한 바가 있다.

고정된 앵커를 쓰지 않는 방법들로는 FCOS(Tian et al., 2019)나 YOLOX(Ge et al., 2021) 등이 있다. YOLOX 모델은 앞서 서술한 불균형 문제를 해결하기 위해 객체 중앙 영역에 인접한 특징을 추가로 학습에 참여시키는 Center Sampling 기법을 사용하여 해결한다. 이 방법을 사용하면 추출된 복수의 특징이 한 개의 상자에 연결될 수 있지만 한 개의 특징은 오직 한 개의 상자에만 연결된다는 특징이 있어 추적과 검출을 동 시에 하는 모델로 사용하기 적합하다.

2. 객체 추적기

객체 추적기는 입력 영상에서 검출된 상자들을 연속된 프레임 상에서 연결하는 것을 목표로 한다. 가장 보 편적으로는 칼만 필터를 사용하여 상자의 다음 위치를 예측하여 연결하는 SORT(Bewley et al., 2016) 알고리즘 이 있다. IOU-Tracker(Bochinski et al., 2017) 같은 경우 영상 정보를 전혀 사용하지 않고 연속된 영상에서 상자 들의 겹치는 영역을 사용하여 추적하는 기술을 제안했다. 이렇게 상자의 위치와 크기 정보만을 사용하는 방식 의 경우 구현이 간단하고 속도가 빨라서 쉽게 사용할 수 있지만, 영상이 크게 변화하거나, 목표로 하는 객체가 매우 밀집되어 있거나, 일시적으로 상자가 안 보이게 되는 경우 성공적으로 작동하지 않는 문제가 있다.

이런 문제를 해결하기 위해 상자의 위치 및 크기 정보가 아닌, 실제로 상자의 내부 영역의 시각적 특징을 사용하여 추적하는 방식의 모델이 연구되었다. 대표적으로는 DeepSORT(Wojke et al., 2017)와 같이 검출된 상자의 내부 영역을 분류 문제로 치환하여 접근하는 기법이 제안되었다. 이와 같은 방식을 사용하면 일시적 으로 추적 중인 객체가 사라져도 생김새를 기억하여 추후 해당 객체가 다시 등장했을 때 재식별을 하여 추 적을 유지 할 수 있다. 하지만 이 경우 검출과정에서 한번 영상을 학습된 모델에 통과시킨 후, 다시 영상의 일부 영역을 추출하여 다시 모델에 통과시키기 때문에 속도가 느려지는 단점이 있다.

최근 다중 목표 학습 기술이 진보함에 따라, 객체 검출과 재식별 과정을 한 개의 모델을 사용하여 동시에 진행하려는 연구가 다양하게 진행되었다. Track RCNN(Voigtlaender et al., 2019)의 경우 RCNN 검출기 모델 에, JDE(Wang et al., 2020)의 경우 YOLOv3(Redmon and Farhadi, 2018) 검출기 모델에 재식별 가지를 추가하 여 학습을 진행하였다. 하지만 위와 같은 시도에도 아직은 별도의 두 개의 모델을 사용하는 방법에 비하여 성능이 낮은 상황이다.

위에 소개된 방식은 모두 검출 레이블이 있어야 모델의 세부 파라미터를 조정할 수 있다. 그러나 추적의 특징상 연속된 프레임을 요구하고, 검출기 데이터셋과 비교하면 라벨링 하는데 많은 시간과 노력이 필요하 다. 또한, 연속된 프레임을 사용하기 때문에 기존의 검출기에 비해 다양한 환경의 정보를 담지 못하는 경우 가 자주 있으므로 자율주행 등과 같이 높은 강인성을 요구하는 모델을 학습하기에 어려움이 있다.

3. 샴 네트워크

샴 네트워크는 서로 다른 입력을 동일한 네트워크에 통과시켜 나온 결과를 비교하여 활용하는 기법이다. 다루어야 하는 데이터의 종류가 매우 많은 상황에 비하여 구할 수 있는 데이터의 양이 적은 상황에 주로 사 용되는 방식이다. 이미지 기반 샴 네트워크의 경우 이미지 여러 장을 동일한 네트워크를 통과시켜 벡터화시 킨 이후, 생성된 벡터 간의 유사도를 비교하여 이미지 간의 거리를 학습하는 방식으로 사용된다.

기존의 샴 네트워크를 사용한 추적 기술의 경우 추적하고자 하는 객체 영역을 패치로 추출 후, 입력 이미 지에서 목표로 하는 패치와 유사한 패치를 찾는 방식을 사용하였다(He et al., 2018). 최근에는 연속된 이미지 와 추적 레이블을 사용하여 이미지 내의 객체 간의 유사도를 측정하는 방식이 제안되었다(Shai et al., 2021).

본 연구에서는 샴 네트워크를 사용하여 이미지 전체 간의 유사도를 비교하는 대신, 각 이미지에 존재하는 객체 간의 유사도를 측정하여 추적을 수행할 수 있도록 네트워크를 구성하였다. 또한, 연속된 이미지를 비교 하지 않고 한 장의 이미지를 여러 가지 방법으로 증강해 다양한 데이터 형태에 대응할 수 있도록 구성하였 다. 마지막으로 본 연구는 샴 네트워크를 사용해 추적 레이블을 없이 검출 레이블만을 사용하여 추적기를 구 성하는 것을 목표로 하였다.

Ⅲ. 본 론

1. 검출기

본 연구에서는 YOLOX 모델의 구조를 채택하여 사용하면서 <Fig. 1>과 같이 재식별용 가지를 추가하여 사용하였다. YOLOX는 기존 YOLO와 같이 DarkNet을 Backbone으로 가지면서 PAFPN(Liu et al., 2018)을 사용 하는 기술이다. YOLOX는 앵커를 사용하지 않아 한 특징이 상자 한 개에만 관여된다는 특징이 있어 FairMOT에서 서술된 것과 같이 상자의 위치와 재식별 특징을 함께 추출하기에 적합하여 채택하였다.

<Fig. 1>

Overview of the proposed detection and tracker network

<Fig. 1>은 전체적인 검출기의 형태의 모습이다. 주어진 영상에서 목표로 하는 객체를 상자 형태로 검출하 기 위한 Box Regression 가지와 Objectness 가지, 각 상자의 분류를 예측하는 Class 가지, 그리고 각 상자를 다 른 프레임에서 다시 찾기 위한 재식별(Re-identification) 가지를 가진다. 이때 상자의 위치를 찾는 것과 상자의 모습을 추상화하는 것은 서로 역할이 다르므로 서로 Backbone만을 공유하고 가지 부분은 공유하지 않도록 하여 학습이 원활하도록 유도하였다. 재식별 가지는 최종적으로 서로 내적 하여 코사인 유사도를 측정할 수 있도록 L2-Normalize 되어 총 128 길이의 정규화된 벡터를 출력으로 가지도록 설계하였다.

2. 재식별 가지

1) 영상 내 재식별

재식별 가지를 통해 나온 특징은 입력 영상에서 같은 객체에 연관된 특징들끼리는 높은 유사도를, 서로 다른 객체에 연관된 특징끼리는 낮은 유사도를 가져야 한다. YOLOX는 학습 과정에서 <Fig. 1>과 같이 H ×W 크기의 특징 중 실제로 객체가 있는 영역의 중앙에 해당하는 특징만 학습에 참여시키기 위해 마스 킹 과정을 거치게 된다. 이때 전체 영상에서 객체의 중앙에 해당하는 영역의 비율이 매우 낮아 학습 과정에 불균형이 생기는 것을 방지하기 위해 객체 중앙 픽셀에 인접한 특징들을 추가로 학습에 참여시키는 Center Sampling을 진행한다. 이 과정을 통해 Re-Identification 가지를 통해 나온 특징 중 학습에 참여하게 샘플링된 재식별용 특징 E _fg ∈ 을 얻을 수 있다. 여기서 K 는 학습에 참여하도록 선택된 특징의 수로 입력 검출 레 이블 Y ∈ Z ^{N × 5} 에 포함된 객체 수 N 에 따라 변하게 된다. Y 는 영상에 포함된 객체의 개수 N 에 대하 여 각 객체의 위치를 표현하는 4개의 값과 해당 객체의 클래스 정보를 표현하는 하나의 값을 가진다. 이후 YOLOX는 샘플링된 특징 E _fg 를 검출 레이블 Y 에 매칭시켜준다. 수행된 매칭 결과는 배치 행렬 A ∈ Z ^{K × 1} 로 저장하게 되는데 A 는 E _fg 의 각 특징이 검출 레이블 Y 에 연결되는 위치의 인덱스 값을 가지게 된다. 이렇게 만들어진 행렬 A 를 E _fg 와 효과적으로 연계하여 사용하기 위해 One-hot-encoding 함수 $1_{A} (x) : = {\begin{array}{l} 1 & if x \in A \\ 0 & if x \notin A \end{array}$ 를 통과시켜 H ∈{0, 1}^{K × N} 로 만들어 준다. 행렬 H 는 E _fg 의 각 특징이 연결 된 레이블의 인덱스 값만 1을 가지고 나머지 값은 0을 가지는 행렬이다. 이렇게 만들어진 E _fg 에 대하여 $E_{f g} \times E_{f g}^{T}$ 을 수행하여 한 장의 K × K 크기의 유사도 행렬(Similarity Matrix)을 구할 수 있다. 유사도 행렬 은 이미지에서 학습에 참여시키기로 결정된 K 개의 재식별용 특징 간의 코사인 유사도 값을 가진다.

본 연구는 같은 레이블에 관여되는 특징끼리는 코사인 유사도 값을 높여 주고, 서로 다른 레이블에 관여되 는 특징끼리는 코사인 유사도를 낮추도록 학습을 유도한다. 이를 위해 서로 같은 레이블에 배치된 경우 두 재식별용 특징 벡터 간의 내적의 값이 1에 가깝도록, 서로 다른 레이블에 배치된 경우 내적의 값이 0이 되도록 학습을 유도하였다. 두 정규화된 벡터의 내적은 [- 1, 1 ]의 값을 가질 수 있지만, 특정 벡터 x 에 대하여해당 벡터와 내적 하여 –1을 가지는 벡터는 한 개의 벡터 - x 밖에 존재할 수 없으므로 다양한 객체를 동시에 추적 하기 위해 목푯값을 –1 대신 0으로 설정하였다. 이와 같은 목표 행렬(Ground-Truth Matrix)을 구성하기 위해 연관 행렬 H 에 대하여 H ×H^T 을 수행하여 K × K 크기의 목표 행렬을 만들어 주었다. 이 목표 행렬은 서 로 같은 레이블에 연결된 위치의 경우 1을, 서로 다른 레이블에 연결된 위치의 경우 0의 값을 가지게 된다.

2) 영상 간 재식별

실제로 추적에 사용되는 재식별용 특징은 한 장의 이미지가 아닌 연속된 영상에서 환경과 객체의 변화에 상관없이 같은 객체에 대해서 같은 경향의 결과를 출력할 수 있어야 한다. 본 연구는 추적 레이블 없이 해당 조건을 만족하는 재식별 가지를 학습시키기 위해서 이미지 증강기법을 사용하는 샴 네트워크를 사용하였다.

본 연구에서는 한 장의 이미지를 사용하여 같은 객체를 포함하지만 다른 시각적 형태를 보이는 복수의 영 상을 만들어내기 위해 다양한 증강기법을 사용하였다. Uniform Augment(LingChen et al., 2020)를 사용하여 미 리 정의된 증강기법을 확률적으로 적용하여 기존의 영상과 다른 이미지를 생성하여 낸다. 이때 증강 과정에 서 상자가 유실되지 않게 한정된 증강기법을 사용한다. 본 연구에서는 [Box Safe Crop, Padded Crop, Perspective Transform, Random Shadow, Random Brightness and Contrast, Sharpen, Blur] 중 일부를 확률적으로 선택하여 적용했다. 이렇게 생성된 S 개의 영상을 동일한 파라미터를 공유하는 네트워크에 통과시켜 추출된 재식별용 특징들 [E₀ , ⋯E _S ]을 누적시킨 통합 재식별용 특징 $E = [\begin{matrix} E_{0} \\ . \\ . \\ E_{S} \end{matrix}]$ 와 이에 해당하는 연관 행렬 $H = [\begin{matrix} H_{0} \\ . \\ . \\ H_{S} \end{matrix}]$ 을 만들어 영상 내 재식별 과정에서 사용한 방식과 동일한 방식을 수행하였다. 이 과정에서 서 로 다른 영상에서 나온 재식별용 특징 중 서로 같은 객체에 관여된 경우 재식별 특징 간의 유사도를 높게, 다른 객체에 관여된 특징의 경우 유사도를 낮게 하도록 학습을 유도하였다. 손실함수로는 평균최소제곱법 (MSE Loss)을 사용하여 얻은 L_{r e id} = MSE (E ×E ^T , H ×H ^T ] 값을 기존 YOLOX 검출기의 손실함수 L_det 와 합하여 학습을 진행하였다. <Fig. 2>는 앞서 설명한 전체 과정을 표현한 그림이다.

<Fig. 2>

Overview of the proposed training procedure using the Siamese network

3. 실시간 추론 기법

이렇게 학습된 모델을 사용하여 입력 영상에서 상자의 크기와 위치를 검출하고, 검출된 상자마다 재식별 용 특징을 얻을 수 있게 된다. 연속된 영상에서 검출된 상자들의 재식별용 특징을 서로 행렬 곱을 통해 검출 된 상자 간의 유사도를 추출할 수 있다. 이렇게 추출된 유사도 행렬과 각 상자 간의 IOU를 계산한 행렬을 합하여 연속된 영상에서 상자 간의 유사도 행렬을 구할 수 있다. 이 유사도 행렬에 Hungarian Matching 알고 리즘을 사용하여 전체 유사도의 합이 최대가 되게 되는 조합을 탐색하게 된다. 이때 전체 연결된 상자의 유 사도에 임계값을 설정하여 특정 값 이하의 유사도를 가지는 연결은 제거한다. 이후 연결이 되지 않은 특징들 은 따로 모아 최대 다섯 프레임까지의 연결되지 않은 상자들을 저장하여 추후 해당 객체가 재검출 시 연결 이 가능하게 설계하였다. 연결된 상자의 경우 재식별 특징들을 대체하는 것이 아니라 가중 합계를 하여 갱신 함으로써 누적된 형태 정보를 사용하여 예측할 수 있도록 유도해주도록 하였다.

Ⅳ. 실 험

1. 세부 구현 사항

제안된 모델은 Pytorch 1.10 환경에서 작성되었다. 학습의 경우 총 200 epoch을 16의 batch size로 4대의 NVIDIA TITAN RTX 그래픽 카드를 사용하여 학습을 진행하였다. Optimizer로는 AdamW(Loshchilov and Hutter, 2017)를 사용하였고 학습률은 Cyclic learning rate(Smith, 2017)를 사용하였다. 입력 영상의 크기는 기존 연구와 동일하게 1088 × 608 을 사용하였다. 입력된 영상을 증강해 생성하는 영상의 개수 S 는 3으로 설정 하여 실험을 진행하였다.

2. 데이터셋 및 평가 방법

본 연구에서 제안한 모델의 성능을 검증하기 위해 공개 데이터셋인 MOT15, MOT17, MOT20을 사용하였 다. 이 데이터셋들은 보행자의 위치와 경로를 예측하는 것을 목표로 하는 데이터셋으로 추적기의 성능을 검 증하는 데 많이 사용된다. 세 데이터셋 모두 실내와 실외 모두에서 수집된 데이터셋을 포함하고 있으며, 카 메라가 움직이는 영상과 카메라가 고정된 영상 등 다양한 영상 형태를 포함한다. MOT15의 경우 22개의 영 상으로 이루어진 총 5,500장의 학습 데이터와 5,783장의 검증용 데이터를, MOT17의 경우 14개의 영상으로 이루어진 총 15,948장의 학습 데이터와 17,757장의 검증용 데이터를, MOT20의 경우 8개의 영상으로 이루어 진 총 8,931장의 학습 데이터와 4,478장의 검증용 데이터를 제공한다. 각 데이터셋은 연속된 비디오 영상에 대하여 상자 형태로 보행자의 검출 레이블을 제공하고, 객체마다 고유한 번호를 배정하여 연속된 영상에서 같은 객체 간에는 같은 고유 번호를 공유할 수 있도록 추적 레이블을 제공한다. 본 연구에서는 제공된 상자 위치 정보와 객체 고유 번호 정보 중 검출 레이블만을 사용하고, 추적 레이블은 사용하지 않고 추적 모델을 구성하였다.

추적 시스템은 객체의 존재 여부를 판단하고, 객체의 위치를 파악하고, 연속된 영상에서의 동일 객체를 연 결하는 총 세 가지 작업을 수행하기 때문에 다양한 평가 방법이 제시되었다. 각 평가 방법은 앞에서 제시한 세 가지 작업에 대해 서로 다른 중요도를 책정하여 추적기의 성능을 평가한다. 본 연구에서는 가장 보편적으 로 사용되고 세 작업의 중요도의 균형을 이룬 것으로 평가받는 MOTA와 HOTA(Luiten et al., 2021) 평가 방 법을 사용하여 비교를 진행한다. 여기에 추가로 자율주행 등의 활용하기 위해 필수적인 요소인 작동 속도를 함께 비교한다.

3. 정량 평가 및 분석

비교 실험군으로는 MOT 벤치마크에 등록된 모델 중 데이터셋에서 제공하는 검출 결과를 사용하지 않고 검출기와 추적기를 직접 개발하여 검증하는 Private detector track에서 대표적인 모델들과 비교를 진행하였다. 실험결과는 <Table 1>에 정리되어 있다.

<Table 1>

Comparison of the tracking methods using a private detector on the MOT17 dataset

본 연구에서 제안한 방법은 현재 MOT Challenge에서 상위권에 있는 다른 모델들과 대등한 성능을 가지는 것을 확인할 수 있었다. 모델 특성상 검출 레이블만 사용하고 추적 레이블을 사용하지 않아 상대적으로 객체 간 연결 성능에 두 중점을 둔 HOTA 평가법에서 상대적으로 낮은 성능을 보이지만, 여전히 비교할 만한 성 능을 보임을 확인할 수 있다. MOT15의 경우 다른 데이터셋과 비교하여 상대적으로 적은 데이터를 제공하고 다양한 환경에서 수집된 데이터를 제공하기 때문에 검출기 자체의 성능을 충분히 확보하지 못하여 성능이 낮게 나온 것으로 예상한다. 하지만 본 연구에서 제안한 모델은 추적용 레이블을 전혀 사용하지 않고 검출용 데이터만을 사용하였기 때문에 실제로 더 다양한 환경에 적용할 수 있다.

<Fig. 3>은 본 연구에서 제안한 방법으로 학습된 모델을 사용하여 MOT15, MOT17, MOT20에 대하여 추적 을 진행한 결과 영상이다. 그림을 보면 보행자 간 서로 교차하는 상황에서도 재식별 특징을 사용해 추적 ID 를 잃지 않고 유지하는 것을 확인할 수 있다.

<Fig. 3>

Examples of tracking results on the MOT15, MOT17, and MOT20. The color of the box is maintained as the object is tracked

4. 실제 도로 환경 평가

제안된 알고리즘이 실제 자율주행 시스템에 적합한지를 검증하기 위하여 실제 국내 주행환경 데이터셋에 대해 실험을 진행하였다. 검증용 데이터셋으로는 ETRI 상태인식 데이터셋(Kang et al., 2022)이 사용되었다. ETRI 상태인식 데이터셋은 총 5,533장으로 구성된 국내 도로 환경 대상 객체인식 데이터셋으로 보행자, 자 전거, 오토바이, 차량, 버스, 안전 고깔, 신호등의 객체 검출 레이블을 제공한다. 앞서 서술한 대로 제안된 알 고리즘을 사용하면 추적 레이블을 제공하지 않고 객체 검출 레이블만 제공하는 데이터에 대해서도 성공적으 로 추적기를 학습할 수 있다. <Fig. 4>은 해당 데이터셋을 사용하여 학습한 결과의 정성평가 영상이다. 그림 을 보면 차량이 이동하면서 수집된 영상에서 다양한 객체의 위치 변화와 환경의 변화에도 성공적으로 추적 ID를 유지하는 것을 확인할 수 있다.

<Fig. 4>

Examples of multi-class tracking results on the ETRI State Detection Dataset. The colors of the box represent the classes of the detected objects

Ⅴ. 결 론

본 연구에서는 샴 구조의 신경망을 사용하여 추적 레이블이 없이 검출 레이블만으로 추적 검출기를 학습 시키는 방법을 제안하였다. 한 장의 영상을 다양한 방법으로 증강하여 증강된 영상들 사이에서 동일한 객체 들을 식별할 수 있도록 구조를 설계하고, 목표에 맞게 검출 네트워크를 수정하여 신경망 모델을 설계하였다. 설계된 모델은 기존의 검출기에 재식별 가지를 추가하여 검출과 동시에 추적을 위한 재식별 특징을 얻을 수 있다. 추출된 재식별 특징 간의 거리는 내적을 통해 쉽게 유사도를 계산할 수 있도록 설계되었으며, 계산된 유사도를 사용하여 Hungarian Matching을 사용하여 연속된 영상에서 상자 간의 연결을 예측하였다.

연구 결과 제안된 방식을 사용해 설계된 모델은 추적 레이블이 없이도 성공적으로 학습을 진행할 수 있기 때문에 기존의 추적기보다 훨씬 다양한 데이터셋 환경에 대하여 학습을 진행할 수 있어 다양한 환경에 강인 한 모델을 만들 수 있었다. 또한, 검출과 추적을 동시에 진행하기 때문에 실시간으로 작동하여 자율주행 차 량에 탑재하기 적합한 모델을 학습시킬 수 있었다. 공개된 데이터셋에 실험결과 제안된 모델을 추적 레이블 을 사용하지 않고도 좋은 성능을 보임을 입증하였으며, 실시간성 또한 보장됨을 확인하였다.

ACKNOWLEDGEMENTS

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 21AMDP-C161756-01).

Figure

<Fig. 1>.

Overview of the proposed detection and tracker network

<Fig. 2>.

Overview of the proposed training procedure using the Siamese network

<Fig. 3>.

Examples of tracking results on the MOT15, MOT17, and MOT20. The color of the box is maintained as the object is tracked

<Fig. 4>.

Examples of multi-class tracking results on the ETRI State Detection Dataset. The colors of the box represent the classes of the detected objects

Table

<Table 1>.

Comparison of the tracking methods using a private detector on the MOT17 dataset

Reference

Bewley, A. , Ge, Z. , Ott, L. , Ramos, F. and Upcroft, B. (2016), “Simple online and realtime tracking”, 2016 IEEE International Conference on Image Processing(ICIP), pp.3464-3468.
Bochinski, E. , Eiselein, V. and Sikora, T. (2017), “High-speed tracking-by-detection without using image information”, 2017 14^th IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS), pp.1-6.
Dendorfer, P. , Rezatofighi, H. , Milan, A. , Shi, J. , Cremers, D. , Reid, I. , Roth, S. , Schindler, K. and Leal-Taixé, L. (2020), Mot20: A benchmark for multi object tracking in crowded scenes, arXiv preprint arXiv:2003.09003.
Everingham, M. , Van Gool, L. , Williams, C. K. , Winn, J. and Zisserman, A. (2010), “The pascal visual object classes (voc) challenge”, International Journal of Computer Vision(IJCV), vol. 88, no. 2, pp.303-338.
Ge, Z. , Liu, S. , Wang, F. , Li, Z. and Sun, J. (2021), Yolox: Exceeding yolo series in 2021, arXiv preprint arXiv:2107.08430.
He, A. , Luo, C. , Tian, X. and Zeng, W. (2018), “A twofold siamese network for real-time object tracking”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.4834-4843.
Kang, J. G. , Kim, M. J. and Min, K. W. (2022), “Dataset Definition and Training Techniques for Road Environment Objects State Recognition”, Proceedings of the IEEK Conference, vol. 45, no. 1, pp.2607-2610.
Kuhn, H. W. (1955), “The Hungarian method for the assignment problem”, Naval Research Logistics Quarterly, vol. 2 no. 1-2, pp.83-97.
Leal-Taixé, L. , Milan, A. , Reid, I. , Roth, S. and Schindler, K. (2015), Motchallenge 2015: Towards a benchmark for multi-target tracking, arXiv preprint arXiv:1504.01942.
Lin, T. Y. , Goyal, P. , Girshick, R. , He, K. and Dollár, P. (2017), “Focal loss for dense object detection”, Proceedings of the IEEE International Conference on Computer Vision(ICCV), pp.2980-2988.
Lin, T. Y. , Maire, M. , Belongie, S. , Hays, J. , Perona, P. , Ramanan, D. , Doll´ar, P. and Zitnick, C. L. (2014), “Microsoft coco: Common objects in context”, European Conference on Computer Vision(ECCV), pp.740-755.
LingChen, T. C. , Khonsari, A. , Lashkari, A. , Nazari, M. R. , Sambee, J. S. and Nascimento, M. A. (2020), Uniformaugment: A search-free probabilistic data augmentation approach, arXiv preprint arXiv:2003.14348.
Liu, S. , Qi, L. , Qin, H. , Shi, J. and Jia, J. (2018), “Path aggregation network for instance segmentation”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.8759-8768.
Loshchilov, I. and Hutter, F. (2017), Decoupled weight decay regularization, arXiv preprint arXiv:1711.05101.
Luiten, J. , Osep, A. , Dendorfer, P. , Torr, P. , Geiger, A. , Leal-Taixé, L. and Leibe, B. (2021), “Hota: A higher order metric for evaluating multi-object tracking”, International Journal of Computer Vision(IJCV), vol. 129, no. 2, pp.548-578.
Milan, A. , Leal-Taixé, L. , Reid, I. , Roth, S. and Schindler, K. (2016), MOT16: A benchmark for multi-object tracking, arXiv preprint arXiv:1603.00831.
Redmon, J. and Farhadi, A. (2018), Yolov3: An incremental improvement, arXiv preprint arXiv:1804.02767.
Redmon, J. , Divvala, S. , Girshick, R. and Farhadi, A. (2016), “You only look once: Unified, real-time object detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.779-788.
Ren, S. , He, K. , Girshick, R. and Sun, J. (2015), “Faster r-cnn: Towards real-time object detection with region proposal networks”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp.1137-1149.
Shao, S. , Zhao, Z. , Li, B. , Xiao, T. , Yu, G. , Zhang, X. and Sun, J. (2018), Crowdhuman: A benchmark for detecting human in a crowd, arXiv preprint arXiv:1805.00123.
Shuai, B. , Berneshawi, A. , Li, X. , Modolo, D. and Tighe, J. (2021), “Siammot: Siamese multi-object tracking”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.12372-12382.
Smith, L. N. (2017), “Cyclical learning rates for training neural networks”, 2017 IEEE Winter Conference on Applications of Computer Vision(WACV), pp.464-472.
Sun, P. , Cao, J. , Jiang, Y. , Zhang, R. , Xie, E. , Yuan, Z. , Wang, C. and Luo, P. (2020), Transtrack: Multiple object tracking with transformer, arXiv preprint arXiv:2012.15460.
Tian, Z. , Shen, C. , Chen, H. and He, T. (2019), “Fcos: Fully convolutional one-stage object detection”, Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR), pp.9627-9636.
Voigtlaender, P. , Krause, M. , Osep, A. , Luiten, J. , Sekar, B. B. G. , Geiger, A. and Leibe, B. (2019), “Mots: Multi-object tracking and segmentation”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), pp.7942-7951.
Wang, Z. , Zheng, L. , Liu, Y. , Li, Y. and Wang, S. (2020), “Towards real-time multi-object tracking”, European Conference on Computer Vision(ECCV), pp.107-122.
Wojke, N. , Bewley, A. and Paulus, D. (2017), “Simple online and realtime tracking with a deep association metric”, 2017 IEEE International Conference on Image Processing(ICIP), pp.3645-3649.
Zhang, Y. , Wang, C. , Wang, X. , Zeng, W. and Liu, W. (2021), “Fairmot: On the fairness of detection and re-identification in multiple object tracking”, International Journal of Computer Vision(IJCV), vol. 129, no. 11, pp.3069-3087.

Training of a Siamese Network to Build a Tracker without Using Tracking Labels

Abstract

샴 네트워크를 사용하여 추적 레이블을 사용하지 않는 다중 객체 검출 및 추적기 학습에 관한 연구

초록