Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.23 No.6 pp.325-337
DOI : https://doi.org/10.12815/kits.2024.23.6.325

Robust Place Recognition Using RGB-TIR Feature Fusion against Illumination Changes

Seungjun Ma*, Younggun Cho**
*Dept. of Electrical and Computer Engineering, Inha University
**Dept. of Electrical Engineering, Inha University
Corresponding author : Younggun Cho, yg.cho@inha.ac.kr
26 September 2024 │ 5 October 2024 │ 4 November 2024

Abstract


This study proposes a novel approach to enhance Visual Place Recognition (VPR) performance in autonomous driving and robotic systems by integrating Thermal Infrared (TIR) data. The proposed method employs a Late Fusion strategy, extracting features from each sensor using a MobileNetV3- based network and then combining features through the MixVPR network. Experimental results demonstrate that the proposed method outperforms existing approaches in both quantitative and qualitative evaluations, effectively mitigating performance degradation due to the illuminance variations. These findings are expected to contribute to improving the reliability of Simultaneous Localization and Mapping (SLAM) technology in autonomous vehicles and robotic systems.



RGB-TIR 특징 혼합을 활용한 조도 변화에 강건한 장소 인식 기법

마 승 준*, 조 영 근**
*주저자 : 인하대학교 전기컴퓨터공학과 석사과정
**교신저자 : 인하대학교 전기공학과 교수

초록


본 연구는 자율주행 및 로봇 시스템에서의 시각적 장소 인식(Visual Place Recognition, VPR) 성능을 개선하기 위해 열적외선(Thermal Infrared, TIR) 데이터를 융합하는 새로운 방법론을 제 안한다. 제안된 방법론은 Late Fusion 방식을 채택하여, MobileNetV3를 기반으로 각 센서로부터 특징을 추출한 후, MixVPR 네트워크를 통해 두 데이터 정보를 결합한다. 실험 결과, 제안된 방법론은 기존 방법론들과 비교하여 정량, 정성적인 평가에서 우수한 성능을 보였으며, 특히 조도 변화에 따른 성능 저하를 효과적으로 극복할 수 있음을 검증하였다. 이러한 성과는 자율 주행 차량과 로봇 시스템에서 동시적 위치 추정 및 지도 작성(SLAM) 기술의 신뢰성을 높이는 데 기여할 수 있을 것으로 기대된다.



    Ⅰ. 서 론

    자율주행 및 로봇 분야에서 동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM) 은 필수적인 기술이다. SLAM 기술은 로봇이나 자율주행 차량이 실시간으로 주변 환경을 인식하고, 이를 바 탕으로 현재 위치를 추정하며, 동시에 환경의 지도를 구축할 수 있도록 한다. 이때 시각적 장소 인식(Visual Place Recognition, VPR) 기술은 주행 중 누적된 오차를 바로잡기 위한 루프 폐쇄(Loop Closure)를 수행하기 위한 루프 후보군을 선정하는 역할을 한다. <Fig. 1>은 VPR이 수행되는 방법론을 설명하며, 입력된 쿼리 이 미지로부터 기술자를 추출하여 데이터베이스에 기록된 기술자들과의 유사도를 비교함으로써 이미지의 장소 를 인식하는 과정을 보여준다.

    <Fig. 1>

    Pipeline Overview of Visual Place Recognition

    KITS-23-6-325_F1.gif

    전통적으로 카메라 센서를 활용하는 Visual SLAM 시스템은 주로 RGB 카메라를 기반으로 설계되었으며, 일반적인 조도 조건에서는 우수한 성능을 발휘한다. 그러나 조명이 불충분한 야간이나 실내, 또는 극한의 기 상 조건에서는 시스템의 성능이 크게 저하되며, 이는 자율주행 시스템의 안전성과 신뢰성에 심각한 영향을 미칠 수 있다. 이러한 문제를 해결하기 위한 대안으로, 열적외선(Thermal Infrared, TIR) 카메라의 도입이 최근 주목받고 있다. TIR 카메라는 물체에서 방출되는 열을 감지하여 이미지를 생성하기 때문에, 조도 조건에 강 건한 안정적인 장면 정보를 제공할 수 있다. 특히, 야간과 같은 저조도 상황에서도 TIR 카메라는 장면 속 물 체들의 온도 차이에 기반하여 명확한 시각적 정보를 제공할 수 있다. 그러나 TIR 카메라는 RGB 카메라에 비해 낮은 해상도와 낮은 대비 등으로 인해 이미지 품질이 떨어지기 때문에, 조도가 충분한 환경에서는 RGB 카메라 시스템에 대비하여 낮은 성능을 보일 수 있다.

    본 연구에서는 이러한 배경을 바탕으로, RGB와 TIR 데이터를 융합하여 다양한 환경 조건에서 시각적 장 소 인식(Visual Place Recognition, VPR) 성능을 극대화할 수 있는 새로운 접근법을 제안한다. 제시하는 방법 론은 RGB 센서와 TIR 센서 이미지로부터 CNN 기반의 네트워크를 활용하여 특징 맵을 추출하고 이를 결합 한 뒤 MixVPR(Ali-Bey et al., 2023) 모듈에 입력하여 두 데이터의 late fusion을 유도한다. MixVPR은 VPR 문 제에서 좋은 성능을 보여준 방법론으로, 본 논문에서는 이를 활용해 두 센서 이미지를 late fusion 하여 각 센 서의 개별적인 장점을 극대화하면서도 두 데이터 간의 상호보완적인 특성을 최적화시킬 수 있음을 실험을 통해 보일 것이다. 이러한 기술적인 접근은 자율주행뿐만 아니라, 보안 감시, 구조 및 재난 대응 등 다양한 응용 분야에서 활용될 수 있다. 특히, 조도 조건과 관계없이 안정적으로 작동할 수 있는 시스템을 구축함으 로써, 다양한 환경에서의 자율주행을 구현하는 데 기여할 수 있다.

    Ⅱ. 관련 연구

    1. 저조도 환경 극복을 위한 TIR 카메라 활용 연구

    TIR 카메라는 조도 조건에 강건하게 장면을 포착할 수 있는 능력 덕분에, 이를 활용하여 저조도 환경을 극복하고자 하는 다양한 연구가 진행됐다. Vidas and Sridharan(2012)은 단일 카메라 기반 SLAM 시스템에 TIR 카메라를 도입하여, 가시광선 기반 SLAM 시스템이 실패할 수 있는 환경에서도 견고하게 특징점을 추적 하는 방안을 제시하였다. Chang and Lin(2020)은 TIR 카메라 기반의 객체 검출 알고리즘을 통해 저조도 환경 을 극복 가능한 감시 시스템을 제시하였고, Jung and Jung(2020)은 TIR 카메라를 활용하여 저조도 환경에서 성공적인 1종, 3종 차량을 분류할 수 있는 알고리즘을 제시하였다. Jiang et al.(2022)은 열화상 정보와 관성 정보를 결합하여 극한의 조도 조건에서도 성공적으로 SLAM을 수행할 수 있는 시스템을 제안하였는데, 이들 은 특이값 분해를 활용하여 TIR 이미지에 존재하는 줄무늬 잡음을 효과적으로 제거함으로써 TIR 이미지의 품질을 향상하는 방법을 제시하기도 하였다. Saputra et al.(2021)은 확률적 신경망을 사용하여 열화상 이미지 와 관성 정보를 기반으로 한 SLAM 기술을 구현하였으며, 이는 지하 환경과 같은 극한의 상황에서도 우수한 성능을 나타냈다.

    2. 딥러닝 기반 VPR 방법론

    딥러닝의 도입으로 컴퓨터 비전 분야들은 상당한 발전을 이루었으며, VPR도 그중 하나이다. Arandjelovic et al.(2016)은 전통적인 VLAD(Vector of Locally Aggregated Descriptors) 기법을 활용하여 CNN 기반의 약지도 학습 구조를 통해 학습 가능한 NetVLAD 기법을 제시하였다. Radenovic et al.(2018)은 멱평균을 활용하여 풀링 기법을 형성하고, 신경망을 통해 최적의 평균 기법을 결정하는 Generalized Mean Pooling(GeM) 기법을 제안하였다. Ali-Bey et al.(2023)은 Feature-Mixer 모듈을 도입하여 특징 맵의 각 채널에서 전역적인 정보를 강화하는 MixVPR 방법론을 제안하였다. 이외에도 Keetha et al.(2023)은 VPR을 수행할 수 있는 기반 모델(Foundation Model)인 AnyLoc 을 제시하기도 하였다.

    3. RGB와 TIR의 융합적 활용

    RGB와 TIR 카메라는 서로 다른 파장대를 사용하여 이미지를 생성하지만, 같은 형태의 데이터 결과물을 제공하므로 이를 동시에 활용하기 위한 방법론들이 활발히 연구되어왔다. Wang et al.(2023)은 RGB 이미지와 TIR 이미지를 결합하여 저조도 상황에서도 효과적으로 의미론적 분할(Semantic Segmentation)을 수행할 수 있 는 네트워크를 제시하였다. 해당 연구는 비대칭 구조의 SGFNet을 사용하여, TIR 이미지에서 추출한 의미 정 보를 활용해 RGB 이미지의 특징을 보강하는 형태로 두 센서 정보를 융합함으로써 의미론적 분할의 성능을 향상하였다. 하지만 이는 RGB 센서 데이터를 TIR 센서 데이터로 보강하는 형태를 띠기 때문에, 환경 조건에 따라 TIR 센서가 열화되는 경우를 충분히 대처하지 못할 가능성이 있다. Qin et al.(2023)은 전통적인 특징점 기반 매칭 기법을 활용하여 RGB와 TIR 카메라를 상황에 따라 단일 또는 다중 카메라로 사용하는 SLAM 시 스템을 제안하였으며, 이를 통해 다양한 환경에서 각 센서를 단일로 활용했을 때보다 우수한 성능을 보임을 입증하였다. 하지만 해당 방법론은 한 센서가 기준을 충족하지 못하면 단일 센서로 진행하는 선택적인 시스 템이기 때문에, 각 센서의 장점을 충분히 활용하지 못할 수 있다.

    Ⅲ. 방법론

    본 연구에서 제안하는 장소 인식 기법은 RGB 이미지와 TIR 이미지를 동시에 활용함으로써, 각 센서가 가 지는 강점을 활용해 조도 조건에 강건한 장소 인식을 수행한다. 본 방법론에서는 서로 다른 두 센서 이미지 특징들을 혼합하기 위한 MixVPR 기반의 late fusion 구조를 제시하고, 해당 네트워크를 Metric Learning 기법 을 활용해 학습하는 방법론을 제시한다. 제시하는 방법론은 동등한 혼합구조로 네트워크를 설계함으로써, 두 센서가 장면을 기술한 정보를 동등하게 활용하여 각각의 센서가 열화되는 상황을 대처할 수 있도록 하였다.

    1. Late Fusion 구조의 RGB-TIR 혼합 기술자 추출

    서로 다른 두 센서 정보를 통합하는 방법은, 입력 데이터를 초기에 결합하는 Early Fusion 방법과 신경망 등을 통해 특징을 추출한 후 결합하는 Late Fusion 방법으로 나눌 수 있다(Feng et al., 2020). Early Fusion 구 조는 네트워크의 초기 단계에서 정보를 혼합함으로써 각 센서로부터 얻은 정보를 손실 없이 활용할 수 있다 는 장점이 있지만, 두 데이터가 공간상 및 시간상으로 정합되어야 한다는 제한이 있다. 반면 Late Fusion 구 조는 네트워크에 의해 추상화된 특징 정보를 혼합하기 때문에, Early Fusion 구조에 대비하여 정합 문제에 자 유로울 수 있다. RGB와 TIR 데이터는 종종 서로 다른 해상도나 시야각(Field of View)을 가지며, 특히 TIR의 경우 열 보정을 위한 비균일성 보정(Non-uniformity Correction, NUC)이 주기적으로 발생하기 때문에, 두 센서 간 시간적 및 공간적인 정합이 어려운 경우가 자주 발생한다. 이러한 특성을 고려하여, 본 논문에서는 <Fig. 2>와 같이 네트워크에 의해 추상화된 특징을 혼합하는 Late Fusion의 구조로 방법론을 설계하였다.

    <Fig. 2>

    Proposed Network

    KITS-23-6-325_F2.gif

    먼저 Encoding 네트워크로는 MobileNetV3(Howard et al., 2019)을 활용하였으며, 서로 다른 두 개의 MobileNetV3를 도입하여 RGB와 TIR 이미지로부터 특징 맵을 추출한다. MobileNetV3는 모바일 기기나 임베 디드 보드에 적합하도록 경량화된 네트워크로, 이미지에 대해 빠르고 효율적인 정보 압축이 가능하여 자율 주행 차량이나 로보틱스에 적합한 네트워크이다. 두 센서에서 얻은 특징 맵을 혼합하는 Fusion 네트워크로는 MixVPR을 사용하였다. MixVPR은 사전 학습된 백본 네트워크로부터 얻은 특징 맵을 1D 벡터로 평탄화하고, 이를 Feature-Mixer라는 다중 레이어 퍼셉트론(MLP) 블록의 연쇄 구조를 통해 특징 맵 간의 전역적 관계를 통합한다. 이후 Feature-Mixer를 거친 출력은 채널 방향의 차원 축소와 행 방향 차원 축소를 거쳐 최종 기술 자를 형성한다.

    본 논문에서는 두 센서 특징 맵의 혼합을 유도하기 위해, 두 센서에서 추출한 특징 맵을 채널 방향으로 결 합하여 MixVPR의 입력으로 사용하였다. 결합한 특징 맵은 Feature-Mixer를 통과한 뒤, 채널 차원의 차원 축 소 과정을 통해 그 특징들이 혼합될 수 있다. 이는 Feature-Mixer를 통해 전역적인 정보를 가진 특징 맵을 혼 합하는 late fusion의 형태를 띠기 때문에, NUC나 해상도 차이로 인한 두 센서의 정합 문제로부터 자유로운 RGB와 TIR의 혼합 기술자를 얻을 수 있다.

    2. Metric Learning을 활용한 네트워크 학습

    성공적인 VPR을 수행하려면 인접한 장소에서 획득한 이미지들에 대해 네트워크는 유사한 기술자를 생성 할 수 있어야 한다. 하지만 장소는 수치화될 수 없는 개념이기 때문에, 일반적으로 VPR 네트워크를 학습하 는 데는 Metric Learning 기법을 활용한다. Metric Learning 기법은 데이터를 임베딩 공간에 대응하여 같은 클 래스에 속하는 데이터는 가까이 위치시키고, 다른 클래스에 속하는 데이터는 멀리 위치시킴으로써 데이터를 분류하는 방법으로, VPR에서는 이 기법을 활용하여 이미지의 실제 위치 좌표를 바탕으로 사전에 지정된 반 경을 통해 가상의 장소 클래스를 형성하고, 같은 장소 클래스의 이미지로부터 얻은 임베딩은 가깝게, 서로 다른 장소 클래스의 이미지 임베딩은 멀어지도록 학습시킨다.

    장소 인식 네트워크를 학습하기 위한 손실함수로는 triplet loss, quadruplet loss, pairwise margin-based loss 등 다양한 방법이 존재한다. 그중 pairwise margin-based loss는 연산이 간단하면서도 수렴이 빠르고 좋은 성능 을 보이는 것으로 알려져 있으며(Oertel et al., 2020), 해당 손실함수의 수식은 다음과 같다.

    L ( u k , u l , y ) = max ( 0 , y · ( u k u l 2 ( d α ) ) + ( 1 y ) · ( d + α ) u k u l 2 )
    (1)

    이때 uk,ul 은 각 이미지로부터 얻은 기술자를 나타내고, y는 레이블로서 두 기술자가 positive 관계이면 1, negative 관계이면 0의 값을 가진다. d는 마진값을 나타내며, α는 조정 상수이다. 위 손실함수를 통해, 기술자 들은 서로 지나치게 가까워지거나 멀어지지 않으며 장소를 표현할 수 있도록 학습된다.

    3. 유사도 검색을 활용한 장소 인식

    위치 인식을 수행하기 위해서는 사전에 데이터베이스 구축이 필수적이며, 이 데이터베이스는 각 이미지의 기술자들로 구성된다. 장소 인식 과정에서는 쿼리 이미지로부터 추출한 기술자와 데이터베이스에 저장된 기 술자 간의 유사도를 계산함으로써 이루어진다. 이러한 유사도 비교를 위한 방법은 기술자의 특성에 따라 다 양하게 사용될 수 있는데, 대표적으로 Hamming Distance, Cosine Distance, L2 노름(L2 Norm) 등이 있다. 본 논문에서 제안하는 방법론에서는 L2 노름을 사용하여 쿼리 기술자와 데이터베이스 기술자 간의 유사도를 측정하였다. 특히, 쿼리 기술자 q와 데이터베이스 내 기술자 diD 간의 거리를 계산한 뒤, 가장 작은 L2 거 리를 가지는 데이터베이스 기술자 d* 를 선정하는 방식으로 장소 인식을 수행한다. 이를 수식적으로 표현하 면 다음과 같다.

    d * = argmin d i D q d i 2
    (2)

    여기서 q는 쿼리 이미지로부터 추출된 기술자를, di 는 데이터베이스 내 기술자를, D 는 전체 데이터베이스 를 의미한다. 최종적으로, VPR은 가장 유사한 데이터베이스 내 기술자 d* 에 대응하는 위치를 쿼리 이미지의 위치로 판단하게 된다.

    Ⅳ. 실 험

    1. 데이터셋

    제안한 방법론의 성능을 평가하기 위해, 실제 도로 주행 환경에서 RGB 및 TIR 카메라로 취득한 Sthereo(Yun et al., 2022) 데이터셋을 활용하였으며, 그 예시는 <Fig. 3>와 같다. 해당 데이터셋은 KAIST, SNU, Valley 경로로 구성되어 있으며, 각각 morning, afternoon, evening 또는 morning, evening으로 구성되어 있다. 조도 환경에 대한 데이터 편향을 방지하기 위해 실험에서는 KAIST의 morning, evening 경로와 Valley의 morning, evening 경로를 train set으로 선정하였고, SNU의 morning 및 evening 경로를 test set으로 사용하였다. 테스트는 루프 폐쇄(Loop Closure) 시나리오를 가정하여 단일 경로 내 장소 재방문이 발생하는 상황을 대상 으로 SNU morning과 SNU evening 경로에서 각각 진행되었으며, 자세한 데이터의 설명은 <Table 1>과 같다.

    <Fig. 3>

    Examples of the Sthereo Dataset. All TIR images are preprocessed with FieldScale.

    KITS-23-6-325_F3.gif
    <Table 1>

    Dataset Specification

    Split Sequence Time Number of Frames(# of loop) Total
    Train KAIST Morning 2572 6544
    Evening 2570
    Valley Morning 700
    Evening 702
    Test SNU Morning 2740(191) 5470(375)
    Evening 2730(184)

    이때 Test Set에서 프레임 개수의 괄호는 해당 경로 내에서 장소 재방문이 발생한 프레임의 개수를 의미하 며, 이는 장소 재방문 판단이 발생하는 횟수와 같다. Train Set의 경우, 장소 재방문의 횟수와 네트워크 학습 간의 관계가 없으므로 표기하지 않았다.

    2. 상세 구현 내용

    TIR 카메라는 14bit 또는 16bit의 이미지를 생성하기 때문에, 이를 RGB 이미지와 같이 활용하려면 추가적 인 전처리 과정이 필요하다. 기존의 많은 연구는 주로 최대최소 정규화를 이용해 TIR 이미지를 8비트로 변 환하여 사용하였지만, 이러한 방법은 태양과 같은 주변 환경 대비 온도 차가 큰 물체가 장면에 등장할 경우 이미지의 대비를 급격하게 저하할 수 있다. FieldScale(Gil et al., 2024)은 최대최소 정규화 방법을 2차원 스칼 라 필드로 확장함과 동시에, RGB의 광원이 장면에 전역적인 영향을 주는 것과 달리 TIR의 열원은 장면에 대해 국소적인 영향만을 미친다는 점에 착안하여, 영역을 나누어 정규화를 행하는 방법론을 제시하였다. 해 당 방법론은 극단적인 온도를 가진 물체가 등장할 때의 영향을 지정된 영역에 한정시켜 기존 최대최소 정규 화가 겪는 대비 저하 문제를 완화할 수 있으므로, 본 논문에서는 해당 방법론을 이용하여 TIR 이미지를 전 처리하였다.

    본 논문에서 제시하는 방법론의 Encoder 네트워크는 MobileNetV3-Large 모델을 활용하였으며, 이때 bottleneck 네트워크를 제외한 말단의 분류 층들은 모두 제거하고, 마지막 두 개의 bottleneck 네트워크에 대해 서만 학습을 진행하였다. Fusion 네트워크는 MixVPR을 활용하였으며, 이에 대한 자세한 구현 파라미터는 다 음과 같다.

    <Table 2>

    Settings of MixVPR

    Parameter Setting
    In_channels 320
    Out_channels 320
    MixDepth 4
    Out_rows 4

    In_channels는 MixVPR 네트워크의 입력 채널 크기로, 두 MobileNetV3 출력 채널의 크기를 합친 320으로 지정하였다. Out_channels는 In_channels와 같이 320으로 지정하였으며, 이는 MixVPR내 depth-wise projection의 출력 채널을 의미한다. Mix_depth는 MixVPR내 Feature-Mixer가 적층되는 개수를 의미하고, Out_rows는 row-wise projection의 출력 채널을 의미한다. 위 설정 파라미터들을 통해, MixVPR은 Out_channels와 Out_rows 를 곱한 1280 차원의 기술자를 출력한다.

    네트워크 학습에 대한 초매개변수(Hyperparameter)는 <Table 3>와 같다.

    <Table 3>

    Settings of Hyperparameters

    Hyper parameter Setting
    Epoch 50
    Batch Size 5
    Optimizer Adam
    Positive Radius 10m(Train) 25m(Test)
    Negative Radius 25m(Train)

    네트워크는 50 에폭을 학습시켰으며, 학습을 위한 배치의 크기는 5로 지정하였다. 이때 각 배치는 1개의 중심 이미지와 1개의 positive 이미지, 그리고 10개의 negative 이미지로 구성되어 총 12장의 이미지로 이루어 진다. 최적화를 위한 함수로는 Adam Optimizer를 활용하였다. Berton et al.(2022)의 연구를 따라, VPR 네트워 크를 Metric Learning 기법으로 학습하기 위한 positive, negative의 기준 반경은 학습 시에는 각각 10m 이내, 25m 초과로 지정하고, 평가 시에는 두 반경 모두 25m로 지정하였다.

    3. 실험 결과

    제안된 방법론의 성능을 평가하기 위해, VPR에서 널리 사용되는 NetVLAD 방법론과 GeM, MixVPR 방법 론을 이용하였다. 하지만 이들 방법론은 단일 센서 입력에 대한 기술자를 출력하기 때문에, 이들을 복수의 센서 입력에 대한 기술자와 비교하는 것은 평가 공정성의 문제가 있을 수 있다. 따라서 본 연구의 실험은 RGB와 TIR에서 해당 기술자들을 각각 학습하여 n 차원의 기술자를 생성하고, 두 기술자를 이어 2n 차원의 기술자를 구성한 뒤, 제안하는 방법론과 비교하는 방법을 택하였다. 이후 본 논문의 성능 평가 부분에서 언 급되는 NetVLAD, GeM, MixVPR 기술자는 이 과정을 통해 결합한 단일 기술자를 의미한다.

    1) Precision & Recall Curve

    방법론의 성능과 강건성을 평가하기 위해 Precision & Recall(PR) curve를 도입하였다. 해당 그래프는 시스 템의 판단을 결정하는 임곗값을 조절하면서, 변화하는 Recall에 따라 Precision을 기록하는 그래프이다. 이때 Precision과 Recall의 수식은 다음과 같다.

    Pr e c i s i o n = T P ( T P + F P ) , R e c a l l = T P ( T P + F N )
    (3)

    PR curve는 기술자가 장면에 대해 얼마나 유일한 표현을 수행하는지 확인할 수 있는 그래프로, Precision이 높으며, Recall이 증가함에 따라 Precision이 감소하는 정도가 완만할수록 좋은 기술자로 평가할 수 있다.

    <Fig. 4>에 따르면, 본 논문에서 제시하는 방법론이 이러한 기준에 대해 가장 우수한 성능을 보임을 확인 할 수 있다. 또한, 제안하는 방법이 MixVPR 기술자보다 더 뛰어난 성능을 나타낸 것은, 센서 기술자의 단순 결합보다 Late Fusion 접근법이 두 센서 정보를 더 효과적으로 활용할 수 있기 때문으로 해석할 수 있다.

    <Fig. 4>

    PR curve of different VPR methods

    KITS-23-6-325_F4.gif

    2) Matching Pair Visualization

    <Fig. 5>는 각 방법론에 대해 F1-Score가 최대가 되는 임곗값을 사용하여 매칭 결과를 시각화한 것이다. 초 록색 선은 True Positive(TP)를, 빨간색 선은 False Positive(FP)를 의미한다. 두 경우 모두 제안된 방법론이 가 장 적은 FP를 가진 것을 확인할 수 있으며, 이는 제안된 방법론이 같은 장소에 대한 이미지들에 대해 유사한 기술자들을 추출하여 시스템이 잘못된 판단을 하는 경우가 다른 방법론들에 비교하여 매우 낮았음을 시사한 다. 잘못된 VPR로 인한 loop closure는 SLAM의 성능에 치명적인 영향을 미칠 수 있으므로, 이러한 결과는 매우 중요한 의미를 가지며, 제안된 방법론의 우수성을 입증한다.

    <Fig. 5>

    Matching pair visualization at the highest F1 score

    KITS-23-6-325_F5.gif

    3) 정량적 성능 평가

    본 방법론의 정량적 평가를 위해 Recall@1과 F1 Score를 도입하였다. Recall@1은 PR 알고리즘을 통해 단 하나의 장소(이미지)를 검색하여 회수했을 때, 실제로 올바른 장소를 회수한 비율을 의미한다. F1 Score는 PR curve에서 언급한 Precision과 Recall 간의 조화평균을 의미하며, 이 값이 1에 가까울수록 성능이 우수함을 나 타낸다. 두 지표를 수식으로 나타내면 다음과 같다.

    R e c a l l @ 1 = T P G T , F 1 = 2 × ( Pr e c i s i o n × R e c a l l ) ( Pr e c i s i o n + R e c a l l )
    (4)

    <Table 4>는 (4)의 수식에 따라 각 방법론을 평가한 결과이다. 모든 지표에서 본 논문에서 제시하는 방법 론이 가장 우수한 성능을 보였음을 확인할 수 있다.

    <Table 4>

    Qualitative Performance Comparison for VPR Methods

    Methods Recall@1 F1 Score
    Ours 0.8770 0.9790
    MixVPR 0.8635 0.9605
    NetVLAD 0.8587 0.9510
    GeM 0.8330 0.9060

    4) 제거 실험(Ablation Study)

    다음은 Late Fusion 구조에 대한 제거 실험의 결과로, RGB 또는 TIR 만을 입력으로 하여 MixVPR 기술자 를 각각 추출하였고, 그 성능을 제안한 방법론과 비교하였다. 평가 지표로는 Recall@1과 F1 Score를 이용하 였고, Morning과 Evening 경로 각각에 대하여 실험을 진행하였다.

    <Table 4>에 따르면, 모든 부문에서 본 논문에서 제시한 Fusion 방법론이 모든 경우에 대하여 가장 우수한 성능을 보이는 것을 확인할 수 있다. 특히, 본 방법론의 우수성은 Evening 경로에서 두드러지게 나타나는데, Evening 경로에서 RGB의 Recall@1 성능은 Morning 경로에 대비하여 약 11% 하락했지만, 제시된 방법론은 약 4%의 성능 손실에 그쳤으며 TIR보다는 우수한 성능을 보였다. 이는 제안하는 방법론이 RGB의 성능 하락 을 TIR 데이터를 이용해 효과적으로 극복할 수 있고, 동시에 RGB의 정보를 적절히 활용함으로써 장소 인식 성능이 시킬 수 있음을 의미한다.

    <Table 5>

    Ablation Study for Different Time Sequence

    Morning Evening Total
    Method Recall@1 F1 Score Recall@1 F1 Score Recall@1 F1 Score
    Ours 0.8953 0.974 0.8587 0.984 0.8770 0.9790
    RGB 0.8796 0.964 0.7826 0.926 0.8311 0.9450
    TIR 0.8429 0.949 0.7989 0.910 0.8209 0.9295

    또한, 제시하는 방법론의 구조적 효용성을 검증하기 위해 서로 다른 백본 네트워크에 대해 성능을 평가하 였다. 비교한 백본 네트워크는 ResNet50과 MobileNetV3-Small을 활용하였으며, 그 결과는 아래 표와 같다.

    <Table 6>

    Ablation Study for Backbone Network

    Backbone Recall@1 F1 Score Params Inference Time (s)
    MobileNetV3-Large(Ours) 0.8770 0.9790 5.789M 0.0176
    MobileNetV3-Small 0.8667 0.9700 1.831M 0.0152
    ResNet50 0.8408 0.9440 63.85M 0.0216

    위 결과를 통해, 본 연구에서 선택한 MobileNetV3-Large 모델이 가장 좋은 성능을 내는 것을 확인할 수 있다. MobileNetV3-Small 모델 또한 파라미터의 개수 대비 좋은 성능을 내는 것을 확인할 수 있어, 더 빠른 추론 시간 이 요구될 경우 이를 활용하는 것도 좋은 선택지로 판단된다. 이에 반해 ResNet50은 파라미터 개수와 추론 시 간에 대비하여 좋지 못한 성능을 보였고, 이러한 결과를 근거로 본 논문의 방법론은 MobileNetV3-Large 모델을 백본 네트워크로써 선정하였다.

    Ⅴ. 결 론

    본 연구에서는 자율주행 및 로봇 분야에서 중요한 문제로 대두되는 다양한 조도 및 환경 조건에서의 VPR 성능을 향상하기 위해 RGB와 TIR 데이터를 융합하는 새로운 방법론을 제안하였다. 제안된 방법론은 두 센 서의 데이터를 Late Fusion 방식을 통해 결합함으로써, 각각의 센서가 가지는 개별적인 장점은 극대화하고, 약점은 상호 보완할 수 있도록 설계되었다. 이를 위해 MobileNetV3를 기반으로 한 Encoding 네트워크와 MixVPR을 활용한 Fusion 네트워크를 도입하여, 다양한 환경에서 강건한 VPR 성능을 달성할 수 있었다.

    실험 결과, 제안된 방법론은 다양한 시간대와 조건에서 NetVLAD, GeM 그리고 MixVPR과 같은 기존 방법 론들보다 우수한 성능을 보였다. 여러 정량적 평가 지표에서 모든 방법론을 능가하는 성능을 나타냈으며, 단 일 센서를 사용한 경우보다 더 안정적이고 정확한 장소 인식을 수행할 수 있음을 확인하였다. 결론적으로, 본 논문에서 제시한 방법론은 다양한 조도 및 환경 조건에서도 일관된 성능을 유지할 수 있는 강력한 VPR 솔루션을 제공하며, 자율주행 차량과 로봇 시스템에서의 SLAM 기술의 신뢰성을 높이는 데 기여할 수 있다.

    TIR 센서는 열을 감지하는 센서 특성상 기온 및 기상에 민감하게 동작하여, 계절 변화 및 기상 변화 등에 대해 취약할 수 있다. 다만 본 연구에서는 데이터셋 확보의 어려움으로 해당 시나리오들에 대한 실험을 진행 하지 못하였고, 추후 연구로서 진행할 계획이다. 또한, 라이다나 레이더와 같은 거리 기반 센서와 TIR의 퓨 전도 향후 논의될 문제일 것이다.

    ACKNOWLEDGEMENTS

    이 논문은 2024년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원 (P0017124, 2024년 산업혁신인 재성장지원사업) 및 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 임 (No.2022-0-00448/RS-2022-II220448).

    Figure

    KITS-23-6-325_F1.gif

    Pipeline Overview of Visual Place Recognition

    KITS-23-6-325_F2.gif

    Proposed Network

    KITS-23-6-325_F3.gif

    Examples of the Sthereo Dataset. All TIR images are preprocessed with FieldScale.

    KITS-23-6-325_F4.gif

    PR curve of different VPR methods

    KITS-23-6-325_F5.gif

    Matching pair visualization at the highest F1 score

    Table

    Dataset Specification

    Settings of MixVPR

    Settings of Hyperparameters

    Qualitative Performance Comparison for VPR Methods

    Ablation Study for Different Time Sequence

    Ablation Study for Backbone Network

    Reference

    1. Ali-Bey, A., Chaib-Draa, B. and Giguere, P. ( 2023), “Mixvpr: Feature mixing for visual place recognition”, In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pp.2998-3007.
    2. Arandjelovic, R., Gronat, P., Torii, A., Pajdla, T. and Sivic, J. ( 2016), “NetVLAD: CNN architecture for weakly supervised place recognition”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.5297-5307.
    3. Berton, G., Mereu, R., Trivigno, G., Masone, C., Csurka, G., Sattler, T. and Caputo, B. ( 2022), “Deep visual geo-localization benchmark”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.5396-5407.
    4. Chang, J. U. and Lin, C. H. ( 2020), “Thermal imagery-based object detection algorithm for low-light level nighttime surveillance system”, The Journal of The Korea Institute of Intelligent Transportation Systems, vol. 19, no. 3, pp.129-136.
    5. Feng, D., Haase-Schütz, C., Rosenbaum, L., Hertlein, H., Glaeser, C., Timm, F., Wiesbeck, W. and Dietmayer, K. ( 2020), “Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges”, IEEE Transactions on Intelligent Transportation Systems, vol. 22, no. 3, pp.1341-1360.
    6. Gil, H., Jeon, M. H. and Kim, A. ( 2024), “Fieldscale: Locality-aware field-based adaptive rescaling for thermal infrared image”, IEEE Robotics and Automation Letters, vol. 9, no. 7, pp.6424-6431.
    7. Howard, A., Sandler, M., Chu, G., Chen, L. C., Chen, B., Tan, M., Wang, W., Zhu, Y., Pang, R., Vasudevan, V., Le, Q. and Adam, H. ( 2019), “Searching for mobilenetv3”, In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.1314-1324.
    8. Jiang, J., Chen, X., Dai, W., Gao, Z. and Zhang, Y. ( 2022), “Thermal-inertial SLAM for the environments with challenging illumination”, IEEE Robotics and Automation Letters, vol. 7, no. 4, pp.8767-8774.
    9. Jung, Y. S. and Jung, D. Y. ( 2020), “Class 1·3 vehicle classification using deep learning and thermal image”, The Journal of The Korea Institute of Intelligent Transportation Systems, vol. 19, no. 6, pp.96-106.
    10. Keetha, N., Mishra, A., Karhade, J., Jatavallabhula, K. M., Scherer, S., Krishna, M. and Garg, S. ( 2023), “Anyloc: Towards universal visual place recognition”, IEEE Robotics and Automation Letters, vol. 9, no. 2, pp.1286-1293.
    11. Oertel, A., Cieslewski, T. and Scaramuzza, D. ( 2020), “Augmenting visual place recognition with structural cues”, IEEE Robotics and Automation Letters, vol. 5, no. 4, pp.5534-5541.
    12. Qin, L., Wu, C., Kong, X., You, Y. and Zhao, Z. ( 2023), “BVT-SLAM: A binocular visible-thermal sensors SLAM System in low-light environments”, IEEE Sensors Journal, vol. 24, no. 7, pp.11599-11609.
    13. Radenović, F., Tolias, G. and Chum, O. ( 2018), “Fine-tuning CNN image retrieval with no human annotation”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 7, pp.1655-1668.
    14. Saputra, M. R. U., Lu, C. X., de Gusmao, P. P. B., Wang, B., Markham, A. and Trigoni, N. ( 2021), “Graph-based thermal-inertial SLAM with probabilistic neural networks”, IEEE Transactions on Robotics, vol. 38, no. 3, pp.1875-1893.
    15. Vidas, S. and Sridharan, S. ( 2012), “Hand-held monocular slam in thermal-infrared”, In 2012 12th International Conference on Control Automation Robotics & Vision (ICARCV), pp.859-864.
    16. Wang, Y., Li, G. and Liu, Z. ( 2023), “Sgfnet: Semantic-guided fusion network for rgb-thermal semantic segmentation”, IEEE Transactions on Circuits and Systems for Video Technology, vol. 33, no. 12, pp.7737-7748.
    17. Yun, S., Jung, M., Kim, J., Jung, S., Cho, Y., Jeon, M. H., Kim, G. and Kim, A. ( 2022), “Sthereo: Stereo thermal dataset for research in odometry and mapping”, In 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp.3857-3864.

    저자소개

    Footnote