Ⅰ. 서 론
1. 개요
자율주행 시스템의 안정적 운행을 위해서는 차량의 위치를 실시간으로 추정하는 기술이 필수적이다. 그러나 터널이나 지하차도와 같은 GNSS(Global Navigation Satellite System) 음영 지역에서는 위성 신호 단절로 인해 정밀 측위가 어렵다. 이를 보완하기 위한 비전 기반 측위 기술 역시 터널 환경 고유의 특수성인 반복적인 기하학적 패턴, 텍스처 부족, 급격한 조명 변화로 인해 신뢰성 있는 위치 추정에 한계를 보인다. 이러한 측위 불확실성을 보완하기 위해 도로의 차선을 직접 인식하여 위치를 보정하려는 연구들이 진행되어 왔다(Byun, 2017). 그러나 기존 차선 검출 방식은 정밀한 기하학적 형상 추출에 집중하여 높은 연산 부하를 수반하며 터널 내 불규칙한 조명 환경에서 검출 성능이 크게 저하되는 문제를 안고 있다. 본 연구에서는 이러한 여러 한계를 극복하기 위해 새로운 접근을 제안한다. 정밀한 차선 형상을 복원하는 대신 차량이 현재 주행 중인 차로 번호(Lane Index)를 직접 식별하는 차로 수준 인지에 집중한다. GNSS 음영 지역에서 관성 항법이나 V-SLAM에만 의존할 경우, 누적 오차로 인해 차량의 추정 위치가 실제 도로를 이탈하는 횡방향 발산 문제가 발생할 수 있다. 선행 연구에서는 정밀 차선 검출 정보를 활용하여 이러한 횡방향 오차를 효과적으로 억제할 수 있음을 입증한 바 있다(Jeon et al., 2021). 이와 유사한 원리로, 본 연구에서 제안하는 이산적인 차로 인덱스 정보는 차량의 횡방향 위치가 존재해야 할 물리적 범위를 한정하는 기하학적 구속 조건을 제공할 수 있다. 즉, 기존 측위 시스템의 추정 궤적의 횡방향 오차가 증가되는 것이 확인되면 이를 오류로 감지하고 위치 추정 필터(EKF, UKF 등) 내 불확실성을 실시간으로 제어하는 보조 모듈로서 활용될 수 있다.
따라서 본 연구는 터널 환경에서의 측위 불확실성을 보완하기 위해 근적외선(NIR, Near-Infrared) 영상과 경량 딥러닝 기술을 결합한 차로 인덱스 식별 시스템을 제안한다. 특히 저조도나 급격한 조명 변화가 빈번한 터널 내에서도 안정적인 대조비를 유지하는 근적외선 영상을 활용하여 식별에 유리한 시각 정보를 확보한다. 본 연구에서 제안하는 프레임워크는 효율적인 데이터셋 구축 시스템과 경량 딥러닝 차로 식별 모델 설계의 두 단계로 구체화된다.
먼저 딥러닝 모델 학습에 필수적인 대규모 데이터를 효율적으로 확보하기 위해 광학 흐름(Optical Flow)과 기하학적 필터링을 결합한 반자동 라벨링 시스템을 제안한다. 이 시스템은 수동 작업의 부담을 획기적으로 줄이는 동시에 약 7만 장 규모의 고품질 터널 주행 데이터의 차로 라벨(Ground Truth)을 구축하는 기반이 된다. 다음으로 구축된 데이터셋을 바탕으로 엣지 디바이스 환경에 적합한 MobileNetV3-small 기반의 End-to-End 분류 모델을 설계하였다. 본 모델은 단순히 차선 텍스처 유무에 의존하는 것을 넘어 터널 벽면과의 상대적 거리나 도로 경계와 같은 전역적 문맥 정보를 암묵적으로 학습하여 높은 식별 성능을 달성한다. 특히 이러한 경량 아키텍처의 채택은 제한된 연산 자원 내에서도 메인 측위 알고리즘의 부하를 최소화하며 병행 구동될 수 있는 실용적 가능성을 제시한다.
본 연구가 자율주행 및 지능형 교통 시스템(ITS, Intelligent Transportation Systems) 분야에 기여하는 바는 다음과 같다.
첫째, 조명 변화와 지각적 모호성이 극심한 터널 구간에서 약 97.8 % 의 차로 분류 정확도를 확보함으로써 기존 측위 시스템의 횡방향 발산 오차 발생 여부를 판단하고 궤적을 검증하는 신뢰성 있는 보조 지표로 활용될 수 있음을 보인다.
둘째, 대규모 터널 주행 데이터셋 구축을 위한 효율적인 반자동 라벨링 방법론을 제안하였다. 광학 흐름 기반 추적과 기하 필터링 기법을 결합하여 대규모 데이터 라벨링 과정의 효율성과 정밀도를 동시에 확보할 수 있는 실용적 시스템을 제시한다.
셋째, 현존하는 높은 정확도의 자율주행 시스템과의 병행 구동을 고려한 경량 구조를 제안함으로써 메인 측위 알고리즘의 보조 모듈로서의 적용 가능성을 제시한다.
Ⅱ. 관련 연구
터널이나 지하차도와 같이 GNSS 신호가 차단되는 환경은 자율주행 시스템의 정밀 측위에 있어 여전히 도전적인 과제이다. GNSS와 관성 항법 장치를 결합한 항법 시스템은 신호 차폐 구간에서 위치 오차가 시간당 수백 미터 수준으로 증가할 수 있으며 안전한 차로 유지에 심각한 위협이 된다(Gyagenda et al., 2022;He et al., 2023). 이를 극복하기 위해 GNSS 음영지역에서 자유로운 카메라 센서를 활용한 Visual Odometry(VO) 및 Visual SLAM(V-SLAM) 기술이 대안으로 연구되어 왔다. 이 기술들은 특징점 기반 추적을 통해 일반 도심 환경에서 센티미터급 정확도를 달성하였지만, 환경 내에 고유한 시각적 특징점이 충분히 존재한다는 전제 하에 설계되었다(Forster et al., 2016;Engel et al., 2017;Nistér et al., 2006;Mur-Artal and Tardós, 2017;Choi, 2022). 터널처럼 텍스처가 부족하고 벽면, 천장, 조명이 반복적인 패턴을 이루는 환경에서는 특징점 매칭 실패율이 증가하며 이는 추적 소실과 함께 누적 오차로 이어진다(Zhou et al., 2017). 또한 터널 환경의 다른 도전 과제는 진출입부에서 발생하는 극단적인 조도 변화이다. 밝은 외부 환경에서 어두운 터널 내부로 진입하거나 그 반대의 경우 카메라 센서는 적정 노출을 찾기 위한 자동 노출 조정에 상당한 시간을 사용한다. 그동안 영상은 과노출 또는 저노출 상태가 되어 차선이나 특징점이 시각적으로 소실될 수 있으며 이때 측위 정보가 불안정해질 수 있으며 결과적으로 차로 이탈이나 장애물 인식 실패로 이어질 수 있다(Zhang et al., 2017). 이러한 한계로 인해 터널 환경에서는 좌표 추적을 넘어 도로의 기하학적 특징을 활용하여 위치 오차를 보완해줄 수 있는 강건한 방법론이 필수적으로 요구된다. V-SLAM 기반 위치 추정의 오차를 보정하기 위한 보조 정보로서 차선 정보가 활용된 연구들이 보고되어 왔다(Jeong et al., 2017). 먼저 전통적인 차선 검출 기술은 Canny 엣지 검출이나 허프 변환과 같은 수작업 특징에 의존하였으나, 조명 변화, 그림자, 노면 마모 등 복잡한 환경 변화에 취약하다는 단점이 있다(Huang and Liu, 2021). 따라서 최근 딥러닝 기반 접근이 활발히 연구되고 있으며, 크게 세 가지 방향으로 구분된다.
첫째, 의미론적 분할 기법은 입력 이미지의 모든 픽셀에 대해 차선 여부를 판별하는 밀집 예측을 수행한다. 이 방식은 픽셀 단위의 정밀한 분할 결과를 제공하여 곡선이나 복잡한 차선 형상도 표현할 수 있다. 그러나 높은 연산량을 요구하며, 특징맵 복원을 위한 고비용의 인코더-디코더 구조로 인해 임베디드 플랫폼에서 실시간 자율주행 시스템의 요구사항을 충족하기 어렵다. 또한 픽셀 단위 예측 결과를 개별 차선 인스턴스로 구분하기 위해 별도의 클러스터링 후처리가 필수적으로 요구되어 전체 파이프라인의 복잡도와 지연을 증가시킨다(Neven et al., 2018).
둘째, 회귀 기반 방법은 차선을 다항식 방정식의 계수나 앵커 포인트의 오프셋으로 직접 추론한다. 이들은 현재 차선 검출 분야에서 높은 정확도를 달성하며, 의미론적 분할 방식 대비 연산량도 상대적으로 적다. 그러나 다수의 후보 차선들 중 최적의 선을 선별하기 위해 비최대 억제와 같은 복잡한 후처리 연산을 필요로 하며, 이로 인해 전체 추론 시간에 시간이 추가되어 실시간 시스템에서는 제한적이다(Tabelini et al., 2021).
셋째, 일부 연구에서는 차선의 정밀한 기하학적 형상 복원 대신 분류(Classification) 기반 접근을 시도하고 있다. 이는 차량이 주행 중인 차로 번호를 직접 추론함으로써 복잡한 후처리 없이도 차량이 주행 중인 차로의 정보를 제공할 수 있다는 장점이 있다. LLNet(Chang and Yan, 2022)은 이러한 접근을 채택하여, 차로 위치를 다중 클래스 분류 문제로 해결하였다. 해당 모델은 ResNet 백본 기반의 분류 구조를 사용하여 대규모 실제 주행 데이터셋에서 높은 분류 정확도를 달성하였다. 그러나 해당 연구는 GPS 를 통한 정밀 측위가 가능한 일반적인 실외 도로 환경을 전제로 하고 있다. 또한, 높은 분류 성능을 확보하기 위해 원본 영상뿐만 아니라 선행 인지 모듈이 추출한 차선 및 도로 경계 정보를 추가 입력으로 요구하는 퓨전 구조에 기반한다. 결과적으로 분류 모델의 판단이 선행 알고리즘의 출력에 종속되는데, 이는 GPS 신호가 단절되고 차선 시인성마저 낮은 터널 환경에서는 선행 모듈의 오류가 시스템 전체의 신뢰성 저하로 직결된다는 한계가 있다. 반면 본 연구는 터널 환경을 타겟으로, 분류 기반 접근을 취하면서도 별도의 선행 인지 모듈 없이 영상만을 단일 입력으로 사용하는 독립적인 End-to-End 분류 프레임워크를 제안한다. 특히 조명 변화에 강건한 NIR 센서를 도입하여 터널 내 광학적 제약을 하드웨어적으로 극복하였으며, MobileNetV3-Small 기반의 경량 설계를 통해 연산 자원이 제한된 임베디드 환경에서도 외부 시스템의 오차 전파 없이 즉각적이고 신뢰성 높은 차로 식별을 수행한다는 점에서 기존 연구와 차별화된다.
이러한 딥러닝 기반 모델의 성능과 일반화 능력은 학습 데이터의 양과 질에 절대적으로 의존한다. 특히 터널과 같은 특수 환경에서의 강건한 차로 분류를 위해서는 다양한 주행 시나리오를 포함하는 대규모의 정제된 데이터셋이 필수적이다. 그러나 이러한 데이터셋을 구축하는 과정 중 특히 정답(Ground Truth) 라벨링 단계는 자율주행 연구 개발에 있어 큰 병목 구간으로 작용한다. 전통적인 데이터 구축 방식은 사람이 직접 영상의 매 프레임마다 차선의 픽셀 좌표나 차로 정보를 마킹하는 완전 수동 라벨링에 의존하였다. 이 방식은 대규모의 데이터셋 구축에는 막대한 인적·시간적 비용이 발생한다. 또한 작업자의 주관에 따라 라벨링 기준이 달라지거나 인접한 프레임 간 라벨 위치가 미세하게 떨리는 등 일관성이 결여되는 문제가 발생한다.
이러한 수동 작업의 비효율성을 개선하기 위해 최근에는 고정밀 LiDAR(Light Detection and Ranging) 센서나 HD(High Definition) Map 정보를 활용한 자동 라벨링 기법들이 연구되고 있다(Behley et al., 2019;Huang et al., 2018). 대표적으로 3D LiDAR 포인트 클라우드에서 차선을 추출하고, 이를 캘리브레이션된 카메라 영상 평면에 투영하여 자동으로 라벨을 생성하는 방법이 제안되었는데, 이 방식은 정밀도가 높고 시간적 일관성도 우수하나 고가의 LiDAR 장비를 필수적으로 요구하며 센서 간 정밀한 시간 동기화와 외부 캘리브레이션에 민감하다는 단점이 있다(Yan et al., 2022;Behrendt and Soussan, 2019). 무엇보다 본 연구와 같이 단안 카메라만을 사용하는 보급형 시스템이나 HD Map 데이터가 부재한 신규 터널 구간에서는 적용이 불가하다는 근본적인 한계를 갖는다. 이에 컴퓨터 비전 분야에서는 영상 자체의 정보만을 활용하여 라벨링 효율을 높이는 반자동 기법이 주목받고 있다. 특히 광학 흐름 알고리즘은 영상 내 객체의 시간적 움직임을 추적하는 기술로, 초기 프레임에서 추적할 물체의 정보만 주어지면 이후 연속된 물체의 위치를 자동으로 추정할 수 있다(Mustikovela et al., 2016). 본 연구에서는 이러한 특성을 고려하여 Lucas-Kanade 기반의 광학 흐름과 기하학적 필터링을 결합한 반자동 라벨링 시스템 또한 제안한다. 이는 사용자의 초기 입력과 최소한의 개입만으로도 대량의 시퀀스 데이터를 신속하게 처리할 수 있으며, LiDAR와 같은 고가 장비 없이도 고품질의 학습 데이터를 효율적으로 확보하는 현실적인 대안이다.
Ⅲ. 시스템 모델
1. 반자동 라벨링 시스템
본 연구는 터널 및 지하차도의 저조도 환경에서도 강인한 차선 데이터를 구축하기 위해, Lucas–Kanade 광학 흐름과 3단계 검증 필터를 결합한 반자동 라벨링 시스템을 제안한다. 시스템은 전처리, 계층적 추적, 오류 검증, 사용자 피드백의 4단계로 구성되며 <Fig. 1>과 같다.
1) CLAHE 알고리즘 전처리 및 Lucas-Kanade 광학 흐름의 수학적 모델링
특징점 추적 성능 확보를 위해 CLAHE 알고리즘을 적용하여 국소 대비를 향상시킨다. 영상을 타일로 분할하고 히스토그램 에 클립 제한 를 적용하여 재분배된 히스토그램 를 생성한다. 여기서 은 클리핑된 픽셀의 총량을 전체 레벨로 균등 분배한 값이다(Pizer et al., 1990).
식 (1)에서 은 고정된 상수가 아니라, 입력 영상의 국소적 대비 특성에 따라 결정되는 적응형 파라미터이다. 본 연구에서는 를 통해 각 타일 히스토그램의 평균 높이보다 배 높은 성분들을 클리핑하였으며, 이때 발생하는 잉여 픽셀량에 비례하여 값이 동적으로 산출되어 전체 대비를 부드럽게 보정한다.
다음으로 Lucas-Kanade 알고리즘은 연속된 영상 프레임 간의 객체 움직임을 추정하기 위해, 밝기 불변성과 미소 변위를 가정한다. 시각 의 픽셀 가 시간 동안 만큼 이동했을 때, 픽셀의 밝기 는 변하지 않는다고 가정하면 식 (2)와 같다. 터널 진출입부와 같이 조도가 급격히 변하는 환경에서는 이러한 밝기 불변성 가정이 위배될 수 있다는 우려가 존재한다. 그러나 실제 주행 환경에서의 영상 처리는 약 0.03초(30fps 기준)라는 매우 짧은 시간 간격내에서 수행되므로, 인접한 두 프레임(t, t+1) 사이의 밝기 변화량은 Lucas-Kanade 알고리즘의 선형 근사가 유효한 범위 내에 존재한다. 본 연구에서는 이러한 시간적 인접성에 더하여 추적의 강건성을 극대화하기 위해 계층적 보완 전략을 적용하였다. 먼저 CLAHE 기반의 국소 대비 보존을 통해 전체 조도가 변하더라도 국소 대비 강조를 통해 차선과 노면 간의 기울기 정보를 선명하게 유지함으로써 LK 알고리즘이 추적해야 할 특징점의 일관성을 확보하였다. 상기 보완책에도 불구하고 조명 포화 등으로 가정이 위배되어 추적 오차가 발생할 경우 3.3절에서 제안하는 기하학적 검증 필터가 이를 즉각적으로 탐지하여 데이터의 무결성을 보장한다.
식 (2)의 우변에 대해 다변수 테일러 급수전개를 수행하고, 미소 변위 가정에 따라 2차 이상의 고차항을 무시하면 식 (3)과 같은 선형 제약식을 얻는다.
여기서는 각각 시공간적 기울기를 의미한다. 단일 픽셀만으로는 미지수 를 구할 수 없으므로 Lucas-Kanade 기법은 국소 윈도우 내의 모든 픽셀이 동일한 움직임을 갖는다고 가정한다. 이를 바탕으로 식 (4)와 같이 윈도우 내 오차 제곱 합을 최소화하는 가중 최소 자승법을 적용한다.
여기서 는 윈도우 중심에 더 큰 비중을 두도록 하는 가우시안 가중치이다. 식 (4)를 에 대해 편미분하여 최적화하면, 식 (5)와 같은 선형 시스템 Av=b 를 얻는다.
이 행렬식의 해를 통해 초기 움직임 벡터를 획득할 수 있다(Lucas and Kanade, 1981). 그러나 식 (3)의 테일러 급수 근사 과정은 픽셀 이동량이 1 픽셀 내외인 미소 변위일 때만 유효하다는 수학적 한계가 있다. 따라서 터널 고속 주행과 같이 프레임 간 이동량이 큰 상황에서는 선형성 가정이 붕괴되어 추적 실패가 발생한다.
그렇기 때문에, 우리는 앞서 제시한 선형성 제약의 한계를 극복하기 위해 영상을 다중 해상도로 분해하여 동작점을 순차적으로 갱신하는 가우시안 피라미드 기반의 계층적 추적 방식을 적용한다(Bouguet, 2001). 이는 원본 영상에서의 대변위를 저해상도 영상에서의 미소 변위 문제로 환원시킴으로써 Lucas-Kanade 알고리즘의 수학적 전제 조건을 만족시킨다. 전체 추적 과정은 최상위 레벨(저해상도)인 에서 시작하여 원본 해상도인 레벨 0으로 내려오며 진행된다. 각 레벨 에서의 추적은 다음의 순환 구조를 따른다.
초기 추정: 상위 레벨 에서 계산된 변위 필드 를 현재 해상도에 맞춰 공간적으로 업샘플링 하고 그 크기를 2배 스케일링하여 현재 레벨의 초기 추정치 로 설정한다. (최상위 레벨에서는 0으로 초기화)
영상워핑 : 초기 추정치 만큼 이전 프레임 이미지를 이동(Warp)시켜, 두 프레임 간의 큰 변위를 사전에 상쇄한다. 이를 통해 남은 오차는 선형 근사가 가능한 미소 변위 범위 내로 들어오게 된다.
잔여 변위 계산: 워핑을 통해 큰 움직임이 상쇄되었으므로 워핑된 영상과 현재 영상 사이의 차이는 Lucas–Kanade 알고리즘의 전제 조건인 미소 변위를 만족하게 된다. 따라서 앞서 유도한 선형 시스템 식 (5)을 다시 적용하여 미세 보정값인 잔여 변위 를 정밀하게 산출한다.
최종 갱신: 초기 추정치와 잔여 변위를 합산하여 현재 레벨의 최종 변위를 확정한다
이 과정을 통해 최종적으로 산출된 변위 벡터 를 이전 프레임의 특징점 좌표 에 합산하여, 현재 프레임에서의 새로운 좌표 를 갱신한다. 여기서 는 번째 차선 특징점의 2차원 위치 벡터를 의미한다.
2) 추적 오류 검증 및 제어 메커니즘
앞서 기술한 피라미드 Lucas-Kanade 기법은 대변위 문제에 강인하지만, 광학 흐름 기반 추적은 본질적으로 이전 프레임의 오차가 누적되는 드리프트 현상에 취약하다. 특히 터널 환경은 조명이 어둡고 텍스처가 부족하며 조명 반사나 차량 진동과 같은 외부 노이즈가 빈번하다. 이러한 요인들은 부정확한 변위 계산을 유발하며, 이를 보정하지 않을 경우 특징점이 실제 차선을 벗어나 배경이나 다른 차량으로 오매칭되는 추적 실패로 이어진다. 따라서 본 시스템은 갱신된 좌표 의 신뢰성을 확보하기 위해 차선의 물리적 및 기하학적 특성을 반영한 다음 3가지 필터를 적용하여 이상치를 판별한다.
변위 임계값 필터: 인접한 프레임 간 특징점이 이동한 유클리드 거리를 제한한다. 일반적인 주행 속도와 영상의 프레임 레이트를 고려할 때 차선 표식이 단일 프레임 내에서 물리적으로 이동할 수 있는 거리에는 한계가 있다. 따라서 산출된 변위 벡터의 크기 가 임계값 을 초과하는 경우, 이를 광학 흐름의 오매칭에 의한 이상치(Outlier)로 간주하여 제거한다.
방향 일관성 필터: 차선 특징점 집합의 공간적 응집성(Spatial Coherence)을 검증한다. 차선은 도로 노면에 고정된 연속적인 구조물이므로 영상 내 모든 특징점은 카메라의 움직임에 따라 유사한 방향과 크기로 이동해야 한다. 만약 특정 점이 그림자나 노면 얼룩과 같은 노이즈로 잘못 추적될 경우 해당 벡터는 전체 경향성에서 크게 벗어나게 된다. 이를 감지하기 위해 현재 추적 중인 특징점의 총 개수를 이라 할 때 전체 변위 벡터들의 표준편차 를 계산하고, 그 값이 를 초과하는 경우 추적 실패로 간주한다.
기하학적 비율 필터: 차선 특징점 간의 상대적 간격 유지를 통해 위상학적 구조의 보존 여부를 판단한다. 도로상의 차선은 인접한 특징점 와 사이의 거리 는 연속된 프레임 사이에서 급격하게 변하지 않아야 한다. 만약 특정 점이 차선을 이탈하여 다른 객체로 잘못 추적될 경우, 특징점 간의 간격이 비정상적으로 확장되거나 축소된다. 이를 감지하기 위해 간격 비율 을 계산하고 이 값이 사전에 정의된 범위()를 벗어날 경우 해당 특징점을 이상치로 판별한다.
3) 주행 차로 식별 및 데이터 저장
검출된 개의 차선 경계 좌표 를 오름차순으로 정렬하고, 검출된 차선 경계 좌표들을 왼쪽부터 순서대로 정렬하였을 때, 주행 차로 판별은 영상의 중심 좌표 가 몇 번째 구간에 위치하는지를 확인하는 문제로 단순화할 수 있다. 번째 차선 경계 와 그 다음 경계 사이에 차량이 위치한다면 시스템은 이를 번째 차로로 판별한다.
예를 들어, 3차로 터널에서는 4개의 차선 경계()가 존재한다. 만약 차량이 와 사이 에 있다면 위 식에 따라 ‘Lane 3’으로 직관적으로 매핑된다. 최종 데이터는 JSON(JavaScript Object Notation) 포맷으로 저장되며 각 프레임은 다음 정보를 포함한다.
• 영상 시퀀스 정보
• 차선 점 좌표 배열
• 주행중인 차로 식별 ID
2. 제안하는 차로 식별 모델
본 장에서는 앞서 제안한 반자동 라벨링 시스템을 통해 구축된 을 활용하여 실시간 차로 인덱스 예측을 위한 딥러닝 모델을 설계한다. 제안하는 모델은 자율주행 자동차의 터널 주행 시 세 가지 핵심 제약조건인 (1) GNSS 신호 차단 환경에서의 측위 오차 누적을 통제하기 위한 강건한 차로 식별 정보의 필요성 (2) 엣지 디바이스의 제한된 연산 자원 (3) 급격한 조도 변화 및 센서 노이즈를 동시에 해결하기 위해 설계되었다. 모델의 구조는 <Fig. 2>와 같다.
기존의 차선 검출 연구는 이미지 평면상에서 차선의 픽셀 좌표 집합을 구하는 회귀 문제로 접근하였다. 그러나 자율주행 시스템의 경로 계획 모듈에서 실제로 요구하는 정보는 픽셀 좌표가 아닌 차량이 현재 주행 중인 차로 인덱스이다. 특히 터널 환경은 조명 변화나 반사광으로 인해 차선 텍스처의 국소적 특징이 훼손되거나 소실되기 쉽다. 그러나 터널은 차로 폭, 벽면의 위치, 천장 조명의 배열 등이 규격화되어있다. 따라서 제안하는 분류 모델은 차선이라는 로컬 텍스처에만 의존하지 않고, 터널 벽면과의 상대적 거리 등 이미지 전역에 분포한 거시적 문맥을 암묵적으로 학습한다. 따라서 차선이 육안으로 식별되지 않는 극한의 조명 환경에서도 모델은 주변 구조물과의 기하학적 관계를 단서로 현재 주행 차로를 강건하게 추론할 수 있다.
1) 시스템 설계
입력 NIR 영상을 라 하자. 여기서 는 각각 영상의 높이, 너비, 채널 수를 나타낸다. 본 연구의 목표는 딥러닝 모델 를 학습시켜, 영상 로부터 차량이 주행 중인 차로 인덱스 를 추론하는 것이다:
본 연구에서 대상으로 하는 터널은 2차로 및 3차로 구조로 구성되므로, 출력 공간 는 식 (13)과 같이 5개의 클래스로 정의된다:
여기서 2L-1 은 2차로 터널의 1번 차로를, 3L-2 는 3차로 터널의 2번 차로를 의미한다. 이러한 표현 방식은 터널의 차로 구조(2차로/3차로)와 차량의 횡방향 위치를 동시에 인코딩하여, 경로 계획 모듈에 즉각적으로 활용 가능한 정보를 제공한다.
자율주행 시스템은 인지, 판단, 제어 등 다수의 고부하 프로세스가 동시에 병렬적으로 수행되어야 한다. 따라서 보조적인 차로 식별 모듈은 전체 시스템의 엣지 디바이스 자원을 최소한으로 점유하도록 설계되어야 한다. ResNet과 같은 기존 심층 신경망은 정확도는 높으나 과도한 GFLOPs(Giga Floating Point Operations Per second)로 인해 이러한 임베디드 환경에 부적합하다(He et al., 2016). 따라서 본 연구에서는 정확도와 지연 시간 간 최적의 균형을 달성하기 위해 MobileNetV3-Small 을 백본 네트워크로 채택하였다(Howard et al., 2019). MobileNetV3-Small 은 플랫폼 인식 신경망 구조 탐색을 통해 모바일 CPU(Central Processing Unit) 환경에서의 추론 속도를 최우선으로 고려하여 설계되었으며 본 연구에서 이를 선정한 구체적인 기술적 이유는 다음과 같다.
-
1. Inverted Residual과 메모리 효율성: 기존의 표준 합성곱 대신 확장-깊이별 합성곱-축소 (Depthwise Separable Convolution, DW) 구조의 Inverted Residual 블록을 사용하여 파라미터 수를 획기적으로 줄여메모리 대역폭 사용량을 최소화한다.
-
2. Squeeze-and-Excitation (SE) 모듈을 통한 특징 강화: MobileNetV3에 탑재된 SE 모듈은 경량화된 채널 어텐션 메커니즘으로 특징 맵의 채널별 중요도를 동적으로 재조정한다. 이를 통해 터널 벽면이나 조명 반사와 같은 불필요한 배경 노이즈는 억제하고, 차선의 에지와 같은 핵심 특징은 강조하여 강인성을 확보한다.
-
3. h-swish 활성화 함수와 연산 가속: 기존 swish 함수에 포함된 sigmoid 연산은 모바일 프로세서에서 계산 비용이 높다. 이를 해결하기 위해 ReLU(Rectified Linear Unit)6를 이용한 근사 함수인 h-swish를 도입하여 부동 소수점 연산 속도를 높일 뿐만 아니라 양자화시 정보 손실을 줄여주어, 하드웨어 가속기에서의 배포 효율성을 극대화 한다. 결과적으로, 백본 네트워크 는 입력 영상 로부터 고차원 특징 맵 를 추출한 후, Global Average Pooling(GAP)을 통해 공간 차원을 제거하여 저차원 특징 벡터 로 변환한다.
이 특징 벡터는 터널의 거시적 문맥 정보를 압축하며, 후속 분류기의 입력으로 사용된다.
2) 분류기 설계
MobileNetV3 의 사전 학습된 분류기는 ImageNet의 1,000개 클래스를 대상으로 설계되어 있다. 본 연구에서는 이를 터널 차로 식별을 위한 5개 클래스 분류기로 교체하였다. 추출된 특징 벡터 로부터 최종 로짓(logit) 벡터 를 계산하는 완전 연결층(Fully Connected Layer)은 식 (15)와 같다:
여기서 는 가중치 행렬, 는 편향 벡터이다. 로짓 벡터는 Softmax 함수를 통해 각 차로 클래스에 대한 확률 분포로 변환된다:
최종 예측은 최대 확률을 갖는 클래스로 결정된다:
이러한 단순한 1-layer 분류기 구조는 과적합 위험을 최소화하고 추론 속도를 극대화한다.
3) 강건한 학습을 위한 데이터 증강
터널 환경은 조명 조건이 급격히 변화하고, 고속 주행으로 인한 모션 블러가 빈번히 발생하며, 선행 차량에 의한 가림 현상이 나타난다. 이러한 실제 환경의 다양성을 학습 데이터에 반영하기 위해, 입력 영상 에 대해 확률적 변환 를 적용한다. 증강된 영상 는 식 (18)과 같이 정의된다:
각 변환은 다음과 같이 구성된다:
: 광학적 강건성 – 터널 진출입부의 급격한 조도 변화에 대응하기 위해 밝기, 대비, 채도, 색상을 확률적으로 조정한다.
: 모션 블러 모사 – 고속 주행 시 발생하는 흐림 현상을 재현하기 위해 Gaussian Blur를 적용한다.
: 기하학적 변환 - 카메라 진동 및 차량의 미세한 횡방향 이동을 모사하기 위해 약간의 회전 및 스케일 변환을 적용한다.
: 랜덤 제거 - 선행 차량 또는 터널 구조물에 의한 가림 현상을 모사하기 위해 영상의 임의 영역을 제거한다.
4) 클래스 불균형 해소를 위한 Weighted Focal Loss
실제 터널 주행 환경에서는 차량이 주로 주행 차로(예: 3차로 터널의 2번 차로)를 이용하므로, 학습 데이터셋은 특정 클래스가 지배적인 롱테일(Long-tail) 분포를 보인다. 클래스 k 의 샘플 수를 , 전체 샘플 수를 라 할 때, 각 클래스의 상대 빈도 는 식 (19)와 같다:
이러한 불균형 데이터에서 일반적인 Cross Entropy Loss를 사용할 경우, 다수 클래스로부터 발생하는 누적 손실이 전체를 지배하여 소수 클래스에 대한 학습 성능이 저하된다(Buda et al., 2018). 이를 해결하기 위해 본 연구에서는 데이터의 난이도와 빈도를 동시에 고려하는 Weighted Focal Loss 를 도입하였다(Lin et al., 2017). 데이터 샘플의 정답 클래스가 y 일 때, 해당 클래스에 대한 모델의 예측 확률을 라 하면 Focal Loss는 식 (20)과 같이 정의된다:
여기서 는 조절 인수(Modulating Factor) 로 모델이 쉽게 분류하는 샘플() 에 대한 손실 기여도를 제곱으로 급격히 낮추어, 분류가 어려운 샘플에 집중하도록 유도한다. 본 연구에서는 을 사용하였으며, 이는 대규모 객체 검출 벤치마크 및 다양한 비전 과제에서 안정적인 성능이 검증된 표준 구성에 따른 것이다. 또한, 는 클래스 간의 빈도 불균형을 직접적으로 보정하는 균형 파라미터이다. 정답 클래스가 k 인 샘플에 대해, 가중치 는 균형 역빈도 방식을 적용하여 식 (21)과 같이 산출된다:
이 방식은 모든 클래스의 가중치 합이 총 클래스 수 Y 가 되도록 정규화하면서, 샘플 수 가 적은 소수 클래스에 더 큰 가중치를 부여한다. 본 연구의 목적은 하이퍼파라미터 최적화 자체보다 제안하는 경량 모델 구조 간의 공정한 성능 비교에 있으므로, 실험의 재현성을 위해 선행 연구에서 사용한 파라미터를 동일하게 유지하였다. 최종적으로 전체 데이터셋 에 대한 총 손실 함수는 각 샘플의 정답 클래스 에 대한 Focal Loss의 평균으로 계산된다:
여기서 는 i 번째 샘플의 정답 클래스 에 대한 예측 확률을 의미한다. 이와 같은 손실 함수 설계는 터널 내 빈도가 낮은 데이터셋에 대해 검출 정확도를 크게 향상시킨다.
1. 실험 설정
1) 데이터셋 구성 및 학습전략
본 연구의 실험을 위해 한국지능정보사회진흥원(NIA)에서 제공하는 지능형 터널 및 지하차도 데이터를 원천 데이터로 활용하였다. 해당 데이터셋 중 조명 변화가 급격하여 객체 인식이 어려운 터널 진출입부와 차선 변경이 빈번하게 발생하는 구간을 포함하는 약 7만 장의 NIR 영상을 선별하여 학습 데이터를 구축하였다. 대규모 데이터셋 구축 과정에서 앞서 3장에서 제안한 광학 흐름 기반 반자동 라벨링 시스템을 적용하였으며 그 실효성을 검증하기 위해 무작위로 추출된 1,000장의 표본에 대해 기존 수동 방식과의 효율성을 비교 분석하였다. 분석 결과, 작업자가 매 프레임 좌표를 직접 입력하는 수동 라벨링 방식은 30분이 걸리는 것에 비해 반자동 라벨링 방식은 6분을 기록하여 시간을 80 % 단축시키는 성과를 보였다. 이는 제안 시스템이 안정적으로 차선 좌표를 생성하며 데이터 구축 비용을 유의미하게 절감할 수 있음을 시사한다.
위 과정을 통해 최종적으로 약 7만장의 유효한 차로 식별 데이터셋이 구축되었으며 모델의 일반화 성능을 공정하게 평가하기 위해 전체 데이터셋을 학습(Train), 검증(Validation), 평가(Test) 에 대해 8:1:1의 비율로 분할하였다. 이때, 연속된 주행 프레임 간의 높은 유사성으로 인한 데이터 누수를 방지하기 위해, 개별 이미지 단위가 아닌 비디오 시퀀스 단위로 무작위 분할을 수행하였다. 또한 이를 통해 모델이 학습 과정에서 관측하지 못한 완전히 새로운 주행 환경에 대해서만 평가가 이루어지도록 설계하였다.
구축된 데이터의 클래스 분포를 분석한 결과, 터널 주행 환경의 특성 상 차량이 주로 주행 차로(Ego-lane)를 유지하는 경향이 뚜렷하게 나타났다. 또한 전국의 터널 90% 이상이 2차로 터널이기에 전체 2차로 데이터가 전체 데이터의 과반을 차지하는 롱테일(Long-tail) 분포를 보였다. 이러한 클래스 간 데이터 불균형은 일반적인 손실 함수 사용 시 다수 클래스에 편향된 학습을 유발할 수 있으므로, 본 연구에서는 이를 해결하기 위해 앞서 설계한 Weighted Focal Loss 를 도입하여 학습을 수행하였다.
2) 구현 상세
앞서 3.2 절에서 제시한 학습 전략에 따른 구체적인 하이퍼파라미터 설정은 <Table 1>와 같다.
<Table 1>
Hyperparameter configuration for model training
| Item | Value |
|---|---|
| Input Resolution (H×W×C) | 224×224×3 |
| Batch Size | 128 |
| Optimizer | AdamW |
| Initial Learning Rate | 1×10−4 |
| Weight Decay | 1×10−2 |
| Total Epochs | 15 |
앞서 3.1 절에서 제시한 전처리 및 광학흐름 알고리즘의 구체적인 파라미터는 <Table 2>와 같다.
<Table 2>
System-level parameter configuration for processing and Lucas-Kanade optical flow.
| Category | Parameter | Value | Description & Rationale |
|---|---|---|---|
| System | Spatial Scale (s) | 0.5 | Downsampling ratio to expand the search range and Improve real-time efficiency. |
| CLAHE | Clip Limit (β) | 2.0 | Threshold to limit contrast enhancement, preventing noise amplification in NIR images. |
| Tile Size | 8×8 | Local grid size for histogram equalization to preserve lane boundary details. | |
| Lucas-Kanade Optical Flow | Integration Window (Ω) | 21×21 | Size of the local patch for Lucas-Kanade estimation |
| Pyramid Level Lmax | 3 | Number of hierarchical levels for multi-scale tracking to handle large displacements. |
앞서 3.1 절에서 제시한 반자동 라벨링 시스템의 추적 오류 검증 파라미터는 <Table 3>와 같다.
<Table 3>
Threshold parameters for error detection in the semi-automatic labeling system.
| symbol | value | description |
|---|---|---|
| Tdisp | 40 px | Maximum Euclidean distance for feature point displacement between adjacent frames. Displacements exceeding 40 pixels are flagged as tracking failures. |
| Tstd | 20 | Upper threshold for the standard deviation of motion vectors. If the value exceeds 20, movement is considered erratic/scattered and is rejected. |
| Tmin, Tmax | [0.8, 1.2] | Permissible range for the variation rate of lane width (distance between feature points). Value outside this range (<0.8 or 1.2>) are treated as errors. |
| Nmax | 2 frames | Maximum consecutive tracking failures allowed. After 2 consecutive failures, the system switches to manual mode due to path deviation |
앞서 3.2 절에서 제시한 데이터 증강 관련 파라미터는 <Table 4>와 같다.
<Table 4>
Data augmentation techniques and corresponding parameter settings.
| Technique | Parameter | Value | Description |
|---|---|---|---|
| Color Jitter () |
Brightness | 0.3 | Random adjustment within ±30% |
| Contrast | 0.3 | Random adjustment within ±30% | |
| Saturation | 0.2 | Random adjustment within ±20% | |
| Hue | 0.1 | Random adjustment within ±10% | |
| Random Affine () |
Rotation Degrees | 5 | Random rotation within ±5° |
| Translate | (0.05, 0.05) | Random translation within ±5% of width and height | |
| Scale | (0.95, 1.05) | Random translation within 95%~105% | |
| Gaussian Blur () |
Kernel Size | 3×3 | Simulates motion blur effects |
| Probability (p) | 0.5 | 50% application probability | |
| Random Erasing () |
Probability (p) | 0.5 | 50% application probability |
| Scale | (0.02, 0.15) | Erasing area between and 2%~15% of total image area | |
| Ratio | (0.3, 3.3) | Aspect ratio range of the erased region |
3) 비교실험 상세
제안하는 MobileNetV3-Small 기반 모델의 경량성 및 성능 효율성을 객관적으로 검증하기 위해 서로 다른 특성을 가진 대표적인 백본 네트워크들과 비교 실험을 수행하였다. 비교군으로는 경량 모델의 대표주자인 ShuffleNetV2 과 높은 정확도를 보이지만 연산량이 상대적으로 많은 MobileNetV3-Large와 EfficientNet-B0를 선정하였다. 모든 모델은 동일한 데이터셋과 하이퍼파라미터 환경에서 학습되었다.
4) 평가 지표
본 연구에서는 제안된 모델의 정확성뿐만 아니라, 실제 자율주행 시스템 적용 시의 실용성을 종합적으로 검증하기 위해 다음과 같은 평가 지표를 선정하였다.
-
Accuracy (%): 전체 테스트 데이터 중 올바르게 차로를 분류한 비율이다. 이는 모델의 전반적인 인식 성능을 나타내는 가장 직관적인 지표로 일반적인 주행 상황에서의 신뢰도를 확인하기 위해 사용하였다.
-
Macro F1-Score: 각 클래스별 정밀도(Precision)와 재현율(Recall)의 조화 평균인 F1 점수를 구한 뒤 이를 단순 평균한 값이다. 국내 터널 주행 데이터 특성상 전체 2차로 도로의 빈도가 높은 클래스 불균형(Class Imbalance) 문제가 발생한다. 따라서 다수 클래스에 편향되지 않고 빈도가 낮은 차로 등에 대해서도 균형 잡힌 성능을 평가하기 위해 선정하였다.
-
GFLOPs: 모델의 구조적 복잡도를 규정하는 부동소수점 연산량이다. 비록 GFLOPs가 하드웨어의 모든 특성(메모리 대역폭 등)을 반영하는 절대적 지연 시간의 척도는 아니나 알고리즘의 본질적인 연산 비용을 표준화하여 가늠할 수 있는 핵심적인 대리 지표로 활용된다(Lei et al., 2026). 본 연구에서는 이를 통해 다양한 하드웨어 환경에서의 구동 가능성을 이론적으로 예측하고 제안 모델의 경량성을 객관적으로 검증하고자 하였다.
-
Parameters (Params): 모델의 크기와 메모리 점유율을 결정하는 총 가중치의 수이다. 본 연구의 목표인 자율주행 엣지 디바이스 탑재를 위해서는 가용 메모리 내에서의 안정적인 동작이 필수적이므로, 모델의 경량화 수준과 하드웨어 적합성을 확인하기 위해 이를 측정하였다.
-
Inference Speed (FPS & Latency): 자율주행 시스템에서는 센서로부터 입력되는 단일 프레임에 대한 즉각적인 응답성이 안전과 직결된다. 따라서 배치 처리를 통한 처리량 최적화보다 단일 데이터에 대한 반응 속도를 확인하는 것이 필수적이며 본 연구에서는 실제 주행 환경의 스트리밍 입력을 모사하기 위해 배치 크기를 1로 설정하여 NVIDIA GeForce RTX 4090으로 측정하였다(Bhardwaj et al., 2023).
2. 반자동 라벨링 시스템의 신뢰성 검증 결과
본 연구에서 제안하는 반자동 라벨링 시스템이 수동 라벨링을 대체할 수 있는 신뢰성을 갖는지 검증하기 위해 무작위로 추출된 8개 주행 시퀀스(총 5,249 프레임)를 대상으로 정량적 평가를 수행하였다. 평가는 수동으로 작성된 Ground Truth(GT) 와 시스템이 생성한 라벨 간의 일치율을 측정하였으며 특히 광학 흐름의 한계인 누적 오차가 제안된 기법을 통해 얼마나 효과적으로 보정되는지 비교 분석하였다. 분석 결과는 <Table 5>와 같다. 필터링 및 사용자 검증 과정 없이 순수 광학 흐름만을 적용한 경우, 프레임이 진행됨에 따라 좌표가 이탈하는 Drift 현상이 발생하여 평균 정확도가 59.92%에 불과하였다.
<Table 5>
Quantitative comparison of lane labeling distribution: Manual ground truth vs. automatic methods
| Sequence ID | Event | Manual Labeling | Method A: Optical Flow Only |
Method B: Proposed System |
Accuracy (A vs B) |
|---|---|---|---|---|---|
| Seq 0006 | Straight | L2: 771 | L1: 620, L2: 151 |
L2: 771 | 80.4% → 100% |
| Seq 0010 | Straight | L2: 189 | L2: 189 | L2: 189 | 100% → 100% |
| Seq 0041 | Lane Change | L2: 953, L1: 82 |
L2: 614, L1: 421 |
L2: 958, L1: 77 |
59.3% → 99.5% |
| Seq 0053 | Straight | L2: 465 | L1: 213, L2: 252 |
L2: 465 | 54.2% → 100% |
| Seq 0063 | Straight | L2: 285 | L1: 133, L2: 152 |
L2: 285 | 53.3% → 100% |
| Seq 0086 | Straight | L3: 577 | L2: 276, L3: 301 |
L3: 577 | 52.2% → 100% |
| Seq 0097 | Lane Change | L3: 870, L2: 63 |
L3: 534, L2: 336 |
L3: 874, L2: 59 |
64.1% → 99.6% |
| Seq 0101 | Straight | L3: 994 | L1: 37, L2: 799, L3: 158 |
L3: 994 | 15.9% → 100% |
반면, 3단계 기하학적 필터를 통해 추적 오류를 실시간으로 탐지하고, 이상치 발생 구간에 대해서만 선별적으로 사용자 보정을 수행하는 제안된 인간 참여형 시스템을 적용했을 때는 모든 시퀀스에서 수동 라벨링과 평균 99.89% 일치하는 결과를 보였다. 차선 변경이 발생하는 Sequence 0041, 0097 구간에서도 GT 와 동일한 차로 변경 시점을 포착함으로써 제안 시스템이 수동 작업 대비 동등한 수준의 고품질 데이터를 구축함을 입증하였다.
3. 딥러닝 성능 분석
본 연구에서 제안한 End-to-End 분류 모델의 차로 식별 성능과 실시간 적용성을 평가하기 위해, 다양한 백본 네트워크를 적용하여 판별 성능과 연산 자원 효율성 간의 상관관계를 다각도로 분석하였다.
1) 백본 네트워크 비교 및 최적 모델 선정
서로 다른 연산 특성을 갖는 백본 네트워크를 대상으로 실험한 결과, 모델 규모가 증가함에 따라 차로 식별 정확도는 소폭 향상되는 경향을 보였으나 그 차이는 제한적인 수준에 머물렀다. 특히 MobileNetV3-Small은 1.52M의 최소화된 파라미터 수로 97.88%의 높은 정확도를 기록하여, 모델 규모 대비 우수한 판별 성능을 보임을 확인하였다. 이는 가장 무거운 모델인 EfficientNet-B0(98.73%)와의 정확도 편차를 1% 미만으로 유지하는 결과이다. 이러한 결과는 터널 내 차로 식별 작업이 복잡한 텍스처 정보보다는 도로의 기하학적 구조에 기반하므로, 과도하게 깊은 네트워크 구조 없이도 경량 모델의 표현력(Capacity)만으로 충분한 특징 추출이 가능함을 시사한다.
<Table 6>
Performance and computational complexity comparison across different backbone networks
| Backbone | Params(M) | GFLOPs | Accuracy(%) | Macro_F1 |
|---|---|---|---|---|
| MobileNetV3-Small | 1.52 | 0.061 | 97.88 | 0.961 |
| ShuffleNetV2_x1.0 | 1.26 | 0.152 | 95.84 | 0.931 |
| MobileNetV3-Large | 4.21 | 0.234 | 98.27 | 0.969 |
| EfficientNet-B0 | 4.01 | 0.414 | 98.73 | 0.974 |
또한 연산 자원 대비 성능 효율성을 분석하기 위해 본 연구에서는 공정한 비교를 위해, 특정 하드웨어의 병렬화 방식이나 구현 환경에 종속되지 않는 하드웨어 독립적 지표인 GFLOPs 대비 Macro F1 Score를 효율성 척도로 채택하였다.
분석 결과, <Fig. 3>에서 보이듯 EfficientNet-B0는 가장 우수한 절대 성능을 기록하였으나 연산 효율성 측면에서는 가장 낮은 수치(2.35)를 보였다. 반면, MobileNetV3-Small은 효율성 지표 15.75를 기록하여 EfficientNet-B0 대비 약 6.7배, ShuffleNetV2 대비 약 2.5배 높은 연산 효율성을 달성하였다. 또한, MobileNetV3-Large 대비 파라미터 수를 약 64% 절감함으로써 메모리 점유율 측면에서도 압도적인 우위를 점하였다. 이러한 결과는 정확도와 연산량으로 구성된 Pareto Frontier 상에서 제안 모델이 최적의 균형점에 위치함을 시사하며, 다중 프로세스가 병렬 구동되는 자율주행 시스템의 제한된 리소스 환경에서 본 모델이 실용적인 최적의 대안임을 뒷받침한다.
2) 타 연구들과의 종합 성능 비교
제안하는 차로 식별 프레임워크의 종합적인 우수성을 검증하기 위해, 최근 차로 위치 인식을 딥러닝 분류 문제로 접근하여 우수한 성능을 입증한 LLNet(Chang and Yan, 2022)과 정량적 비교를 수행하였다. 두 연구는 타겟으로 하는 주행 환경과 목적에서 근본적인 차이를 갖는다. LLNet은 GPS를 통한 정밀 측위가 원활하고 차선이 명확히 식별되는 일반적인 실외 주행 환경을 가정하고 설계되었다. 반면 본 연구는 GPS 신호가 단절되어 비전 센서에 의존해야 하며 실외보다 가혹한 시각적 노이즈가 동반되는 극한 환경을 다룬다. 본 실험에서는 데이터 수준의 공정성을 확보하기 위해 두 모델 모두 본 연구에서 구축한 동일한 터널 NIR 영상 데이터셋을 입력으로 사용하였다. 대조군인 LLNet의 경우 일반 실외 도로를 타겟으로 하여 복잡한 데이터 증강 기법이 오히려 차선의 기하학적 왜곡을 초래할 수 있다고 판단하여 이를 배제하였다. 해당 논문에서 제안한 최적화 파라미터와 시각 모듈 구조를 동일하게 적용하여 학습을 진행하였다.
실험 결과는 <Table 7>에 제시되어있으며 일반 환경에 맞춰진 LLNet은 조명 변화에 강건한 NIR 영상을 동일하게 제공받았음에도 불구하고, 터널 특유의 복합적인 간섭 요인들을 극복하지 못하여 정확도가 95.6%에 머물렀으며 Macro F1 점수는 0.9277에 머물렀다.
<Table 7>
Quantitative comparison of performance and computational complexity with the existing method
| Method | Task | Params(M) | GFLOPs | Accuracy (%) | Macro_F1 | Latency (ms) | FPS (Batch=1) |
|---|---|---|---|---|---|---|---|
| LLNet | Classification | 11.18 | 1.824 | 95.67 | 0.928 | 3.91 | 255.6 |
| Proposed | Classification | 1.52 | 0.061 | 97.88 | 0.961 | 3.62 | 276.3 |
반면 제안 모델은 연산량이 LLNet 대비 불과 3% 수준(0.06G)인 MobileNetV3-Small을 적용하여 경량화를 달성함과 동시에 97.88% 의 압도적인 판별 정확도를 기록하였다. 이는 얕은 네트워크 구조의 한계를 보완하기 위해 터널 내 악조건을 선제적으로 모사한 터널 특화 복합 증강 기법이 극한 환경에서의 강건성 확보에 핵심적인 역할을 수행했음을 증명한다. 결론적으로 본 연구의 프레임워크는 단순히 기존 모델과 절대적인 성능을 다투는 것을 넘어 GPS 음영 극복이라는 환경적 목적과 하드웨어적 제약을 동시에 해결하는 실용적이고 효과적인 대안임을 확인하였다.
또한 본 연구에서 제안하는 분류 기반 차로 식별 모델의 효율성을 정밀 검증하기 위해 기존의 대표적인 Segmentation 모델인 DeepLabv3 (Chen et al., 2018) 및 실시간 처리에 특화된 BiSeNet (Yu et al., 2018) 과 연산 복잡도를 비교 분석하였다. 본 연구에서 사용된 데이터셋은 주행 차로 식별을 위한 인덱스 라벨만을 포함하고 있어 픽셀 단위의 마스크 정보가 필요한 Segmentation 모델과의 직접적인 정확도 비교에는 한계가 있다. 또한 연구의 목적이 정밀한 차선 경계 추출이 아닌 주행 환경 인지에 기반한 차로 분류에 있으므로 본 실험에서는 정확도 성능 대신 실제 시스템 탑재 시 핵심 지표인 연산 효율성에 집중하여 비교를 수행하였다. 구조적 측면에서 Segmentation 모델은 모든 픽셀에 대한 클래스 예측을 수행해야 하므로 특징 추출 후 다시 원본 해상도로 복원하는 고비용의 디코더와 업샘플링 과정이 필수적인 반면, 본 연구에서 제안하는 분류 기반 접근법은 고차원 특징 맵에서 전역 평균 풀링을 통해 핵심 정보만을 추출하고 이를 최종 인덱스로 직접 매핑하는 간결한 구조를 통해 연산 효율성을 극대화한다.
<Table 8> 의 실험 결과에 따르면, 제안하는 모델은 비교군 중 가장 경량화된 모델인 BiSeNet 대비 연산량은 약 40배, 메모리 점유율은 약 9배 더 효율적인 결과를 보였다. 특히 추론 속도 측면에서도 제안 모델은 276.3 FPS(3.62ms) 를 기록하며 실시간 세그멘테이션 모델인 BiSeNet(240.7 FPS)을 상회하는 가장 빠른 성능을 입증하였다. 결과적으로 제안 모델은 압도적인 경량성과 더불어 빠른 실시간 응답성을 확보하여 주행 차로 식별 방법의 효율성을 실험적으로 입증하였다.
<Table 8>
Efficiency comparison with state-of-the-art segmentation models
| Model | Task | Params (M) | GFLOPs | Latency (ms) | FPS (Batch=1) |
|---|---|---|---|---|---|
| Proposed | Classification | 1.52 | 0.06 | 3.62 | 276.3 |
| BiSeNet | Segmentation | 13.34 | 2.38 | 4.16 | 240.7 |
| DeepLabv3 | Segmentation | 39.67 | 31.45 | 5.72 | 174.8 |
3) 환경 강건성 및 오분류 분석
터널 내 다차로 환경에서의 차로 식별 신뢰도를 평가하기 위해 클래스별 혼동 행렬을 기반으로 정밀 분석을 수행하였다. 분석 결과 모든 차로 클래스에서 비교적 균형 잡힌 분류 성능이 관찰되었으며 특히 인접 차로 간 오분류율은 2.12% 미만으로 낮은 수준을 유지하였다. 이러한 결과는 NIR 센서의 도입을 통해 터널 진출입부에서 발생하는 광학적 포화와 내부 구간의 저조도 환경에서도 차선과 노면 간의 안정적인 대조비가 유지되었기 때문으로 분석된다. 즉 가시광 영상에서 흔히 발생하는 조명 변화 기반 노이즈가 효과적으로 억제되면서 차로의 기하학적 특징이 일관적으로 모델에 제공되었다. 또한 클래스 가중치 기반 손실 함수를 적용함으로써 실제 주행 데이터에서 발생하는 차로별 샘플 수 불균형 문제를 완화하였다. 그 결과, 모든 클래스에서 F1-Score 0.96 이상의 안정적인 성능을 확보할 수 있었으며, 이는 특정 차로에 편향되지 않은 특성을 학습했음을 의미한다. 이러한 특성은 실제 교통 환경에서 발생할 수 있는 주행 조건 변화에 대한 모델의 환경 강건성 측면에서 중요한 요소로 해석될 수 있다.

<Fig. 4>
Confusion matrix of the MobileNetV3-Small model for 5-class label classfication in tunnel enviroments
4. 요소별 성능 기여도 분석 (Ablation Study)
1) 입력 영상 종류에 따른 성능 비교
먼저 RGB 데이터와 NIR 데이터를 입력으로 했을 때 각각 결과를 비교하였다. 성능 비교는 <Table 9> 과 같다.
<Table 9>
Performance comparison based on input image modality (RGB vs. NIR)
| Backbone | model_input | Accuracy(%) | Macro_F1 |
|---|---|---|---|
| MobileNetV3-Small | RGB | 89.47 | 0.892 |
| MobileNetV3-Small | NIR | 97.88 | 0.961 |
분석 결과 동일 시점에 촬영된 영상<Fig. 5>을 비교했을 때 NIR 영상이 RGB 대비 월등한 시각적 명확성을 보였으며 딥러닝 결과또한 NIR 영상을 입력으로 넣었을 때 Accuracy 가 약 9.40% 개선되었으며 Macro F1 score 는 약 15.03% 향상되었다. 이는 NIR 영상의 광학적 강건성을 통해 딥러닝 모델이 차로의 구조적 형태를 효과적으로 학습하였다는 것을 의미한다.

<Fig. 5>
Time-synchronized images captured in a tunnel environment: (Left) NIR image, (Right) RGB image
2) 전처리 알고리즘의 유효성 검증
터널 환경의 국소적 조도 불균형을 해소하기 위해 도입한 CLAHE 전처리의 효과를 검증하여 <Table 10>에 제시하였다.
<Table 10>
Effect of CLAHE preprocessing on lane identification performance
| Backbone | Preprocessing | Accuracy(%) | Macro F1 |
|---|---|---|---|
| MobileNetV3-Small | None | 96.15 | 0.948 |
| MobileNetV3-Small | CLAHE Applied | 97.88 | 0.961 |
동일한 증강 기법이 적용된 통제 환경에서, 원본 NIR 영상만을 입력으로 사용했을 때는 96.15%의 정확도를 보였다. 그러나 CLAHE 전처리를 적용하여 차선과 노면 간의 국소 대비를 강화했을 때 정확도는 97.88%, Macro F1 점수는 0.9605로 유의미하게 상승하였다. 이는 CLAHE 알고리즘이 터널 내부의 빛 번짐 및 음영 지역에서도 특징점 추출의 일관성을 유지하는 데 핵심적인 역할을 수행함을 입증한다.
3) 데이터 증강 기법의 단계별 기여도 분석
터널 환경의 복합적인 잡음 요소를 제어하기 위해 고안된 데이터 증강 기법의 실효성을 단계적으로 검증하였다. 실험의 정확성을 위해 본문의 식 (18) 에 정의된 합성함수 연산 순서와 동일하게 누적 적용하였으며, 정량적 결과는 <Table 11>에 제시하였다.
<Table 11>
Step-wise contribution of the proposed data augmentation framework.
| Step | Added Augmentation | Target Variation | Accuracy (%) | Macro F1 |
|---|---|---|---|---|
| Baseline | None | - | 93.89 | 0.918 |
| Step 1 | + Tcolor (4 types) | Illumination | 94.58 (+0.69%p) | 0.921 (+0.003) |
| Step 2 | + Tblur | Motion Blur | 95.32 (+0.74%p) | 0.925 (+0.004) |
| Step 3 | + Taffine (3 types) | Vibration | 96.32 (+1.00%p) | 0.938 (+0.013) |
| Proposed | + Terase | Occlusion | 97.88 (+1.56%p) | 0.961 (+0.023) |
실험 결과, 어떠한 증강도 적용하지 않은 Baseline을 시작으로 조도변화(), 흐림현상(), 차량진동() 증강을 적용하여 정확도를 96.32% 까지 지속해서 끌어올렸다. 마지막으로 객체 가림 현상() 통제기법을 결합했을 때 최고 성능인 정확도를 달성하였다. 결과적으로 본 연구의 4단계 복합 증강 프레임워크가 터널 환경 특유의 악조건을 학습 단계에서 효과적으로 모사함으로써 실제 주행 환경에서의 모델 일반화 성능을 극대화하고 강건한 차로 식별을 가능하게 함을 확인하였다.
Ⅴ. 결 론
본 연구에서는 GNSS 신호 단절과 급격한 조명 변화로 인해 기존 위치 기반 인지 및 차선 인식 기법의 성능 저하가 발생하는 터널 환경을 대상으로, NIR 영상 기반의 경량 End-to-End 차로 식별 시스템을 제안하였다. 제안 시스템은 고가의 센서나 정밀 지도에 의존하지 않고, 터널과 같은 GNSS 취약 구간에서도 차량의 차로 수준 주행 상태를 직접 식별할 수 있도록 설계되었다.
실험 결과, 조도 변화에 강건한 NIR 센서 적용을 통해 97.88%의 차로 식별 정확도를 달성하였으며, Lucas–Kanade 기반 광학 흐름과 기하학적 필터링을 결합한 반자동 라벨링 시스템을 통해 데이터 구축 시간을 수동 대비 약 85% 절감하고 수동 라벨링 대비 정확도 또한 99.85%를 달성하였다 또한, 픽셀 단위 차선 검출 방식의 높은 연산 복잡도와 후처리 의존성을 배제하고 차로 판단에 필요한 핵심 특징에 집중한 단일 단계 End-to-End 분류 구조를 채택함으로써 이론적 연산량과 고성능 GPU 환경에서의 추론 속도를 검증하였다. 다만, 실제 엣지 디바이스(NVIDIA Jetson 등)에서의 정량적 성능 평가는 후속 연구를 통해 구체적인 성능을 검증할 계획이다. 교통 시스템 관점에서 본 연구는 GNSS 수신이 불안정한 터널 환경에서도 차로 유지 및 차로 변경 판단에 활용 가능한 인지 모듈을 제시하였다는 점에서 의의가 있다. 본 논문은 차로 수준 인지의 정확도와 실시간성을 확보하는 데 주력하였다. 향후 연구에서는 본 모델의 출력을 실제 V-SLAM 또는 관성 항법 시스템의 관측 모델과 결합하여 횡방향 누적 오차를 실시간으로 보정하고 전체 측위 성능을 향상시키는 통합 프레임워크로 확장하고자 한다.











