Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.2 pp.151-166
DOI : https://doi.org/10.12815/kits.2025.24.2.151

Optimization of Data Augmentation and Imbalance Mitigation for Improving Traffic Signal Image Recognition

Min Seok Kim^*, Seungki Ryu^**

^*Korea Institute of Civil engineering and Technology, University of Science and Technology
^**Corresponding author: Senior Researcher, Korea Institute of Construction Technology, Professor, Graduate School of Science and Technology

^‡ Corresponding author : Seungki Ryu, skryu@kict.re.kr

Received 19 March 2025 │ Revised 5 April 2025 │ Accepted 13 April 2025

Abstract

Autonomous vehicles rely on onboard vision sensors to recognize various traffic signals for pedestrians, buses, and vehicles, contributing to diverse visual data in road environments. This study utilizes a dataset of 26,864 images containing 14 types of traffic signal displays. The raw dataset consists of Full HD images captured from a driver’s perspective, including both traffic signals and background elements in real driving scenarios. Since the dataset exhibits class imbalance, this study analyzes the imbalance, applies optimal data augmentation techniques, and compares traffic signal recognition performance between the raw and augmentated datasets. The YOLOv11 model was used for training, and the model trained with augmented data achieved an improved recognition performance of 0.973. This study proposes data imbalance analysis and optimized data augmentation methods to enhance traffic signal recognition performance.

Key Words : Autonomous Driving , Traffic Signals , Vision Recognition , Data Imbalance , Data Augmentation

교통신호등 이미지 인식 성능을 개선하기 위한 데이터 불균형 완화 및 증강 최적화

김 민 석^*, 류 승 기^**

^*주저자 : 한국건설기술연구원 UST학생연구원, 과학기술연합대학원대학교 통합과정
^**교신저자 : 한국건설기술연구원 선임연구위원, 과학기술연합대학원대학교 교수

초록

자율주행차는 차량 영상 센서를 이용해 다양한 교통신호등을 인식해야 한다. 교통신호등은 보행자, 버스, 차량용 신호 표시를 표출하고 있어 도로 환경에서의 시각적 이미지 데이터를 다 양하게 만들 수 있다. 본 논문에서는 14종의 교통신호등 표시를 갖는 26,864장의 원천 데이터 셋을 사용했고, 원천 데이터는 도로를 주행하는 상황의 운전자 시선 관점에서 교통신호등과 배경을 포함한 FHD 데이터이다. 원천 데이터셋은 14종의 클래스 유형을 가지며 도로 주행 환 경에서 다양한 배경과 인스턴스를 포함한다. 원천 데이터셋은 클래스별 데이터 편향성을 포함 하고 있으므로 본 연구에서는 데이터 불균형성을 분석하고, 데이터를 최적으로 증강한 후 원 천 데이터와 증강 데이터의 교통신호등 인식 성능을 비교했다. 이때 실험에 사용한 학습 모델 은 YOLOv11이고, 데이터 증강 데이터로 학습한 교통신호등 인식 모델의 성능은 원천 데이터 셋 보다 향상된 0.973의 결과를 얻었다. 본 논문에서는 교통신호등 인식 성능 향상을 위해 데이 터 불균형 분석과 데이터 증강 최적화 방법을 제안하였다.

키워드 : 자율주행 , 교통신호등 , 영상 인식 , 데이터 불균형 , 데이터 증강

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

1. 연구 목적

자율주행차는 도로를 주행할 때 교통신호등과 같은 다양한 종류의 객체를 완벽하게 탐지하고 분류하는 데 있어 여전히 한계가 있다. 자율주행차는 교통신호등을 인식하기 위해 차량 시각 센서 기반의 영상 인식 기술을 사용하는 것이 일반적이며, 교통신호등의 이미지 학습 데이터를 구축한 후 이를 학습한 인공지능 모 델로 교통신호등을 탐지하고 있다. 교통신호등은 보행자 신호, 버스 신호, 차량 신호처럼 여러 신호등 형식 을 가지고 있기 때문에 이로부터 학습 데이터를 구축할 때 데이터 불균형성이 존재하고, 편향된 데이터셋으 로 학습한 AI 모델은 이미지 인식 성능이 저하된다. 따라서 이미지 데이터 학습 기반의 인공지능 모델은 데 이터 편향성을 검토하여야 하며 데이터 불균형성을 완화한 후 학습 데이터셋을 구축해야 한다.

데이터 불균형 문제는 자율주행용 교통신호등 데이터셋 뿐만 아니라 다양한 객체 탐지 분야에서 일반적 으로 발생하는 이슈로, 이와 관련한 연구를 다양하게 수행할 필요가 있다. 편향된 데이터로 학습한 인공지능 모델은 저빈도 데이터에 대해서는 높은 탐지 성능을 보장하기 어렵다. 특히 자율주행차는 시각 센서를 활용 해 다양한 동적 및 정적 객체를 인식하는 것이 필수적인 기술이며 학습용 데이터의 불균형성을 연구함으로 써 이미지 인식 성능을 향상시킬 수 있다.

본 연구에서는 자율주행을 위한 교통신호등 이미지 인식에 있어서 학습 데이터의 불균형성을 분석하고 데이터 증강 방법을 적용하여 이미지 인식 성능을 개선하고자 했다. 연구에 사용한 원천 이미지 데이터셋의 경우, 높은 빈도의 특정 클래스들이 대부분이고 일부 클래스들은 아주 낮은 빈도로 존재한다. 일례로 교통신 호등 원천 이미지 데이터셋은 버스 정지 신호와 같은 클래스는 학습하기에 부족한 데이터 수량을 가지고 있 다. 즉 원천 데이터셋에서 클래스별 데이터 수량을 분석하면 특정 클래스에 편향되어, 전반적으로 데이터 불 균형성이 발생한 것을 알 수 있었다. 이렇듯 편향된 학습 데이터를 기반으로 학습한 인공지능 모델은 저빈도 클래스에 대해서 인식 성능이 떨어질 것이고 이러한 현상은 일반적으로 롱테일(긴꼬리) 형태의 클래스별 데 이터 분포를 갖는 데이터셋에서 발생할 수 있다.

본 논문은 이미지 인식 성능에 영향을 주는 데이터 불균형성의 완화 방법과 데이터 증강의 최적화 연구를 수행한 것이다. 연구 방법은 교통신호등 원천 이미지 데이터셋을 사용해 데이터 불균형성을 분석하였고, 데 이터 증강을 통해서 데이터 불균형 완화 방법과 효과 분석을 수행하였다. 또한 데이터 불균형성을 판단하는 과정으로 데이터셋의 롱테일 분포 특성 분석, 데이터 증강 최적화 방법, 증강 데이터별 성능 차이를 분석하 였다.

2. 관련 연구

저빈도 클래스의 학습 모델 인식 성능은 일반적으로 저하되며, 이 문제를 다룬 다양한 연구가 수행되었다. Cui et al.(2019)은 긴꼬리 형태의 데이터 분포에서 클래스 빈도가 낮은 샘플의 효용을 높이기 위해 샘플의 Effective Number 방법과 클래스 균형 손실 방법을 제안했다. Lin et. al.(2017)의 경우, 기존의 교차 엔트로피 손실함수는 데이터 불균형이 심할 때 고빈도 클래스에 대해서 인공지능 모델이 편향적으로 학습될 가능성이 있어서 다수 클래스에 대한 과적합을 방지하고, 소수 클래스의 학습 중요도를 증가시키는 Focal Loss 방법을 제안했다. Shen et al.(2016)은 저빈도 소수 클래스에 대해서 학습을 증가시키기 위한 Auxiliary Loss를 추가한 릴레이 백프로퍼게이션을 제안했다. Fu et al.(2023)은 소수 클래스에 더 높은 중요도를 부여하고 학습 과정에 서 클래스별 손실 가중치를 조정함으로써 균형 잡힌 학습 모델을 갖도록 하는 수정된 Stein 손실함수를 제안 했다. Chen et al.(2022)은 모자이크, 믹스업, SMOTE(Chawla, 2002) 기반의 SSMup 데이터 증강을 통해 학습 데이터의 클래스 불균형을 개선하는 방법을 제안했다. Kaur et al.(2021)은 데이터 증강이 학습 모델의 성능에 미치는 영향을 분석하였고, Cutmix, Cutout과 같은 데이터 증강 방법으로 소수 클래스를 보완하는 형태로 클 래스 데이터 편향성을 개선하는 방법이다. Kim and Kim(2018)은 데이터 불균형이 모델 학습 성능에 미치는 영향을 정량적으로 분석하기 위해 Positive-Negative Ratio(P:N)를 조정하면서 불균형 완화 기준을 제안하였고, 1:10~1:15까지 P:N을 증가할 때는 인식 모델의 성능이 개선되었지만, 그 이상의 데이터 조정에서는 성능 개 선이 없다고 보고했다. 이미지 기반 학습 모델은 알고리즘 성능 측면에서 다양하게 연구되고 있다. Ren et al.(2016)은 Faster R-CNN 모델 알고리즘 구조이고, Liu et al.(2016)은 Single Shot Multi-Box Detector를 제안하 였으며, Redmon et al.(2016)은 YOLO 모델 기반 예측 모델을 제안하였고, 국내의 경우 Chun and Ryu(2019)은 수도 레이블을 활용한 준지도 학습 기반의 도로 노면 파손탐지 모델을 제안하였다. 공통적으로 롱테일 분포 의 데이터 불균형 문제를 해결하기 위한 연구는 데이터 증강, Focal loss, Reweighting 등의 방법을 사용했고, 이를 통해서 저빈도 소수 클래스의 학습 편향성을 개선하는 연구가 주를 이루었다.

본 논문에서는 데이터 불균형성이 객체 인식 성능에 미치는 영향을 분석했고, 저빈도 소수 클래스 증강 방법을 제안하여 학습 모델의 성능을 비교 분석했다. 여기서는 데이터 불균형 특성을 갖는 자율주행차 교통 신호등 이미지 데이터셋을 사용했으며, 이것은 자율주행 DNA 포럼에서 주관한 2024년 자율주행 AI 챌린지 대회에서 공개한 AI 데이터셋인 자율주행차 교통신호등 데이터셋이다(ETRI, 2024). 본 논문은 데이터레벨에 서 AI 학습모델의 객체 인지 성능을 개선하는 연구이며, 2장에서는 데이터 증강 방법과 최적화 방법을 제안 하였고, 3장은 여러 증강 데이터셋을 가지고 객체 탐지 모델을 생성한 후 실험 데이터별 mAP 인식 성능을 비교하였다. 4장은 데이터 불균형성 분석과 증강 최적화로 향상된 교통신호등의 객체 분류 성능을 얻을 수 있었고, 연구 과정의 시사점을 정리했다.

Ⅱ. 교통신호등 데이터 불균형 분석과 증강 최적화 방법

1. 데이터 불균형 분석

1) 클래스 롱테일 분포

데이터 불균형성은 데이터셋의 클래스별 수량 분포를 분석하여 시각적으로 판단하고 있다. 본 연구에 사 용한 데이터는 ETRI AI 나눔의 교통신호등 데이터셋이며, 이것은 교통신호등의 다양한 유형 중에서 14종에 해당하는 26,864장의 이미지 데이터로 구성되어 있다. 원천 데이터셋에는 14종의 클래스가 모든 이미지에 포 함되어 있다. 즉, 이미지 데이터마다 단일 클래스의 데이터인 경우와 여러 개의 클래스가 동시에 존재하는 데이터이다. 관련 연구에서 정리하였듯이 데이터 불균형성은 롱테일 데이터 분포 특성을 갖는다고 전제하고 있으며, 데이터 롱테일 분포는 클래스별 수량을 가장 많은 것부터 작은 데이터까지 분석하여 시각적으로 표 현하고 있다. 본 논문에서는 관련 연구를 참고하여 롱테일 분포 특성을 확인하는 몇 가지 분석 방법을 제안 한다. 연구에 사용한 데이터셋은 클래스가 다양성을 가지며 실제로 자율주행차가 사용할 수 있는 환경의 이 미지 데이터셋으로 데이터 불균형 연구를 수행하기에 적합하였다. 원천 데이터셋은 14종의 교통신호등 유형 을 가지고 있으며 차량 신호, 보행자 신호, 버스 신호와 같은 일반 시내 도로에 설치된 교통신호등 형태이고 본 연구에 사용한 원천 데이터셋은 <Table 1>과 같다.

<Table 1>

Traffic Signal Dataset(14 Types)

Traffic Signal Type	Number	Class Name	Traffic Signal Type	Number	Class Name
Vehicle Signal	0	Go [veh_go]	Pedestrian Signal	7	Go [ped_go]
	1	GoLeft [veh_goleft]		8	Nosign [ped_nosign]
	2	NoSign [veh_Nosign]		9	Stop [ped_stop]
	3	Stop [veh_stop]	Bus Signal	10	Go [bus_go]
	4	StopLeft [veh_stopleft]		11	Nosign[bus_nosign]
	5	Stop Warning [veh_stopwarn]		12	Stop[bus_stop]
	6	Warning [veh_warning]		13	Warning [bus_warning]

교통신호등 데이터셋의 불균형성을 확인하기 위해 클래스별 인스턴스 수량을 높은 순위에서 낮은 순위로 정렬하면 <Fig. 1>과 같으며, 여기서 전형적인 불균형성을 보이는 롱테일 인스턴스 분포를 보이고 있음을 알 수 있다. 높은 출현 빈도의 클래스 즉 많은 수량으로 존재하는 주요 클래스로는 veh_stop, veh_go, ped_stop이 고, 수량은 각각 32,546개, 24,321개, 11,317개이다. 반면 bus_warning과 bus_noSign과 같은 클래스는 각각 24 개, 20개의 인스턴스 수량을 보여서 주요 클래스와 비교하면 매우 낮은 출현 빈도 즉 매우 적은 수량의 인스 턴스이다.

<Fig. 1>

Long Tail Distribution Traffic Signal Data Set Instance Counts

자율주행 교통신호등 데이터셋은 인스턴스 기준으로 롱테일 분포를 위와 같이 확인하였고, 다음으로 하나 의 이미지에 다양한 클래스가 있어서 클래스 조합 분석을 통해 누적 분포를 <Fig. 2>와 같이 분석하였다. 원 천 데이터셋은 138개의 클래스 조합으로 분석되었으며 이를 누적 분포로 표현하였고, 일부 클래스의 조합이 대부분임을 확인하였다. 특히 138개 클래스 조합 중에서 상위 10개의 조합이 전체 데이터의 75.36%, 상위 30 개까지의 조합이 93.01%, 상위 70개까지의 조합이 98.98%를 차지하였고, 나머지 조합들은 샘플 수가 현저히 적었다. 누적 분포로 분석하였을 때 특정 클래스의 조합에서도 데이터 불균형 패턴 즉 롱테일 분포를 확인할 수 있었다.

<Fig. 2>

Multi Label Combinations Cumulative Distribution Function in Traffic Signal Data set

<Fig. 3>은 클래스 조합 분포에서 상위 70개의 출현 빈도를 표현한 것이며, 특정 클래스의 조합에 편중되 있음을 알 수 있다. 가장 빈도가 높은 클래스는 단독 라벨로 존재하는 veh_go(4,993장)이고, 가장 빈도가 높은 조합은 ped_stop, veh_stop(4,850장)이다. ped_stop, veh_go(1,329장), ped_go, veh_go(1,149장), ped_stop, veh_noSign, veh_stop(953 장) 조합이 상대적으로 높은 빈도를 보였다. 일부 조합의 경우 신호등 데이터에서 희소하게 나타나며, 특히 bus_warning, bus_noSign을 포함한 클래스 조합들은 상위 70개 조합에 존재하지 않았다. 이는 버스 신호와 결합된 클래스 조합들은 출현 빈도가 매우 낮아, 저빈도 소수 클래스 데이터는 편향된 모델 학습이 될 수 있음을 의미한다.

<Fig. 3>

Top 70 Multi Label Combinations in Traffic Signal Data set

롱테일 분포의 불균형 데이터셋은 일반적으로 특정 조합에 출현 빈도가 집중됨에 따라 학습 모델이 과적 합될 수 있어 결과적으로 저빈도 클래스 뿐만 아니라 전반적인 인식 성능에 악영향을 줄 수 있음을 의미한 다. 데이터 불균형성을 분석하는 다른 방법으로 클래스별 출현 빈도를 로그 스케일 히스토그램과 커널 밀도 함수(KDE)로도 확인할 수 있다. 출현 빈도가 높은 조합(5,000장 이상)과 낮은 조합(1,000장 미만)을 구분할 수 있었고, 중간 수준의 빈도를 가진 조합이 거의 없는 양극단 분포 특징을 보였다.

본 장에서는 데이터 불균형성을 분석하는 과정으로 인스턴스 빈도 분석, 클래스 조합 누적 분포 분석, 커널 밀도 분석 방법을 활용하면 주요 및 소수 클래스, 고빈도 및 저빈도 조합 클래스를 확인할 수 있었다. 실험에 사용한 데이터셋은 전형적인 롱테일 분포 패턴을 갖는 편향적 데이터 셋임을 위의 분석 과정으로 확인하였다.

2) 클래스 불균형 분류

롱테일 분포 형태를 띄는 불균형 데이터셋은 데이터 편향성을 시각적으로 판단할 수 있는 방법이지만 정 량적 기준으로 판단하고 있지는 않았다. 따라서 본 연구에서 저빈도 소수 클래스의 판단 기준을 정량화하기 위해 클래스 불균형성을 파악하는 분류 기준을 식(1)과 같이 제안하였다.

P_{i} = \frac{C_{i}}{N} \times 100

(1)

여기서, C_i 는 특정 클래스 i의 인스턴수 수이고, N은 전체 학습 데이터를 기준으로 존재하는 인스턴스 수 이며, P_i 는 특정 클래스 I가 전체 학습 데이터에서 차지하는 비율(%)을 의미한다. 식(1)에 따라서 구분한 정 량적 데이터 분류 결과는 <Table 2>와 같다. 교통신호등 데이터의 분포 특성을 고려하여 세 개의 범주로 클 래스 묶음으로 구분하였고 클래스별 출현 빈도가 10% 이상인 것들을 주요 클래스(Major), 10%~0.5% 사이는 중간 클래스(Moderate), 0.5% 이하는 소수 클래스(Minor)로 분류했다. 특히 소수 클래스는 1% 미만의 데이터 빈도를 갖는 ped_noSign(0.42%), bus_stop(0.35%), bus_go(0.31%), bus_warning(0.03%), bus_noSign(0.02%) 이다.

<Table 2>

Traffic Signal Class Classification Result

Class	Instance	Percentage	Category	Probability Threshold
veh_stop	32546	37.15	Major	P_i ≥ 10%
veh_go	24321	27.76	Major
ped_stop	11317	12.91	Major
veh_stopLeft	4487	5.12	Moderate	0.5 ≺ P_i ≺ 10%
veh_goLeft	4013	4.58	Moderate
veh_noSign	3461	3.95	Moderate
ped_go	2979	3.40	Moderate
veh_warning	2735	3.12	Moderate
veh_stopWarning	771	0.88	Moderate
ped_noSign	368	0.42	Minor	P_i ≤ 0.5%
bus_stop	303	0.35	Minor
bus_go	272	0.31	Minor
bus_warning	24	0.03	Minor
bus_noSign	20	0.02	Minor

2. 데이터 증강 최적화 방법

1) 인스턴스 마스킹

클래스 조합 분석 결과, 정량적 분류 기준에 따른 저빈도 소수 데이터는 일부 클래스의 조합이 대부분을 차지하므로 주요 클래스와 소수 클래스가 혼합된 이미지를 증강하면 오히려 주요 클래스와 소수 클래스의 인스턴스 수량 차이가 커져 데이터 불균형성은 심화된다. 따라서 소수 클래스만을 선택적으로 증강하기 위 한 전처리 방법으로 인스턴스 마스킹을 수행했다. 먼저, 분리한 학습 데이터셋에서 소수 클래스 객체가 포함 된 이미지에서 주요 및 중간 클래스가 함께 있는 경우 주요 및 중간 클래스 정보를 제거하였다. 이를 위해 주요 및 중간 클래스의 YOLO 좌표 값을 활용하여 바운딩 박스 영역을 추출한 후, 해당 영역을 픽셀 단위로 마스킹하여 <Fig. 4>와 같이 해당 객체를 제거하였다. 인스턴스 마스킹은 주요 및 중간 클래스가 차지하는 비중을 낮추고, 소수 클래스의 빈도를 높이는 형태로 수행했다.

<Fig. 4>

Example image of Masking Major Class in Minor Class Images

<Table 3>은 인스턴스 마스킹을 수행한 결과이다. 인스턴스 마스킹 전후의 수량은 56,168개에서 54,868개 로 감소하였다. 특히 주요 클래스 중 veh_go는 16,214개에서 15,623개로 3.64% 감소했고, veh_stop은 20,880개 에서 20,591개로 1.39% 감소, ped_stop은 7,099개에서 7,004개로 1.34% 감소한 반면 소수 클래스 ped_noSign, bus_stop, bus_go, bus_warning, bus_noSign은 220개, 163개, 156개, 10개, 5개를 유지하였다. 결국 인스턴스 마 스킹은 주요 클래스의 출현 빈도를 낮추는 효과를 내도록 하였다.

<Table 3>

Instance Difference in Train Set and Masking Train Set

Class	Train set			Masking Train Set
Class	Instance	Percentage	Category	Instance	Percentage	Category
veh_stop	20880	37.17	Major	20591	37.53	Major
veh_go	16214	28.87	Major	15623	28.47	Major
ped_stop	7099	12.64	Major	7004	12.77	Major
veh_stopLeft	2685	4.78	Moderate	2603	4.74	Moderate
veh_goLeft	2513	4.47	Moderate	2403	4.38	Moderate
veh_noSign	2122	3.78	Moderate	2101	3.83	Moderate
ped_go	1849	3.29	Moderate	1833	3.34	Moderate
veh_warning	1814	3.23	Moderate	1771	3.23	Moderate
veh_stopWarning	438	0.78	Moderate	385	0.70	Moderate
ped_noSign	220	0.39	Minor	220	0.40	Minor
bus_stop	163	0.29	Minor	163	0.30	Minor
bus_go	156	0.28	Minor	156	0.28	Minor
bus_warning	10	0.02	Minor	10	0.02	Minor
bus_noSign	5	0.01	Minor	5	0.01	Minor
Total	56,168			54,868

2) 이미지 믹스업

인스턴스 마스킹을 수행한 데이터를 활용하여 소수 데이터를 증강하였다. 이때 사용한 증강 방법은 믹스 업이며, 이것은 두 개의 이미지를 결합하여 새로운 이미지를 생성하는 것으로 모델이 일반화된 정보를 학습 할 수 있도록 한다. Kaur et al.(2021)의 연구 결과에 따르면, 이미지 믹스업은 특정 클래스에 대해 일반화된 특성을 학습할 수 있으며, 소수 클래스의 데이터가 부족한 상황에서 효과적으로 학습이 가능하다. 이미지 믹 스업은 두 개의 입력 이미지 x₁, x₂와 해당 라벨 y₁, y₂를 선형 결합하여 새로운 데이터 x’, y’을 생성하며, 식 (2)와 같다.

\begin{array}{l} x^{'} = λ x_{1} + (1 - λ) x_{2} \\ y^{'} = λ y_{1} + (1 - λ) y_{2} \end{array}

(2)

여기서, λ는 베타분포(α , α )에서 샘플링된 가중치이며, 본 연구에서는 α =0.4로 설정하였다. 베타분포에서 샘플링된 λ값은 0과 1 사이의 값이며, 0.5에 가까울수록 두 이미지가 유사한 비율로 혼합된다. 반면 λ값이 0 에 가까우면 첫 번째 이미지(x₁)가 상대적으로 높은 비율로 반영되며, 1에 가까우면 두 번째 이미지가 대부분 반영된다. 이와 같은 방식으로 생성된 샘플은 원본 데이터 간의 경계를 부드럽게 만들어 모델이 연속적인 데 이터를 학습할 수 있도록 한다. 믹스업을 YOLO 객체 탐지 모델에 적용하는 과정에서 추가적인 고려가 필요 한데, 본 연구에서는 바운딩 박스 좌표가 포함된 라벨 구조를 유지하였다. 두 개의 라벨을 선형 결합할 경우, 바운딩 박스 좌표가 왜곡되어 실제 탐지 성능이 저하될 수 있기 때문이다. 따라서, 믹스업을 적용할 때 첫 번째 이미지(x₁)의 라벨을 유지하는 방식을 사용하였다. 이 방식을 통해 두 번째 이미지(x₂)는 단순히 배경 정 보로 활용하여 모델 학습 과정에서 불필요한 노이즈를 추가하지 않게 하였다. 데이터셋에서 두 개의 이미지 를 랜덤하게 선택한 후, 두 이미지의 크기가 다를 경우 첫 번째 이미지의 크기에 맞게 두 번째 이미지를 조 정하였다.

다음으로 베타분포에서 샘플링된 λ값으로 두 개의 이미지를 픽셀 단위에서 가중 평균하여 믹스업 이미지 를 생성하였으며 식(3)과 같이 표현할 수 있다.

Mixup_image = λ \times {image}_{1} + (1 - λ) \times {image}_{2}

(3)

<Fig. 5>는 믹스업 이미지의 결과이고, 소수 클래스를 믹스업하여 학습 모델로 활용하였다.

<Fig. 5>

Example images of Mixup Augmentation

요약하면 소수 클래스를 가진 서로 다른 두 이미지를 선택하여 배경 이미지로 중첩함으로써, 유사한 시각 적 특성을 가진 이미지들끼리 혼합되도록 설계한 것이며, 이때 혼합비율을 조정하여 비현실적인 픽셀의 노 이즈 영향이 과도하지 않게 믹스업 증강을 제안하였다.

3) 이미지 모자이크

이미지 모자이크는 네 개의 서로 다른 이미지를 무작위로 선택하여 하나의 이미지로 합성하는 것으로 이 미지 크기 조정과 바운딩 박스 좌표 변환이 필요하고, 이를 식(4)와 같이 표현할 수 있다.

x^{'} = C o n c a t (x_{1}, x_{2}, x_{3}, x_{4})

(4)

여기서, x’는 생성된 모자이크 이미지이고, x₁, x₂, x₃, x₄는 무작위로 선택된 네 개의 원본 이미지를 의미한 다. 학습 데이터에서 네 개의 이미지를 랜덤하게 선택한 후, 각각의 크기를 모자이크 캔버스 크기의 절반으 로 조정하고 OpenCV 함수를 사용하여 원본 이미지의 비율을 유지한 상태에서 조정하였다. 모자이크 캔버스 는 원본 이미지 크기의 2×2 크기(W_mosaic=2×W, H_mosaic=2×H)로 생성하며, 이를 통해 다양한 크기의 이미지가 결합하도록 하였다. 이후 모자이크 캔버스를 생성하고 네 개의 이미지를 좌상단, 우상단, 좌하단, 우하단에 배치하여 객체의 바운딩 박스 좌표 값도 이에 맞게 변환하도록 조정하였다.

본 연구에서는 모자이크 방법을 소수 클래스에만 적용하였다. 또한, 모자이크 방법을 적용할 때 하나 이상 의 소수 클래스 이미지가 포함되도록 설정하였다. 소수 클래스를 포함한 샘플이 우선적으로 배치되고 모자 이크 이미지 내에 소수 클래스가 충분히 학습될 수 있도록 하였고, <Fig. 6>은 이미지 모자이크 결과이다.

<Fig. 6>

Example images of Mosaic Augmentation

4) 데이터 증강 최적 비율

소수 클래스를 믹스업과 모자이크 방법으로 데이터 증강을 수행하였다. 믹스업과 모자이크 증강은 10배까 지 한 단계씩 증가하였고, 그 결과로 소수 클래스의 인스턴스 증강은 <Table 4>와 같다. 소수 클래스들 중에 서 bus_warning, bus_noSign 클래스의 경우, 원천 데이터셋에서는 각각 10개, 5개로 극단적으로 희소한 빈도 를 가졌으나, 믹스업과 모자이크 증강을 통해 각각 517개, 255개까지 증가시켰다. 또한 ped_noSign 클래스의 경우, Base_Train_Set 대비 220개에서 11,194개로 증가하여, 기존 대비 50배 이상의 인스턴스를 증가하였다. 결국 데이터 증강을 통해 일부 소수 클래스의 샘플 수가 중간 및 주요 클래스에 근접하는 수준까지 증가하 였다. 또한 각 데이터셋의 전체 이미지 수 또한 증강 수준에 따라 차이를 보였다. Base_Train_Set과 MajorMask_set은 동일하게 18,108장이며, MajorMask_set을 기반으로 믹스업과 모자이크 방법으로 증강한 학 습 데이터셋은 Train_set_1(19,062장)부터 Train_set_10(27,648장) 이며, 954장씩 증가시켰다. 또한, 개별 소수 클래스마다 가장 높은 mAP 결과를 보인 데이터셋 비율을 조합한 Train_set_C(25,180장)를 구성하였다.

<Table 4>

Minor Classes Instance

Class	Base_Train_Set	Major Mask_set	Train_set_1	Train_set_2	Train_set_3	Train_set_4
ped_noSign	220	220	1323	2425	3521	4631
bus_stop	163	163	983	1785	2614	3441
bus_go	156	156	924	1690	2502	3252
bus_warning	10	10	56	111	161	211
bus_noSign	5	5	30	55	80	105
Class	Train_set_5	Train_set_6	Train_set_7	Train_set_8	Train_set_9	Train_set_10
ped_noSign	5715	6842	7913	9020	10134	11194
bus_stop	4229	5055	5836	6643	7519	8345
bus_go	4084	4876	5638	6390	7190	7985
bus_warning	248	312	360	417	464	517
bus_noSign	130	155	180	205	230	255
* Train_set_1~10: Mixup, MosaicAugmentation(1×-10×)

Ⅲ. 교통신호등 이미지 인식 성능 실험

1. 데이터 환경 및 증강 실험

1) 실험 환경 설정

데이터 증강에 따른 성능 변화를 보기 위해 본 연구에서는 YOLOv11x를 사용하였다. 교통신호등 영상 인 식 성능 지표는 객체 탐지에 주로 사용하는 mAP50을 적용했고, 다양한 데이터 변화에 따른 인식 성능을 비 교했다. 먼저 실험 데이터 환경은 원천 데이터, 실험 데이터 구축, 실험용 학습 모델 파라미터 설정으로 준비 하였다. 먼저 원천 데이터는 앞서 서술한 ETRI 나눔에서 제공한 자율주행을 위한 교통신호등 이미지 데이터 이며, 다음으로 실험 데이터를 구축하기 위해 본 논문에서 제안한 데이터 불균형성 분포 분석, 데이터 증강 방법으로 구축하였다. 다음으로 실험 데이터별로 데이터 불균형성의 효과를 비교하기 위해 같은 파라미터 환경의 학습 모델로 데이터별 모델을 학습하였다. 이런 과정으로 실험 데이터 환경을 구축한 후 데이터별 학 습 모델의 인식 성능을 비교하였다.

실험 데이터는 동일 과정으로 인스턴스 마스킹, 이미지 믹스업, 이미지 모자이크 증강을 거쳐 모두 13개 종류의 실험 데이터를 제작했다. 또한 학습 모델의 하이퍼파라미터는 모델 입력 크기를 1280×1280, Batch Size 9, Epoch 20, AdamW 옵티마이저, Learning Rate 7.14e-4, Momentum 0.9로 동일한 환경으로 설정하였다. 13개 종류의 실험 데이터 마다 학습한 신호등 인식 모델은 동일한 검증 데이터로 성능을 비교했다. 검증 데 이터는 원천 데이터에서 비학습한 데이터이며 원천 데이터의 10%를 랜덤하게 구성하였다.

2) 데이터 증강 실험 과정

13개의 증강 데이터셋을 기반으로 학습한 모델의 클래스별 성능 실험은 <Table 5>로 정리하였다. 여기서, Base_Train_set은 교통신호등 이미지 데이터를 인스턴스 마스킹과 증강하지 않은 원천 데이터이고, MajorMask_set 은 Base_Train_set에서 소수 클래스 데이터셋에서 주요 클래스만을 인스턴스 마스킹한 데이터셋이다. Train_set_1 번부터 10번까지는 주요 클래스만 인스턴스 마스킹을 적용하였고 믹스업과 모자이크 방법으로 데이터를 1단계부 터 10단계까지 증강한 것으로 한 단계씩 소수 클래스를 증강한 학습 데이터이다. Train_set_C는 소수 클래스마다 증강 비율을 다르게 적용한 조합 증강 데이터로서 ped_noSign 클래스는 6배, bus_stop 6배, bus_go 7배, bus_warning 10배, bus_noSign 6배를 증강한 데이터셋이다. 실험 데이터는 원천 데이터를 포함해 13개의 데이터셋을 사용하여 클래스별 mAP50의 성능을 실험하였다.

<Table 5>

Validation mAP50 Results of 12 Train Set YOLO11x

Class	All	veh_stop	veh_go	ped_stop	veh_stopLeft	veh_goLeft	veh_noSign	ped_go	veh_warning	veh_stopWarning	ped_noSign	bus_stop	bus_go	bus_warning	bus_noSign	STD
Base_Train_set	0.960	0.995	0.99	0.992	0.993	0.989	0.986	0.976	0.966	0.994	0.775	0.979	0.923	0.936	0.948	0.056
MajorMask_set	0.969	0.995	0.987	0.994	0.993	0.989	0.966	0.975	0.972	0.994	0.827	0.982	0.967	0.943	0.957	0.0417
Train_set_1	0.963	0.995	0.989	0.992	0.993	0.988	0.98	0.977	0.971	0.989	0.766	0.98	0.965	0.935	0.958	0.0568
Train_set_2	0.968	0.995	0.989	0.991	0.993	0.988	0.982	0.977	0.966	0.994	0.805	0.967	0.947	0.995	0.964	0.0474
Train_set_3	0.967	0.995	0.991	0.993	0.993	0.989	0.985	0.981	0.97	0.993	0.799	0.981	0.956	0.958	0.957	0.0486
Train_set_4	0.962	0.995	0.988	0.991	0.993	0.988	0.984	0.979	0.967	0.994	0.795	0.977	0.945	0.92	0.953	0.0509
Train_set_5	0.962	0.994	0.989	0.991	0.993	0.987	0.983	0.977	0.973	0.995	0.794	0.98	0.938	0.911	0.964	0.052
Train_set_6	0.973	0.995	0.991	0.994	0.994	0.988	0.984	0.972	0.976	0.994	0.845	0.991	0.957	0.976	0.964	0.0374
Train_set_7	0.97	0.995	0.989	0.981	0.993	0.986	0.987	0.979	0.965	0.994	0.843	0.986	0.967	0.986	0.916	0.04
Train_set_8	0.966	0.994	0.988	0.991	0.993	0.987	0.983	0.978	0.974	0.993	0.845	0.98	0.921	0.939	0.958	0.0396
Train_set_9	0.97	0.995	0.989	0.993	0.993	0.988	0.985	0.979	0.971	0.994	0.81	0.983	0.964	0.97	0.961	0.0456
Train_set_10	0.97	0.995	0.988	0.991	0.993	0.987	0.98	0.975	0.964	0.994	0.815	0.968	0.964	0.995	0.964	0.0445
Train_set_C	0.969	0.995	0.988	0.99	0.994	0.99	0.983	0.978	0.965	0.992	0.806	0.983	0.954	0.981	0.961	0.0467
* Train_set_1~10: Mixup, MosaicAugmentation(1×-10×) * Train_set_C Mixup, Mosaic Augmentation(ped_noSign 6×, bus_stop 7×, bus_warning 10×, bus_noSign 6×)

2. 증강 최적화에 의한 성능 향상 결과

증강 최적화를 위한 과정으로 인스턴스 마스킹, 이미지 믹스업, 이미지 모자이크의 차등 데이터 증강 방법 은 소수 클래스의 데이터 편향에 따른 인식 성능을 개선하는데 효과가 있음을 알 수 있었다. <Table 5>의 mAP50 실험 결과에 따르면 Base_Train_set과 비교하여 증강을 적용한 데이터셋의 mAP50 성능이 모두 향상 하는 유의미한 결과를 얻었다. Base_Train_set의 경우 mAP 값이 0.96이었고, 가장 좋은 증강 데이터는 Aug_ Train_set_6이며, 성능은 0.973 이다. 증강 효과가 계속 있는지를 확인하기 위해 최대 10배까지 증강하여 실험 하였다. 즉, 데이터를 증강한 Aug_Train_set_7~10 데이터셋은 Aug_Train_set_6과 비교하였을때 오히려 성능이 저하되는 결과를 보였다. 또한, 데이터셋 클래스별 mAP에 대한 표준편차를 계산한 결과, Aug_Train_set_6은 mAP가 가장 높은 동시에 클래스 간 성능 편차(STD)가 0.0374로 가장 낮아, 데이터 불균형성 완화에서 안정 적인 성능을 보였다. 이는 데이터 증강을 통해 소수 클래스의 탐지 성능뿐만 아니라 전체적인 클래스 간 균 형까지 개선된 것으로 볼 수 있다. 따라서, 증강 비율을 높인다고 해서 성능이 계속 좋아지는 것이 아니며, 최적 증강 비율이 존재한다는 것을 의미한다. 다만 이런 결과 분석은 교통신호등 데이터에 한하여 적용한 것 으로 데이터셋의 불균형성 완화와 최적의 데이터 증강 비율 및 방법을 찾는 것이 인지 성능의 향상에 필수 적인 과정이라는 결론을 얻었다. 본 연구는 자율주행 교통신호등 원천 데이터셋을 기반으로 수행한 결과이 며, 소수 클래스 중심으로 데이터 증강률에 따른 클래스 인식 성능의 변화를 <Fig. 7>과 같이 정리하였다.

<Fig. 7>

Minor Class mAP in Different Datasets

Base_Train_set 대비 Train_set_6에서 ped_noSign은 mAP 값이 9.0%, bus_stop 1.2%, bus_go 3.4%, bus_warning 4.0%, bus_noSign 1.6% 향상되었다. 이는 데이터 증강 방법이 소수 클래스의 탐지 성능을 개선하는데 효과적 으로 작용했음을 알 수 있었다. 원본 데이터에서 저빈도 클래스이었던 bus_warning, bus_noSign을 증강 후 실 험 결과는 데이터 불균형성을 개선하였음을 의미하며, 소수 클래스의 인식 성능이 평균 1.6%~9.0% 개선되어 데이터 증강의 효과성을 확인하였다. 또한, 믹스업과 모자이크 증강 방법의 성능 차이를 확인하고자 Base_ Train_set을 믹스업과 모자이크 방법으로 각자 증강한 후 성능을 비교하였다. 그 결과 OnlyMixup_set의 모든 클래스의 평균 mAP는 0.962, OnlyMosaic_set은 0.961로 비슷하였지만, 클래스별 세부 성능에서는 차이를 보 였다. bus_warning 클래스의 경우 믹스업 방식이 0.953, 모자이크 방식이 0.911이었고, bus_noSign 클래스는 각 각 0.956과 0.953으로 믹스업의 성능이 좋았다. ped_noSign은 믹스업(0.785), 모자이크(0.797), bus_stop은 믹스 업(0.965), 모자이크(0.981), bus_go는 믹스업(0.923), 모자이크(0.934), bus_warning은 믹스업(0.953), 모자이크 (0.911), bus_noSign은 믹스업(0.956), 모자이크(0.953)로 모자이크 성능이 좋았다.

교통신호등 영상 인식의 경우, 성능 향상을 위해 최적의 증강 비율이 존재하고 소수 클래스의 탐지 성능 을 개선하는 동시에 전반적인 인식 성능을 높이는데 유의미한 결과를 얻었다. 7배 이상의 증강을 통한 실험 데이터 Train_set_7~10에서는 오히려 성능이 감소하였다.

또한 조합 증강 데이터 Train_set_C는 증강한 실험 데이터 중에서 클래스마다 가장 높은 성능을 보인 증강 비율을 조합해 적용한 데이터이었고 최고 성능의 비율을 조합했을 때 가장 높은 성능을 보일 것이라는 예상 으로 실험했다. 실험 결과로는 원천 데이터의 성능이 0.960인 반면 0.969로 평균적으로 향상되었고, 특히 소 수 클래스 중에서 Ped_noSign은 0.775에서 0.806으로 향상되어 조합 증강 방법도 유의미한 결과를 보였다. 그 러나 가장 높은 성능을 보였던 Train_set_6와 비교했을떄 ped_noSign은 0.845에서 0.785, bus_stop은 0.991에서 0.965, bus_go는 0.967에서 0.923, bus_warning은 0.995에서 0.953, bus_noSign은 0.964에서 0.956으로 성능 향상 효과가 상대적으로 낮게 나타났다. 여러 실험을 수행한 결과 소수 클래스의 증강은 성능 향상에 효과적인 방 법이고, 동시에 최적의 증강 비율을 찾아야 한다.

결과적으로 원천 데이터의 특성을 분석하는 것이 필요하며, 본 장에서 제시한 데이터 편향성 분석 방법, 데이터 증강 방법의 최적화를 적용한다면 비증강 원천 데이터의 학습 모델보다 확실히 성능 개선 효과를 얻 을 수 있을 것이다.

Ⅳ. 결론 및 향후 계획

본 연구는 자율주행 모빌리티를 위한 교통신호등 영상 인식용 데이터셋을 사용하여 데이터 불균형성 분 석 방법, 데이터 증강 방법과 최적 증강 비율, 데이터 증강에 의한 성능 개선 효과를 분석하였다. 교통신호등 을 자동으로 인식하는 것이 자율주행 모빌리티 기술에 있어서 필수 항목임에도 데이터 불균형성 분석을 체 계적으로 수행할 경우 학습 모델의 인식 성능이 향상됨을 알 수 있었다. 본 논문에서는 데이터 불균형성 즉 클래스 다양성에 따른 클래스 편향성의 특성에 따라 학습 모델의 인식 성능이 영향을 받는 것을 교통신호등 데이터를 사용해 그 효과와 개선 방법을 제시했다. 그동안 데이터 불균형성을 직관적으로 판단하였던 것을 그래프 분석 방법과 정량적 판단 기준을 제안함으로써 향후 연구에 도움이 될 것으로 기대한다. 데이터 다양 성에 기반한 데이터 편향성 분석은 긴꼬리 형태 클래스 분포, 누적 빈도 분포, 커널 분석을 통해 직관적으로 확인할 수 있었다. 또한 데이터 증강 방법은 그동안 소수 클래스의 이미지를 증가시키는 과정이었다면 본 논 문은 주요 클래스와 소수 클래스의 격차를 줄이는 과정을 제안했고, 이 과정은 소수 클래스 데이터에 함께 포함된 주요 및 중간 범주의 클래스를 제거하는 인스턴스 마스킹 과정을 적용했다는 것이 특징이다. 또한 소 수 클래스의 출현 빈도를 증가시켜 클래스별 데이터 편향성을 완화하도록 했다. 다음으로 인스턴스 마스킹 을 통해 정제한 데이터는 믹스업과 모자이크 증강 방법으로 증강 데이터셋을 다양하게 구축했다. 데이터 증 강 방법은 소수 클래스를 믹스업과 모자이크 방법으로 증강하였고 이때 증강 비율을 10배까지 한 단계씩 증 가시켰다. 데이터 불균형 분포를 갖는 교통신호등 이미지 데이터는 소수 클래스를 대상으로 인스턴스 마스 킹 및 믹스업과 모자이크 증강으로 6배 증강하였을 때 mAP 값이 0.973로 가장 높았으며, 전체적으로 비증강 원본 데이터와 비교했을 때 모든 소수 클래스 ped_noSign, bus_stop, bus_go, bus_warning, bus_noSign는 인식 성능이 개선되었고, 특히 가장 낮은 성능을 보인 ped_noSign 클래스는 0.845로 원천 데이터 대비 9%의 성능 개선 효과를 보였다. 또한 조합 증강에 대한 효과를 보기 위해 Train_set_C 실험을 수행했고, 원천 데이터와 비교했을 때 소수 클래스 전체가 성능 개선되었다. 특히 ped_noSign 클래스는 0.806으로 원천 데이터 대비 4%의 성능 개선 효과를 보였다. 또한, 데이터셋별 클래스 mAP에 대한 표준편차를 계산하여 각 증강 조합의 성능 안정성을 분석하였다. 전체 13개 학습데이터셋 중 가장 높은 mAP(0.973)를 보인 Train_set_6은 클래스 간 mAP 표준편차 값이 0.0374로 가장 낮았다. 이는 Train_set_6 데이터셋이 소수 클래스를 포함한 전체 클래 스에서 가장 안정적인 mAP의 성능을 보였다. 본 논문은 데이터 다양성과 편향성을 분석하고, 이후 최적의 데이터 증강 방법을 적용하면 자율주행 모빌리티의 인식 성능을 높이는 데 도움이 된다는 유의미한 결과를 얻었다.

본 논문은 교통신호등 객체 인식 외에도 도로 포트홀, 크랙 검출, 낙하물, 블랙아이스 등 도로 위험 객체 를 영상 인식할 때 활용될 수 있어 자율주행 모빌리티 기반의 이미지 객체 인식에서 효과적인 증강 방법으 로 활용할 수 있을 것이다. 앞으로는 교통신호등 데이터셋의 최적 증강 방법의 고도화 연구를 계속 수행할 계획이고, 클래스 다양성을 기반으로 관계성을 분석하고자 한다. 데이터 편향성이 학습 성능이 미치는 영향 을 심도 있게 연구하면서, 성능 향상을 위한 학습 데이터의 최적 모델링 분야로 연구하고자 한다. 데이터 불 균형 이슈 외에도 저조도 저대비, 스몰피쳐 등 어려운 인식 환경에서의 성능 변화와 개선 연구를 진행하고자 한다. 데이터 증강 및 전처리 방법을 고도화하여 학습 모델의 성능을 향상시키고자 한다. 또한 이미지 모자 이크, 믹스업, 회전 크기 조정, 조명 조건 변화, 합성데이터 생성, 배경 혼합, 오버 샘플링 및 언더 샘플링 등 다양한 증강 방법에 따른 성능 변화와 객체 배치 다변화를 통한 다양한 데이터셋을 실험하여 일반 도로 환 경에서 안정적으로 인식률을 유지하는 방법을 계속 연구할 예정이다.

ACKNOWLEDGEMENTS

본 논문은 한국건설기술연구원 주요사업 목적형 R&R 자율주행 모빌리티 기반 고위험 난인지 AI 탐지 핵 심기술 개발 과제(20250222-001)로 수행함.

Figure

<Fig. 1>.