Ⅰ. 서 론
1. 자전거 도로 영상 데이터의 필요성
전 세계 도시들은 지속 가능한 교통체계로 전환하기 위해 자전거 이용 활성화를 핵심 과제로 인식하고 있 다. 자전거는 대기오염 저감과 심혈관 질환 예방 등 공중보건 측면의 이점을 제공하며, 일상 이동을 활성 교 통로 전환하는 데 가장 효율적인 수단으로 평가된다. 이러한 흐름 속에서 많은 도시가 자전거도로 확장에 투 자하고 있지만, 실제 운영 환경에서는 교통량, 보행자 혼재, 음영 구간, 교차로 구조와 같은 요소가 안전에 직접적인 영향을 미친다. 이로 인해 지역별 안전관리 수준의 편차도 크게 나타난다. Schwarz et al.(2022)은 독 일 뮌헨에서 자전거 탑승자 실측 데이터를 활용해 자전거도로 운영·관리 여건이 이용자 안전에 미치는 영향 을 정량적으로 분석했다. 연구 결과, 차량·보행자와의 상충이 적고 교통 흐름이 안정적으로 관리되는 구간에 서는 속도 변화, 심박수, 소음 노출이 일정하게 유지되었다. 반면, 혼잡하거나 관리 수준이 낮은 구간에서는 급감속, 주행 스트레스 증가, 위험 회피 행동이 빈번하게 나타났다. 이는 안전이 단순한 도로 구조가 아니라 운영 체계와 현장 관리 수준에 의해 좌우된다는 점을 보여준다. Ahmed et al.(2024)은 자전거도로 친화도에 영향을 미치는 요인으로 노면 상태, 차선 명확성, 주변 교통 흐름 관리, 교차로 통제 방식 등 운영·관리 기반 의 안전 요소를 제시했다. 여러 국가가 유사한 설계 원칙을 도입하고 있음에도, 도시별 정책과 관리 역량, 운 영 방식 차이에 따라 실제 안전성은 크게 달라질 수 있음을 지적한다. 종합적으로, 최근 연구들은 자전거도 로가 단순한 이동 공간이 아니라 공중보건, 도시 교통 운영, 환경정책을 연결하는 핵심 인프라임을 보여준다 (Winters, 2018). 특히 자전거도로의 안전 관리는 사고 위험, 주행 안정성, 상충 발생 가능성 등을 결정하는 핵 심 요소이며, 단순한 설계 개선보다 지속적인 모니터링과 운영 관리, 위험 요인 파악 및 대응 체계 구축이 더 중요한 역할을 한다. 그러나 도시별 안전관리 체계가 상이해 동일한 환경에서도 이용자의 안전 경험에 차 이가 발생하고 있으며, 현장 특성에 기반한 위험 요인 분석과 체계적 안전관리 전략 수립이 필요하다.
최근 연구들은 자전거도로 안전 사고가 단순한 노면 구조나 설계 결함에서만 발생하는 것이 아니라, 교차 로 환경, 주변 보행자 흐름, 차량 진출입, 시야 확보, 조명 조건 등 동적으로 변화하는 요인에 의해 크게 좌우 된다는 점을 공통적으로 지적한다. 예를 들어, Lee and Seo(2022)는 포항시 사례 분석을 통해 보행자·차량·자 전거가 혼재하는 구간에서 충돌 심각도가 최대 2.6배 증가함을 확인하였다. 이는 위험 수준이 특정 시간대나 상황에서 급격히 변할 수 있음을 보여준다. 즉, 사고 위험은 설계 단계에서 결정되는 고정적 요인보다 실제 운영 과정에서 발생하는 동적 요인이 핵심임을 의미한다. Teschke et al.(2014)의 연구도 동일한 방향을 제시 한다. 690건의 자전거 충돌 사례를 분석한 결과, 차량과 혼합된 도로 및 주차 차량이 많은 도로변에서 충돌 위험이 비정상적으로 증가하였다. 그 원인은 운전자의 시야 확보 실패, 불규칙 진출입, 주변 교통 흐름의 예 측 불가능성과 같이 실시간 관찰이 어려운 요인들에 있었다. 이러한 요인은 정적 설계 개선만으로는 파악하 기 어렵기 때문에, 실제 주행 환경에서 상시 모니터링 체계가 부족할 경우 사고 위험이 크게 증가한다. 영국 전국 단위 조사 (Hollingworth et al., 2015)에서도 동일한 경향이 나타난다. 통근, 장거리 주행, 혼잡 지역 이용 자에서 사고 경험 비율이 크게 증가했으며, 이는 노면·구조보다는 시간대 변화, 교통량 증가, 가시성 저하와 같은 동적 요인이 사고의 주요 원인임을 의미한다. 특히 전체 부상자의 15% 이상이 입원 치료가 필요한 중 상이라는 점은, 위험 상황을 사전에 감지하고 경고할 수 있는 체계가 없다는 사실이 사고 심각도를 높이는 중요한 근거다. Schepers et al.(2011)은 이러한 문제를 교차로 관점에서 명확히 제시했다. 연구에 따르면 비신 호 교차로에서 발생하는 자전거–차량 충돌의 상당수는 운전자의 시야 확보 미흡, 진출입 속도, 교차로 복잡 성과 같은 운영상 요인에서 비롯된다. 특히 양방향 자전거도로와 가시성 장애물은 설계 자체보다 주행 중 발 생하는 동적 상호작용을 실시간으로 감지하지 못하는 점이 충돌의 주요 원인으로 지적된다. 따라서 자전거 도로 안전 문제는 더 이상 설계나 시설 개선만으로 해결할 수 없다. 주변 환경 변화, 교통 흐름, 시야 조건, 보행자 밀집도, 차량 접근 여부 등 동적 요인을 지속적으로 감지하고 분석해야 실질적인 사고 예방이 가능하 다. 이 때문에 자전거도로 안전관리에는 영상 기반 모니터링이 필수적이다. 영상 기반 시스템은 실시간 객체 탐지, 위험 행동 분석, 교차로 접근 차량 감지를 가능하게 하며, 기존의 시설 중심 접근으로는 확보하기 어려 운 상황 인지 기반의 능동적 안전관리 체계를 구축할 수 있다.
2. 영상 데이터의 증강 및 합성 기법
딥러닝 기반 객체 탐지 기술은 자율주행 분야에서 차량 인식의 핵심 요소로 자리 잡으며 도로 환경에서도 높은 성능을 발휘하는 것으로 보고되고 있다 (Berwo et al., 2023). 이러한 기술적 흐름은 자전거도로 분야에 서도 유사하게 적용되고 있으며, Majer et al.(2024)은 자전거 및 전동스쿠터 이용자의 주행 행태를 분석하기 위해 YOLO 기반 객체 탐지 모델을 활용하여 차량 종류, 보호장구 착용 여부, 속도 등을 실시간으로 파악하 는 영상 모니터링 시스템을 구축하였다. 이처럼 AI 기반 영상처리는 수동 관찰이나 현장 조사 방식과 달리 지속적이고 자동화된 위험 감시가 가능해 자전거도로 안전관리의 핵심 기술로 자리 잡고 있다. 그러나 이러 한 시스템의 성능은 훈련 데이터의 품질과 양에 크게 좌우된다. YOLO와 같은 딥러닝 기반 객체 탐지 모델 은 조도, 기상, 계절, 시점, 움직임 패턴 등이 다양한 영상 데이터를 충분히 학습해야 현장에서 안정적으로 작동한다. Majer et al.(2024)에서도 전기스쿠터 전면 영상이 부족하여 탐지 정확도가 15%에 불과한 사례가 보고되었다. 이는 훈련 데이터 부족이 성능 저하로 직결된다는 점을 명확히 보여준다. 하지만 자전거도로에 서 실제 촬영된 데이터는 수집 자체가 어렵고, 라벨링까지 포함한 고품질 데이터 구축에는 많은 비용과 시간 이 필요하다. 객체 탐지 모델을 학습시키려면 수천~수만 개의 bounding box 라벨이 요구되며, 자전거·킥보드· 보행자·차량이 함께 등장하는 복잡한 장면에서는 라벨링 난도가 더욱 높아진다. 특히 야간, 역광, 비·눈 등 특수 상황의 데이터는 자연적으로 확보하기 어렵기 때문에 단순 수집만으로는 충분한 데이터를 확보하기 어 렵다. 따라서 자전거도로 안전 모니터링을 위한 AI 비전 기술을 고도화하기 위해서는 데이터 기반 접근 전 략이 필수적이며, 이를 위해 대규모 영상 데이터를 확보하는 기술 개발이 필요하다.
자전거도로 감시용 AI 객체 탐지 모델은 조도, 계절, 시점, 교통 혼잡도처럼 빠르게 변하는 환경을 정확하게 처리해야 한다. 그러나 실제 자전거도로에서 수집한 원본 데이터만으로는 이러한 변화 조건을 충분히 반영할 수 없고, 자전거·전동킥보드·보행자·차량 간 출현 비율도 크게 불균형하다. 이로 인해 실제 환경에서는 오탐지 와 미탐지가 쉽게 증가한다. 이 문제를 해결하기 위해 최근 연구는 context-aware 데이터 증강 기법을 핵심 기술 로 활용하고 있다. CutMix(Yun et al., 2019)는 이미지 일부를 잘라 다른 영상에 합성하는 방식으로, 객체 형태를 유지하면서 다양한 배경을 생성한다. 이 방법은 특정 배경에 대한 편향을 줄이고 장면 다양성을 확대해 모델의 일반화 성능을 높인다. Copy-Paste(Ghiasi et al., 2021)는 객체 마스크를 추출해 다른 장면에 배치하는 방식이다. 클래스 간 등장 빈도가 큰 데이터 세트에서 효과적이며, 객체와 배경의 맥락도 자연스럽게 유지된다. 이 방식 은 COCO 데이터 세트에서 AP 성능을 유의미하게 향상시킨 것으로 보고되었다. YOLOv4(Bochkovskiy et al., 2020)의 Mosaic 증강은 서로 다른 네 장의 이미지를 하나로 합성해 다중 스케일과 다중 맥락 정보를 동시에 제공한다. 이 방법은 작은 객체나 먼 거리 객체의 탐지 성능을 높이고, 여러 객체가 섞여 있는 장면을 쉽게 만들어 자전거·보행자·차량이 함께 존재하는 실제 자전거도로 상황을 더 정확하게 재현할 수 있다. 이러한 증 강 기법은 실제 데이터만으로 확보하기 어려운 배경 다양성, 객체 등장 빈도, 스케일 변화, 맥락 정보를 효과적 으로 확장하며, 객체 탐지 모델의 일반화 능력을 강화한다. 따라서 영상 기반 자전거도로 모니터링의 정확도를 확보하기 위해서는 원본 데이터뿐 아니라 이러한 contextual augmentation 기법을 적용해 확장된 데이터 세트를 구축하는 것이 필수적이다.
최근 생성형 AI 기술은 교통·모빌리티 분야에서 합성 데이터를 활용한 객체 인식 성능을 직접적으로 끌어 올리고 있다. 자전거도로는 날씨, 시점, 조도, 교통량이 계속 변하는 환경이기 때문에 실제 데이터를 충분히 확보하기 어렵다. 따라서 합성 기반 학습은 필수적이다. 대규모 생성 모델은 기존 시뮬레이션 방식과 달리 실 제와 가까운 질감, 조명, 객체 형태를 만들 수 있어 자전거·전동킥보드·보행자·차량 탐지 모델의 일반화 성능 을 크게 높인다. Lin et al.(2020)은 Multi-Task GAN을 이용해 실제로 확보하기 어려운 교통 객체를 합성하고, 스타일 전이로 도메인 차이를 줄였다. 합성 이미지로 사전학습한 뒤 실제 데이터로 미세조정한 모델은 실제 데이터만으로 학습한 모델보다 성능이 높았다. 이는 어린이, 유아용 자전거처럼 희귀 객체가 많은 자전거도 로 환경에서 GAN 기반 합성이 실제 대안이 될 수 있음을 보여준다. Lee et al.(2024)은 3D 스캔 기반 디지털 트윈과 시뮬레이션을 결합해 시간대(24시간)와 날씨(4종)를 조합하여 19,680장의 합성 이미지를 자동 생성했 다. YOLO 실험에서 합성 데이터는 실제 데이터와 비슷한 성능을 냈고, 특히 야간·우천처럼 촬영이 어려운 조건에서 도메인 차이 대응력이 크게 증가했다. 이 방식은 자전거도로에서 자주 발생하는 음영, 역광, 악천후 상황을 인위적으로 만드는 데 적합하다. Patricio et al.(2025)은 Stable Diffusion 기반 Flux 모델을 LoRA로 미세 조정해 도메인 특화 이미지를 생성했다. 실제 200장과 합성 500장만으로 mAP가 21.3% 상승했고, 합성 데이 터 품질이 성능에 직접적으로 영향을 준다는 점을 확인했다. 이 방법은 근접 추월, 역주행, 보행자와 자전거 충돌 위험 장면처럼 촬영이 어렵거나 위험한 상황을 다양한 형태로 생성할 수 있다. Khalzaa et al.(2025)은 실 제 영상과 포토리얼리스틱 합성 영상을 결합한 교통 장면 데이터세트를 만들고, 상·하·측면 등 여러 시점을 제공했다. 합성 영상만으로 학습한 모델도 실제 장면에서 일정 수준 이상의 성능을 유지했다. 이는 교차로, 곡선 구간처럼 시점 변화가 큰 자전거도로 환경을 합성으로 재현할 수 있다는 점에서 장점이 크다. 종합하면, 최근 연구들은 접근 방식은 다르지만 공통적으로 실제 자전거도로에서는 확보하기 어려운 희귀 객체, 작은 객체, 그리고 다양한 환경 조건을 생성형 AI로 효과적으로 재현할 수 있음을 보여준다. 이러한 맥락에서 본 연구가 합성 데이터를 활용하는 이유는, 실제 CCTV 환경에서 계절·조도·기상 등 다양한 조건의 영상을 단기 간에 충분히 확보하기 어렵고, 특정 객체의 출현 빈도 또한 낮아 데이터 부족과 불균형이 발생하기 때문이다. 제안한 합성 기법은 동일한 구조 조건을 유지한 상태에서 계절·시간대·기상 변화를 체계적으로 생성할 수 있 어, 실제 촬영이 어려운 장면을 보완하고 데이터 다양성과 균형을 강화하는 데 기여한다. 이러한 합성 데이터 는 향후 객체 탐지 모델의 일반화 성능을 높이고, 실제 모니터링 환경에서 위험 상황을 보다 정확하게 감지 할 수 있는 기반을 제공한다. 따라서 생성형 AI 기반 합성 데이터는 자전거도로 영상 데이터 세트의 취약한 부분을 보완할 뿐 아니라, 객체 탐지 모델의 도메인 적응력과 안전 인식 정확도 향상을 위한 핵심적 역할을 수행할 수 있다.
Ⅱ. 자전거 도로 데이터 합성을 위한 미세 조정 방법
1. 자전거 도로 영상 데이터 세트 구성
자전거도로에 적합한 합성 영상을 생성하기 위해서는 먼저 실제 환경을 기반으로 한 초기 데이터세트가 필요하다. 초기 데이터는 분석과 모델 학습의 출발점이며, 이후 생성될 합성 데이터의 방향성과 품질을 결정 하는 기준이 된다. 본 연구에서는 이를 위해 다섯 개 자전거도로 구간에 설치된 CCTV를 활용하여 오전 6 시~9시, 오후 3시~6시 시간대에 걸쳐 3일간 영상을 수집하였다. 촬영한 장소는 자전거와 보행자의 충돌 위험 이 존재하고 관리가 용이한 분리형 자전거·보행자 도로를 중심으로 선정하였다. 또한 기술의 비분리형 인도 환경 확대 적용 가능성을 검토하기 위해 일반 인도 구간에서도 추가 데이터를 확보하였으며, 이를 다양한 보 행·자전거 통행 및 충돌 시나리오 분석에 활용하고자 하였다. 저장된 비디오에서 보행자와 자전거 등 이동체 가 등장하는 장면을 추출해 약 1,000장의 영상 데이터를 구축하였다. 수집된 영상은 객체와 배경을 분리하기 위해 픽셀 수준의 마스크 영상을 제작하였다. 마스크에는 자전거, 이용자, 도로, 보행자 공간, 가로수, 차량 등 주요 객체를 클래스별로 구분해 표시하였다. 이를 통해 향후 합성 과정에서 이동체 영역을 정확하게 제어 할 수 있도록 하였다. 원본 영상의 해상도는 1920×1080이며, 본 연구에서는 이동 객체를 중심으로 512×512 로 크롭하여 데이터를 구성하였다. 이를 통해 이동 객체가 영상 중심에 위치하도록 해 객체 중심 학습이 가 능하도록 했다. 마스크 영상도 동일한 방식으로 크롭해 원본 영상과 정확히 대응되도록 처리하였다. 결과적 으로 총 6,310장의 크롭 영상을 확보하였다. 또한 각 영상에 대한 장면 설명 텍스트도 함께 확보하였다. 영상 캡셔닝에는 Microsoft의 대규모 멀티모달 모델 Florence-2 (Xiao et al., 2024)를 사용하였다. Florence-2는 장면 구성, 객체 위치, 배경 요소 등을 자연어로 상세히 기술하는 고품질 캡션을 생성하며, 후속 합성 모델에서 조 건부 생성 성능을 향상시키는 데 기여한다. 이와 같이 구축된 자전거도로 데이터세트는 <Fig. 1>과 같이 (a) 실제 영상, (b) 객체와 배경을 분리한 마스크 이미지, (c) 장면 설명 텍스트의 세 요소로 구성된다. 이러한 멀 티모달 구조는 자전거도로 환경을 대상으로 한 객체 탐지, 세그멘테이션, 텍스트 기반 조건부 합성 등 다양 한 AI 모델의 학습과 평가에 활용될 수 있다. 특히 본 연구의 생성형 AI 기반 자전거도로 합성 영상 생성에 서 핵심 기반으로 기능한다.
2. 영상 합성을 위한 Stable Diffusion 미세 조정 기법
본 연구는 Stable Diffusion 기반 생성형 AI를 활용해 자전거도로 영상을 합성하기 위해 두 가지 조건을 결 합한 이중 조건 기반 생성 기법을 제안한다. 첫 번째 조건은 영상 내 객체 간의 구조적 관계를 정확히 유지 하는 것이다. 예를 들어 자전거는 건물이나 나무 위에 위치할 수 없으며, 실제 환경과 동일한 공간 배치를 반영해야 한다. 텍스트 프롬프트만으로는 이러한 위치 제어를 완벽하게 수행하기 어렵기 때문에, 본 연구는 객체의 위치 정보를 직접 지정할 수 있는 마스크 기반 조건을 적용하였다. 구조 조건으로 입력된 마스크 영 상은 ControlNet (Zhang et al., 2023)을 통해 조건 특성 맵으로 변환되며, 이는 합성 과정에서 객체 배치를 정 밀하게 제어하는 데 사용된다. 두 번째 조건은 현장 데이터 특유의 스타일 정보를 반영하는 것이다. Stable Diffusion은 일반 이미지 데이터로 훈련되어 있기 때문에 자전거도로와 같은 특정 인프라 환경의 시각적 특 성과 다를 수 있다. 이러한 도메인 불일치 문제를 해결하기 위해 본 연구는 LoRA (Hu et al., 2022)를 활용해 스타일 적응을 수행하였다. LoRA는 기존 모델의 가중치를 고정한 상태에서 소규모 파라미터만 추가로 학습 하므로, 경량 구조로 특정 도메인에 대한 빠르고 효율적인 적응이 가능하다. 결과적으로 제안한 구조는 마스 크 기반의 공간 제약 조건과 LoRA 기반의 스타일 조건을 결합해 자전거도로 환경에 최적화된 고품질 영상 을 생성할 수 있도록 한다.
<Fig. 2>는 본 연구에서 제안하는 이중 조건 기반 자전거도로 영상 생성 파이프라인의 전체 데이터 흐름 을 나타낸다. 먼저 입력된 마스크 영상은 구조 조건으로 사용되며, ControlNet을 통해 공간 정보가 반영된 조 건 특성 맵으로 변환된다. ControlNet은 사전학습된 상태로 고정되어 있어 추가 학습 없이 안정적으로 구조 정보를 추출한다. 사용자가 입력한 텍스트 프롬프트는 텍스트 인코더를 통해 임베딩된 후 의미적 제약 조건 으로서 Stable Diffusion의 U-Net에 전달된다. U-Net은 마스크에서 생성된 조건 특성 맵과 텍스트 임베딩을 함 께 받아 영상 생성을 수행한다. 이때 LoRA 어댑터가 네트워크에 적용되어 현장 특화 스타일이 반영된다. LoRA는 소량의 파라미터만 학습하기 때문에 도메인 적응을 효율적으로 수행할 수 있으며, 전체 모델의 계 산량과 학습 비용을 크게 줄인다. 최종적으로 구조 조건과 스타일 조건이 모두 반영된 합성 영상이 생성되 며, 이는 자전거도로 환경에 최적화된 훈련 데이터로 활용할 수 있다.
본 연구는 ControlNet은 사전학습된 상태로 그대로 사용하고, LoRA 어댑터만을 미세조정(fine-tuning)하는 전략을 적용한다. 이는 ControlNet이 기존 학습만으로도 영상 내 객체 간 구조를 충분히 유지할 수 있다고 판 단했기 때문이다. 본 연구에서 사용한 데이터는 CCTV로 취득된 영상이며, 다양한 장면을 포함한 일반 데이 터 세트와 달리 특정 장소를 반복적으로 촬영한 영상으로 구성되어 있다. 따라서 구조적 다양성이 낮고, 자 전거도로 장면 역시 특별한 구조적 특성을 강하게 갖고 있지 않다. 이러한 이유로 ControlNet을 추가로 미세 조정할 필요는 낮다고 보았다. 반면 영상의 스타일은 촬영 위치, 카메라 특성, 날씨, 조도와 같은 환경 요인 에 따라 크게 달라진다. 이러한 스타일 요소는 Stable Diffusion의 텍스트 프롬프트만으로 정교하게 제어하기 어렵다. 스타일을 표현할 적절한 단어를 선택하기도 어렵고, 단어가 표현하는 범위가 넓어 모호하기 때문이 다. 이 문제를 해결하고 현장 환경에 특화된 스타일 적응을 수행하기 위해 본 연구는 Stable Diffusion의 기본 모델은 고정하고 LoRA 어댑터만을 훈련하는 방식을 채택하였다.
3. 학습 환경 구성
자전거도로 영상을 생성하기 위한 훈련하는 실험을 수행하기 위해 사용한 하드웨어의 사양은 Intel Xeon 6226R 2.9GHz, 320GB의 메모리 그리고 3개의 NVIDIA Quadro 8000이다. 소프트웨어는 Ubuntu 22.04를 운영 체제로 사용했고 Pytorch를 딥러닝 라이브러리로 사용했다. 학습에 사용한 영상 데이터의 수는 6310장이고 배치 크기는 4로하였으며 에포크의 수는 200이다. 본 논문에서 사용한 최적화 함수는 모두 AdamW을 사용 했다. Adam을 사용할 때 필요한 파라미터는 learning rate, beta-1, 그리고 beta-2로 각각 5×10-6, 0.9, 그리고 0.999로 설정했다. Weight decay는 10-2이고 epsilon은 10-8이다.
Ⅲ. 실험 결과 분석 및 논의
1. 실험 계획 및 평가 방식
본 연구는 LoRA(Low-Rank Adaptation)를 활용해 현장 환경에 적합하고 시각적 품질이 높은 자전거도로 합 성 영상을 생성하는 것을 목표로 한다. 이를 위해 Stable Diffusion 계열의 세 가지 모델을 비교 대상으로 선 정하였다. 첫째, Stable Diffusion v1.5(SD15)는 512×512 해상도에서 학습된 표준 텍스트-이미지 모델로 다양한 일반 장면에서 안정적인 성능을 보인다. 둘째, Stable Diffusion v2.1(SD21)는 고해상도 버전으로 구조적 일관 성과 세부 표현력이 향상된 모델이다. 셋째, Realistic Vision v5.1(RV51)는 인물과 실사 표현에 특화를 위해 미세 조정된 모델로 실제 사진과 유사한 질감과 조명 표현에 강점을 가진다. 본 연구는 이 세 모델의 U-Net 에 각각 LoRA 어댑터를 연결해 자전거도로 장면의 색채, 질감, 배경 구조가 실제 현장 스타일과 유사하도록 도메인 적응을 수행하였다. 또한 LoRA를 적용하지 않은 기본 Stable Diffusion과 ControlNet 조합을 비교군으 로 설정해 동일 조건에서 자전거도로 합성 영상을 생성하였다. 이를 통해 LoRA 적용 여부가 합성 영상의 표 현력, 장면 일관성, 객체 구분 가능성에 어떤 차이를 만드는지 정량·정성적으로 평가하고, LoRA 기반 도메인 적응이 자전거도로 특화 합성 데이터 품질에 미치는 영향을 분석하였다.
본 연구에서 생성한 자전거도로 합성 영상의 품질을 평가하기 위해 Fréchet Inception Distance(FID)와 CLIP-score을 정량적 지표로 사용하였다(Heusel et al., 2017;Radford et al., 2021). FID는 생성 영상의 시각적 사실성을 평가하는 지표이며, CLIP-score는 입력 텍스트 프롬프트와 생성 영상 간의 의미적 일치도를 평가하 는 지표이다. FID는 Inception-V3의 특징 공간에서 실제 영상과 생성 영상의 분포 차이를 측정하는 지표로, 두 분포가 유사할수록 값이 낮아진다. 실제 데이터의 평균과 공분산을 각각 μx 와 , 생성 데이터의 평균 과 공분산을 각각 μg와 라 하면, FID는 Eq. (1)과 같이 정의된다. 여기서 Tr(⋅)는 trace 연산자를 의미한 다. FID가 낮을수록 생성 영상이 실제 영상과 통계적으로 더 유사함을 나타낸다.
CLIP-score는 OpenAI의 CLIP 모델을 사용해 텍스트 임베딩 Et와 영상 임베딩을 Ei 의 코사인 유사도로 계산 한 값이며 식은 Eq. (2)와 같이 정의 된다. CLIP-score가 높을수록 생성된 영상이 텍스트 프롬프트가 갖는 자 전거, 보행자, 도로 구조, 주변 맥락 등를 더 정확하게 반영하고 있음을 의미한다.
2. 실험 결과 및 분석
훈련이 완료된 각 모델에 대해 동일한 마스크 영상과 텍스트 프롬프트를 입력하여 자전거도로 합성 영상 을 생성하였다. 생성한 영상 수는 훈련 데이터와 동일하게 맞춰, 모델의 생성 능력과 LoRA 적용 여부에 따 른 성능 차이를 정량적으로 비교할 수 있도록 하였다. 품질 평가는 FID와 CLIP-score로 수행하였으며, 결과는 <Table 1>에 제시하였다. <Table 1>에서 확인할 수 있듯이 모든 Stable Diffusion 계열 모델은 LoRA 적용 후 FID가 감소하고 CLIP-score가 증가하는 공통된 경향을 보였다. 이는 LoRA 기반 미세조정이 자전거도로의 시 각적 스타일과 장면 구성을 효과적으로 학습해 생성 영상의 사실성과 텍스트 조건과의 의미적 일치도를 동 시에 향상되었음을 의미한다. SD15는 FID가 83.413에서 64.502로 감소했으며, CLIP-score도 0.286에서 0.304로 상승하였다. SD21은 원본 모델의 FID가 128.023으로 상대적으로 높았지만, LoRA 적용 후 82.366으로 크게 개선되었고 CLIP-score도 0.298에서 0.303으로 증가하였다. 이는 고해상도 latent space를 사용하는 SD21이 LoRA 기반 스타일 적응에서 가장 큰 변화 폭을 보였음을 나타낸다. RV51은 본래 사실적 합성 능력이 높은 모델로 LoRA 적용 전에도 FID가 90.534로 SD21에 비해 낮았다. 그러나 LoRA 적용 후 61.282로 추가 개선되 었으며, CLIP-score는 세 모델 중 가장 높은 0.309를 기록해 텍스트-이미지 정합성이 가장 우수한 것으로 나 타났다. 결과적으로 모든 모델에서 LoRA 적용은 FID 감소와 CLIP-score 증가라는 일관된 성능 향상을 이끌 었으며, 이는 본 연구의 현장 기반 데이터세트와 LoRA 미세조정 전략이 자전거도로 영상 생성에 효과적임 을 실증적으로 보여준다.
<Table 1>
Image quality evaluation (FID/CLIP-score)
| Generation method | SD15 | SD21 | RV51 |
|---|---|---|---|
| Gen. w/o LoRA | 83.413 / 0.286 | 128.023 / 0.298 | 90.534 / 0.299 |
| Gen. w/ LoRA | 64.502 / 0.304 | 82.366 / 0.303 | 61.282 / 0.309 |
본 연구에서 활용한 FID와 CLIP-score는 합성 데이터가 실제 영상 기반 모니터링 시스템을 지원할 수 있 는지를 판단하는 핵심 지표이다. FID가 낮은 합성 영상은 실제 촬영 없이도 다양한 계절·조도·기상 조건을 반영한 데이터를 확보할 수 있어 도메인 차이를 줄이고 모델의 일반화 성능을 향상시키는 데 기여할 수 있 다. 또한 CLIP-score가 높다는 것은 필요한 객체가 합성 영상에 정확히 포함되었음을 의미하며, 출현 빈도가 낮은 객체나 장면을 보완해 데이터 불균형 문제를 완화할 수 있다. 따라서 본 연구에서 제안한 합성 데이터 품질 평가는 실제 자전거도로 모니터링 정확도 향상과 직접적으로 연결된다
ControlNet과 LoRA를 적용해 생성한 영상은 <Fig. 3>에 제시하였다. 동일한 마스크 영상이 주어지더라도 Stable Diffusion 계열 모델마다 스타일과 장면 재현 방식이 달라 다양한 결과가 생성된다. 특히 LoRA가 적용 된 모델은 배경 질감, 조도 변화, 피사체의 디테일 등에서 실제 현장과 더 유사한 표현을 보이며, 원본 영상 의 맥락을 유지한 상태에서 모델 고유의 시각적 특징이 자연스럽게 반영되었다. 우선 SD21로 생성된 영상에 서는 ControlNet 조건이 제대로 반영되지 않는 문제가 나타났다. 이는 본 연구에서 사용한 ControlNet이 Stable Diffusion v1.5 기반으로 훈련된 “lllyasviel/ControlNet” 계열이기 때문이다. SD21은 SD15와 latent 공간 구조가 달라 ControlNet 조건을 정확히 적용할 수 없으며, 그 결과 마스크 기반 구조 제어가 실패하는 장면이 관찰되었다. 그럼에도 불구하고 SD21을 실험에 포함한 이유는, 이 모델이 LoRA 기반 스타일 적응 시 기저 모델 아키텍처의 차이가 합성 품질에 미치는 영향을 확인하기 위한 비교 모델로 기능하기 때문이다. 특히 SD21은 SD15 이후 개발된 최신 모델로 일반적 영상 생성 품질이 더 우수하다고 알려져, 최신 기저 모델 적 용 시 LoRA의 도메인 적응 효과에 대한 검증을 위해 대조군으로 활용하였다. 반대로 RV51은 SD1.5 아키텍 처를 기반으로 추가 미세 조정된 모델이기 때문에 ControlNet과의 구조적 호환성이 높아 안정적인 조건부 합 성이 가능하다. 이러한 이유로 이후 분석에서는 SD15와 RV51의 결과를 중심으로 비교하였다. <Fig. 3>을 보 면, 첫 번째 열에서 SD15는 인물을 잔디 위에 배치한 반면 RV51은 실제 CCTV 환경과 유사하게 인도를 배 경으로 생성하였다. 두 번째 열에서는 실제로 한 명만 있는 보행자를 SD15가 두 명처럼 표현했지만, RV51은 객체 수와 위치를 정확히 유지하였다. 세 번째 열에서도 RV51은 자전거 이용자를 정확히 한 명만 생성해 마 스크 조건을 충실히 반영하였다. 마지막 열에서도 RV51은 조명, 자세, 피사체 외형이 자연스럽고, 전체 장면 일관성 또한 가장 우수하였다. 따라서 RV51은 사실적 렌더링 능력이 가장 뛰어난 모델로, 조명·그림자·질감· 인물 외형 등 시각적 요소의 재현도가 높아 가장 신뢰도 높은 합성 결과를 제공한다는 점을 확인하였다.

<Fig. 3>
Examples of synthesized bicycle-road images using ControlNet and LoRA. (a) original images, (b) mask images, (c) generated images by SD15, (d) generated images by SD21, (e) generated images by RV51.
한편, 기존 연구인 Majer et al.(2024)의 장치 기반 접근은 현장 촬영으로 확보되는 제한된 규모의 실제 영 상에 의존하기 때문에 계절·조도·기상 등 다양한 환경을 충분히 반영하지 못하는 데이터 부족 문제가 존재 한다. 이에 반해 본 연구의 합성 기법은 Stable Diffusion, ControlNet, LoRA를 결합하여 구조 정보를 유지한 상태에서 텍스트 조건만으로 다양한 환경을 재현할 수 있어, 기존 기술이 가진 데이터 수집 한계를 보완하고 보다 확장성 있는 학습 데이터 구축이 가능하다는 점에서 뚜렷한 차별성을 갖는다. 또한 선행 연구들이 자전 거·전동킥보드·보행자 등 객체 간 출현 비율의 불균형과 조도·계절·시점·혼잡도와 같은 환경 다양성 부족을 한계로 지적해온 점을 고려할 때, 본 연구의 합성 기법은 다양한 계절·기상·시간대 장면을 생성함으로써 부 족하거나 편중된 객체 데이터를 보완하고 데이터 세트의 불균형을 완화할 수 있는 실질적 대안을 제시한다.
본 연구에서 제안한 LoRA 기반 스타일 적응 기법의 성능을 검증하기 위해 <Fig. 4>와 같이 다양한 조건 에서 자전거도로 합성 영상을 생성하였다. 먼저 LoRA 어댑터를 적용하지 않은 상태에서 사전학습된 ControlNet과 RV51 모델을 이용해 영상을 생성하였다. <Fig. 4>(a)는 입력 마스크 영상이며, <Fig. 4>(b)는 이 를 기반으로 생성된 결과이다. 생성된 영상은 객체 간 공간 배치와 도로 구조가 비교적 정확하게 유지되어 ControlNet의 구조 조건이 적절히 반영된 것을 확인할 수 있다. 그러나 색감, 조도, 배경 질감 등 스타일 요소 는 실제 CCTV 영상과 차이가 컸으며, 이는 원본 RV51 모델만으로는 현장 스타일을 충분히 재현하기 어렵 다는 점을 보여준다. 다음으로 <Fig. 4>(c)는 마스크 영상이고, <Fig. 4>(d)는 LoRA 어댑터를 ControlNet과 RV51에 결합한 뒤 생성한 결과이다. 이때 “winter, snow, snowy road, cold atmosphere, frosty, bare trees, winter sunlight”와 같은 겨울 관련 키워드를 텍스트 프롬프트에 포함해 계절 특성을 반영하도록 하였다. 그 결과 <Fig. 4>(d)는 적설, 빙판, 낮은 색온도, 앙상한 가로수 등 겨울철 시각적 요소를 자연스럽게 표현하였다. 특 히 도로, 보행자, 자전거 위치 등 구조적 제약 조건은 그대로 유지된 상태에서 텍스트 조건에 따라 스타일만 선택적으로 변화하는 것을 확인할 수 있다. 이러한 결과는 LoRA 기반 미세조정 기법이 구조 정보와 스타일 정보를 효과적으로 분리해 제어할 수 있음을 의미한다. 아울러 본 연구에서 구축된 데이터 세트는 고정된 CCTV로 촬영된 특성상 공간적 다양성보다 계절·기상·조도 등 시간적·환경적 변화가 더 중요한 요소이며, 이 러한 시간적 다양성은 텍스트 프롬프트 조정을 통해 충분히 확장 가능하다. 이에 원본 데이터의 시간대 편중 은 생성 단계에서 다양한 환경 조건을 부여하는 방식으로 보완하였으며, 이를 통해 계절·날씨·시간대 등 다 양한 조건을 현실적으로 생성하여 실제 CCTV 기반 자전거도로 모니터링에서 발생하는 데이터 부족 문제를 완화하고 사계절 전반에 대응 가능한 강건한 학습 데이터를 구축할 수 있을 것으로 기대한다.

<Fig. 4>
Generated bicycle-road images under different conditions. (a) mask images, (b) images generated by ControlNet + RV51 without LoRA, (c) mask images (d) images generated by ControlNet + RV51 with LoRA using the additional prompt
본 연구에서 제안한 영상 합성 기법은 자전거도로의 전반적인 구조와 스타일을 재현하는 데에는 뛰어난 성능을 보였으나, 일부 장면에서는 작은 객체에 대한 표현이 충분히 정교하지 않은 한계가 확인되었다. 이러 한 문제는 크게 두 가지 요인에 기인한다. 먼저, 훈련에 사용된 원본 영상의 해상도가 높지 않아 멀리 있는 보행자나 소형 자전거와 같은 작은 객체의 정보가 제한적으로 제공된다. 이로 인해 마스크 영상에서도 객체 형태가 단순화되며, ControlNet이 이를 세밀하게 해석하기 어려워 형태 왜곡이 발생한다. 또한 Stable Diffusion 계열 모델은 구조적으로 광범위한 장면 합성에 최적화되어 있어, 픽셀 수준의 미세한 묘사 능력에 는 한계가 있다 (Pan et al., 2024). 이러한 특성 때문에 합성 결과에서는 객체 경계가 배경과 섞이거나, 손·발· 핸들바와 같은 인체 및 자전거의 소형 요소가 부정확하게 표현되는 사례가 나타난다. 향후 연구에서는 작은 객체의 세부 충실도를 개선하기 위한 고해상도 입력 제공, 세밀한 구조 인식이 가능한 보조 모듈 설계 등과 같이 보완 전략이 필요하다.
Ⅳ. Conclusion
본 연구는 자전거도로 안전관리를 위한 영상 기반 모니터링 기술의 정확도를 향상시키기 위해 Stable Diffusion, ControlNet, LoRA를 결합한 이중 조건 기반 영상 합성 기법을 제안하였다. 원본 CCTV 영상, 마스 크 영상, 텍스트 설명으로 구성된 데이터세트를 활용해 구조 정보는 ControlNet이 담당하고 현장 스타일 적 응은 LoRA가 수행하도록 설계하였다. 이를 통해 자전거도로 환경을 충실히 반영한 합성 데이터를 효율적으 로 생성할 수 있는 파이프라인을 구축하였다. SD15, SD21, RV51 세 모델을 대상으로 한 실험에서 모든 모델 은 LoRA 적용 후 FID가 감소하고 CLIP-score가 상승하는 일관된 향상 효과를 보였다. 특히 RV51은 사실적 영상 합성 능력이 우수한 모델로, LoRA 적용 시 가장 자연스럽고 구조적으로 일관된 결과를 생성하였다. 겨 울철 환경을 대상으로 한 추가 실험에서도 텍스트 프롬프트만으로 계절이 변화한 장면을 자연스럽게 생성할 수 있어 실제 촬영이 어려운 조건의 데이터를 합성으로 보완할 수 있음을 확인하였다.
다만 합성 영상은 작은 객체의 세부 표현에서 한계를 보였다. 이는 CCTV 영상 해상도의 제약과 Stable Diffusion 계열 모델이 광범위한 장면 합성에 최적화된 구조적 특성을 갖고 있어 작은 객체를 정교하게 묘사 하는 능력이 부족하기 때문이다. 그 결과 작은 객체의 경계가 흐려지거나 인체 일부가 부정확하게 표현되는 사례가 나타났다. 향후 연구에서는 소형 객체 표현을 강화할 수 있는 고해상도 입력이나 보조 모듈 도입 등 의 보완 전략이 필요하다. 또한 본 연구는 합성 영상의 품질 평가를 중심으로 수행되었으며, 후속 연구에서 는 계절 변화에 따른 합성 데이터의 효과를 직접 검증할 계획이다. 구체적으로, 다양한 계절·기상 조건을 반 영하여 생성한 합성 데이터를 이용해 객체 탐지 모델을 학습한 뒤, 실제로 수집되는 계절 변화 영상과 성능 을 비교함으로써 합성 데이터가 탐지 정확도 향상에 미치는 영향을 명확하게 평가할 예정이다. 향후에 이러 한 실험을 통해 계절 변화 환경에서 합성 데이터가 실제 모니터링 성능을 얼마나 개선하는지 구체적인 근거 를 제시하고자 한다.
결론적으로 본 연구는 자전거도로의 구조적 특성과 스타일 특성을 동시에 반영한 합성 데이터를 자동으 로 구축할 수 있는 방법을 제시하였으며, 제안한 접근 방식은 실제 촬영이 어려운 계절 변화, 조도 변화, 악 천후 등 다양한 환경을 재현할 수 있어 데이터 부족 문제를 해결하고 자전거도로 모니터링 인공지능의 성능 향상에 기여할 수 있다. 특히 본 연구에서 구축한 합성 파이프라인은 구조 정보를 유지한 상태에서 환경적 스타일을 분리·제어할 수 있어, 실제 자전거도로 CCTV 환경을 기반으로 한 다양한 장면을 자연스럽게 생성 할 수 있다는 점에서 기존 방법과 차별성을 가진다. 이러한 접근은 데이터 불균형 및 희귀 장면의 부족 문제 를 효과적으로 완화하여 모델의 일반화 성능을 높이는 기반이 되며, 향후 지능형 교통 안전관리 시스템의 데 이터 기반 고도화와 현장 적응성 향상에도 중요한 기여를 할 것으로 기대된다.








