Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.2 pp.37-49
DOI : https://doi.org/10.12815/kits.2025.24.2.37

CNN-Based Detection of Designated Lane Violations through LLM Data Analysis

Yun Sang Kim*, Sanghyun Lee**, Inyoung Kim**, SeungHyeon Jang***, Ilsoo Yun****
*Dept. of Transportation, Pyeongtaek Police Station
**Dept. of D.N.A. Plus Convergence, Ajou University
***KUNINTNS Co., Ltd.
****Dept. of Transportation System Engineering, Ajou University
Corresponding author : SeungHyeon Jang, okokcan@gmail.com
2 December 2024 │ 24 December 2024 │ 24 February 2025

Abstract


The designated lane system plays a crucial role in reducing congestion and preventing traffic accidents by regulating lane usage based on the vehicle types from a traffic flow management perspective. On the other hand, non-compliance remains prevalent despite the drivers' awareness of the regulations, highlighting the need for improved monitoring and enforcement systems. This study proposes a multi-modal algorithm for detecting designated lane violations using a combination of large language models (LLMs) and convolutional neural networks (CNNs). This research collected driving footage from domestic roads, and LLM prompts were defined to extract road image information. A multi-modal CNN model was trained based on this, and its results were analyzed. The proposed model showed higher accuracy than traditional models trained solely on either image or text data. This study is expected to improve road traffic safety by leveraging LLMs to extract information from raw images and using a trained model to detect designated lane violations effectively.



LLM 데이터 분석을 통한 CNN 기반 지정차로제 위반 검지

김 윤 상*, 이 상 현**, 김 인 영**, 장 승 현***, 윤 일 수****
*주저자 : 평택경찰서 교통과 경위
**공저자 : 아주대학교 D.N.A.플러스 융합대학원 석박사통합과정
***교신저자 : ㈜건인티엔에스 대표이사
****공저자 : 아주대학교 교통시스템공학과 교수

초록


지정차로제는 교통류 관리 측면에서 차량 유형별 차로 이용을 규제해 혼잡을 줄이고 교통사고 를 예방하는 데 중요한 역할을 한다. 그러나 많은 운전자들이 이를 알고도 법규를 준수하지 않아 관리와 감시 시스템의 개선 필요성이 제기된다. 본 연구는 지정차로제 위반을 검지하기 위해 시각 거대언어모형(large language model, LLM)과 합성곱 심층신경망(convolutional neural network, CNN) 기반 multi-modal 알고리즘을 제안한다. 연구 과정에서 국내 도로 주행 영상을 수집하고, LLM 프롬프트를 정의해 도로 이미지 정보를 추출하였다. 이를 바탕으로 multi-modal CNN 모델을 학습시켰다. 분석 결과, 제안된 모델은 단순히 이미지나 텍스트만 학습한 비교대상 모델보다 높은 정확도를 보였다. 본 연구는 정보가 없는 이미지에서 LLM을 활용해 정보를 추출 하고, 이를 바탕으로 학습된 모델을 이용하여 지정차로제 위반을 검지함으로써 도로교통 안정성 향상에 기여할 것으로 기대된다.



    Ⅰ. 서 론

    1. 연구의 배경 및 목적

    현대 사회에서 물자와 사람의 이동이 활발해짐에 따라 도로 교통에서 경제적, 사회적, 그리고 안전적인 이 동이 필수적인 요소로 자리 잡고 있다. 이러한 도로 교통의 중요성을 고려하여 교통 흐름의 효율성을 높이고 도로의 안전성을 확보하기 위해 여러 국가들이 다양한 교통 관리 시스템을 도입하고 있다. 그 중에서도 지정 차로제는 특정 유형의 차량이 특정 차로를 사용하도록 제한하는 제도로서 혼잡을 줄이고 교통사고를 예방하 는 데 중요한 역할을 하고 있다(Kim et al., 2012).

    특히, 최근의 교통량 증가와 복잡한 도로 환경은 지정차로제의 필요성을 더욱 강조하고 있으며, 대도시의 출퇴근 시간대 교통 정체 완화와 차량들의 효율적인 도로 이용을 위하여 지정차로제는 중요한 해결책 중 하 나이다(Jeong et al., 2008). 이에, 도로교통법에서 지정차로제가 도입된 이후 관련 조항이 지속적으로 개정 되어 왔으며, 가장 최근 개정은 2018년에 진행되었다. 최근 개정에서는 차로 수에 따른 복잡한 규제 사항에 서 벗어나 왼쪽, 오른쪽 차로에서의 준수사항으로 간소화하여 운전자들이 규제 내용을 쉽게 이해하도록 하 였다. 최근에는 전기차 및 자율주행차와 같은 새로운 유형의 차량이 많이 등장하고 있고, 이에 따라 기존의 지정차로제를 재검토하고 현대 교통 환경에 맞게 수정하는 작업은 지속적으로 이루어져야 한다.

    지정차로제에 관한 설문조사에 따르면, 68%의 운전자가 제도를 인지하고 있음에도 불구하고 이를 준수하 지 않는 것으로 나타났다(Lee et al., 2016). 지정차로제의 효과적인 운영을 위해서는 이를 지원하는 체계적인 관리 및 감시 시스템이 필수적이다. 그러나 현재의 단속 방식은 CCTV 영상 모니터링이나 현장 단속 등 인 력 중심으로 이루어져 있어 시간과 비용 측면에서 비효율적이다. 게다가 단속 시스템이 일부 도로에만 설치 되어 있어 지정차로제 준수율이 구간별로 상이할 수 있으며, 차량 종류를 정확히 구분하는 데에도 여러 가지 문제가 발생하고 있다. 이러한 한계는 인공지능(Artificial Intelligence, AI)을 활용한 지정차로 위반 감지 시스 템을 통해 해결할 수 있다. 특히, 고도화된 인공지능이 아니라 단순한 정보 전달을 목적으로 하는 시스템을 구축하고 이를 통합적으로 검증할 수 있는 체계를 마련한다면, 기존 감시 시스템의 한계를 극복하며 보다 정 교한 위반 감지와 데이터 분석을 실현할 수 있을 것이다(Lee et al., 2016).

    이와 같은 이유로, 본 논문에서는 최신 대형 언어 모델(large language model, LLM)과 심층신경망(convolutional neural network, CNN)을 활용하여 지정차로 위반을 효율적으로 감지할 수 있는 새로운 기술적 접근을 제안하고자 하였다. 이를 위해 LLM을 이용해 이미지를 분석하여 필요한 프롬프트(prompt)를 선정하고, 그 내용을 토대로 CNN를 학습시켜 지정차로 위반에 관하여 참 거짓을 밝혀내도록 하였다. 이러한 접근 방법을 다양한 도로와 차량 유형에 보다 유연하게 대응할 수 있는 장점이 있는 LLM을 이용하여 직관적이고, 효율적으로 지정차로제 위반 검지를 할 수 있을 것으로 보인다. 결과적으로, 본 연구는 이러한 기술적 접근을 통해 현대 교통 시스템에서 지정차로제가 더욱 효과적으로 작동할 수 있는 방안을 모색하는 데 목적을 둔다.

    2. 연구 범위 및 절차

    본 연구에서 사용한 데이터의 시간적 범위는 2021년부터 2022년이며, 공간적 범위는 국내 고속도로이다. Visual-LLM 모델은 ChatGPT-4o를 사용하였다(Achiam et al., 2023). 본 연구에서 사용된 데이터셋의 구조는 차량, 차선, 위반 세가지 클래스로 구성된다. 연구의 수행절차는 <Fig. 1> 과 같다.

    <Fig. 1>

    Flow of research

    KITS-24-2-37_F1.gif

    Ⅱ. 관련 이론 및 연구 고찰

    이 장에서는 본 연구에서 다루는 지정차로제에 관하여 알아보고, 연구에서 활용하고자 하는 LLM과 multimodal CNN에 관하여 연구를 고찰하고자 한다.

    1. 관련 이론 고찰

    1) 지정차로제

    도로교통법에 따른 지정차로제는 도로의 안전성과 효율성을 높이는 데 필수적이다. 지정차로제는 다양 한 차량 유형과 속도 특성에 따라 도로의 각 차로를 특정 차량에게 할당함으로써 교통 혼잡을 완화하고, 교 통사고 위험을 줄이며, 도로 용량을 최대한 활용할 수 있도록 한다. 예를 들어, 고속도로에서 대형 화물차와 승용차가 동일 차로를 사용할 경우 속도 차이로 교통사고 위험이 증가할 수 있으나, 지정차로제를 통해 이를 효과적으로 방지할 수 있다.

    또한, 지정차로제는 교통 흐름을 개선하고 도로 용량 활용을 최적화한다. 교통 흐름 이론에 따르면, 도로 상에서 원활한 흐름을 위해 각 차량군의 속도 차이가 최소화 되어야 한다(Ma et al., 2012). 지정차로제는 속 도가 다른 차량이 동일 차로에서 혼합되지 않도록 하여, 차로 간 상호작용으로 인한 급제동 및 차선 변경을 줄이고, 전체 교통 흐름을 안정화 시킨다. 이는 차선 변경을 줄이고 예측 가능한 교통 흐름을 유지하게 해, 안전성과 효율성을 동시에 확보한다. 따라서 지정차로제의 적절한 도입은 도로 교통 개선에 큰 이점을 제공 한다. 또한 차선 변경으로 인한 접촉 사고, 후미 추돌 등의 사고 위험도 낮출 수 있으며, 특히 고속도로와 같 은 장거리 주행 도로에서 중요한 안전 요소로 작용할 수 있다.

    지정차로제는 차로별 주행가능한 차량이 세세하게 나뉘어져 있기 때문에 운전자가 도로교통법에서 제 시하는 규제 내용에 관하여 자세히 알기 어렵다는 단점이 있었다. 때문에, 우리나라는 지정차로제의 법안 내 용을 수정하여 교통 현실에 맞는 합리적인 법안을 제시하였다. 최신 개정된 주행차로 통행방법은 <Table 1> 과 같다.

    <Table 1>

    Designated Lane System: Lane-Specific Driving Rules

    Road type Accessible vehicle
    Highway Left lane Passenger car / Compact car / Subcompact car / Mid-size car / Van
    Right lane Large passenger vehicle Cargo truck Special-purpose vehicle / Construction vehicle Two-wheeled vehicle / Motorized bicycle
    Expressway two-lane expressway 1st lane Passing lane:
    However, vehicles may travel in this lane if road conditions, due to increased traffic volume, necessitate speeds below 80 km/h.
    2nd lane All vehicle
    Three or more lanes expressway 1st lane Passing lane for vehicles traveling in the left lane: However, vehicles may use this lane if, due to increased traffic volume and road conditions, maintaining a speed below 80 km/h is unavoidable.
    Left lane Passenger car / Compact car / Subcompact car / Mid-size car / Van
    Right lane Large passenger vehicle / Cargo truck / Special-purpose vehicle / Construction vehicle

    2) LLM

    LLM은 최근 자연어 처리(natural language processing, NLP) 기술의 연구 결과 중 하나로, 다양한 산업 및 연구 분야에서 널리 사용되고 있다. 특히 인간 언어의 이해 및 생성에서 큰 혁신을 이루어내며, 대표적으로 GPT 시리즈(Achiam et al., 2023), BERT(Devlin, 2018), T5(Colin, 2020) 등이 있다. 이러한 LLM은 대규모의 텍 스트 데이터를 학습하여 다양한 언어 기반 작업에서 뛰어난 성능을 보이며, 창의적 응답 생성, 자연스러운 대화 시스템 구축 등 기존 모델의 한계를 넘어서는 역할을 수행하고 있다.

    LLM의 발전은 딥러닝 기술의 발전과 밀접한 연관이 있으며, 그 중심에는 transformer 아키텍처가 있다. Transformer는 self-attention 기법을 활용해 문맥적 중요성을 효율적으로 파악하고, 순환신경망(recurrent neural network, RNN), 장단기 메모리(long short-term memory, LSTM)과 같은 순차적 모델보다 뛰어난 병렬 처리 성 능을 갖추고 있다(Vaswani, 2017). LLM은 방대한 양의 비지도 학습 데이터를 바탕으로 언어 패턴을 학습한 후, 소규모 지도 학습 데이터로 특정 작업에 맞게 조정하는 사전 학습(pre-training)과 미세 조정(fine-tuning) 방식을 통해 다양한 NLP 작업에 유연하게 적용할 수 있는 범용 모델을 제공한다.

    3) Multi-modal CNN

    Multi-modal CNN은 다양한 형태의 데이터를 동시에 처리하여 결합된 정보로부터 유의미한 결과를 도출하 는 딥러닝 기법이다. 이 모델은 이미지, 텍스트, 음성, 센서 데이터 등 서로 다른 데이터 유형(modality)을 처 리하도록 설계되어 있으며, 자율주행차분야에서 카메라 이미지, LiDAR, GPS, 센서 데이터를 함께 활용하여 더 정확한 결정을 내리는 등의 역할을 한다(Li et al., 2022).

    기존 CNN은 이미지 처리에 특화된 딥러닝 모델로, 이미지의 공간적 구조를 유지하면서 특징을 효과적으로 추출할 수 있다. 그러나 현실 세계의 다양한 문제는 여러 유형의 데이터를 통합해야 하는 경우가 많다. Multi-modal CNN은 각 데이터 유형에서 독립적으로 추출한 특징들을 결합하여 더 높은 수준의 표현을 형성하 는 특징 융합(feature fusion) 개념을 바탕으로 한다. 특징 융합은 정보 통합 시점에 따라 초기 융합(early fusion), 중간 융합(intermediate fusion), 후반 융합(late fusion) 방식으로 나눌 수 있으며, 이러한 방식에 따라 모달리티 정보가 결합되는 위치가 달라진다(Boulahia et al., 2021).

    Multi-modal CNN의 강점은 다른 데이터 유형에 담겨진 정보를 상호 보완적으로 활용할 수 있다는 점이다. 예를 들어, 비디오 데이터는 시간적 흐름을 포착할 수 있지만 텍스처(texture) 정보를 잘 포착하지 못할 수 있 으며, 이미지 데이터는 텍스처를 잘 반영하지만 시간적 요소가 부족할 수 있다. 이러한 상호 보완적 특성 덕 분에, 비디오와 이미지 모달리티를 결합하여 더 강력한 예측 성능을 달성할 수 있다. 또한, 자율주행과 같은 분야에서는 LiDAR 센서와 카메라 이미지 데이터를 함께 사용하여 거리 및 깊이 정보를 결합함으로써 더 높 은 정확도의 결과를 얻을 수 있다.

    이론적으로 multi-modal CNN은 다른 데이터 유형간 상호작용을 모델링하여 단일 데이터 유형 모델이 제 공할 수 없는 풍부한 정보를 학습할 수 있게 한다. 각 데이터 유형은 독립적으로 학습된 후, 융합하거나 병 렬적 구조로 동일 신경망 내에서 처리되어 통합된 특성을 학습하게 된다. 이러한 데이터 유형 통합 이론은 단일 데이터 유형 모델의 정보 손실 문제를 보완하고, 다양한 데이터 유형의 고유 특성을 최대한 활용하여 모델의 예측 정확도와 강건성을 높이는 역할을 한다. <Fig. 2>는 multi-modal 모델의 예시이다(Ma et al., 2015).

    <Fig. 2>

    Example of multi-modal model

    KITS-24-2-37_F2.gif

    2. 관련 연구 고찰

    Chen et al.(2021)은 물리 센서 데이터 혹은 소셜 미디어 데이터와 같은 다중 데이터 유형(multi-modality) 데 이터를 활용한 생성적 적대신경망(generative adversarial network, GAN) 기반 딥러닝 방법을 제안하여 교통사 고를 탐지하였다. 기존 연구들이 주로 단일 데이터 유형에 집중하는 반면, 이 연구에서 제시한 방법은 상호 보완적으로 작용할 수 있는 다양한 multi-modal 데이터를 활용하였다. 또한, 빅데이터 응용에서 라벨링된 데 이터가 매우 제한적인 문제를 해결하기 위해, multi-modal GAN 모델을 반지도학습 구조로 확장하여 교통사 고를 특징지었다. 이 모델은 샌프란시스코 베이 지역에서 4개월 동안 수집된 교통 검지 데이터와 소셜 미디 어 데이터를 포함한 대규모 데이터셋을 활용하였다. 결과적으로 제시한 모델이 교통사고를 추출하고 분류하 는데 있어 우수함을 증명하였다.

    Zarzà et al.(2023)은 교통 혼잡 증가로 인한 교통사고 예측이 도시 계획과 공공안전에 있어 매우 중요한 과 제임을 인지하고, 현재의 딥러닝 기법으로 교통사고를 예측하는 것이 레벨 4 및 레벨 5 자율주행 시스템을 강화하는데 얼마나 효과적인지를 포괄적으로 분석하였다. 전체적인 대형 multi-modal 모델과 딥러닝 및 심층 확률 프로그래밍을 결합함으로써, LSTM 모델과 같은 시계열 모델들과 특징 중요도 평가에서 성능과 활용도 를 개선하는 방법을 제시하였다. 결과적으로, 저자들은 이 연구를 통해 데이터 기반 의사결정이 더욱 안전하 고 스마트한 도시를 구현하기 위한 방향성을 제시함을 시사하였다.

    Han et al.(2024)은 교통상황 예측에 적용 가능한 시나리오를 확장하기 위하여 도로 위 상황이 교통 패턴에 미치는 영향을 모델링하고, multi-modal 입력을 사용하는 교통상황 예측 문제를 제안하였다. 저자들은 교통상 황의 다양성과 희소성, 데이터 부족으로 인한 문제를 해결하기 위해 텍스트 데이터를 사용하여 상황의 다양 한 특성을 설명하고자 하였으며, 텍스트와 교통 상황 데이터를 같이 학습하면서 multi-modal 교통상황 예측 모델을 제안하였다. 또한 LLM 기반의 상황 설명 텍스트 생성 파이프라인 모델을 설계하여 multi-modal 교통 상황 예측 데이터셋을 구축하였다.

    Dinh et al.(2024)은 도시 감시 시스템에 대한 최근 교통 비디오 수집 및 분석이 대부분 도로 위 이벤트가 발생하는 구간을 파악하는 데 집중하여, 이벤트 내 모든 관심 대상의 행동과 상황을 구체적으로 설명하는 데 부족함이 있음을 파악하였다. 저자들은 차량의 에고(ego) 카메라 뷰를 위한 새로운 multi-modal 밀집 비디오 캡션 모델인 TrafficVLM을 제안하여 비디오 내 출력된 이벤트를 공간적, 시간적 분석 수준에서 모델링하고, 사건의 여러 단계에서 차량과 보행자에 대한 세밀한 설명을 생성하였다. 또한 TrafficVLM의 생성 출력을 제 어하는 조건부 구성 요소와 학습 능력을 향상시키기 위한 멀티태스크 파인튜닝 방식을 제안하였다. 실험 결 과 TrafficVLM은 차량 및 오버헤드 카메라 뷰에서 모두 우수한 성능을 보임을 제시하였다.

    3. 연구의 차별성 도출

    기존에 수행된 관련 연구를 고찰한 결과, 빅데이터 기반 학습된 visual LLM을 통하여 도로 위 이벤트를 분류하고, 이벤트를 구체적으로 설명하는 등의 역할을 진행하였다. 본 연구도 선행 연구와 비슷하게 이미지 를 입력받아 visual LLM을 통해 분석을 진행한다. 그러나 본 연구는 추가적으로 multi-modal CNN 학습 방법 을 도입하여 기존 단순히 visual LLM만을 활용하여 이미지를 분석하는 것보다 모델에 대한 피드백을 빠르게 반영하여 모델을 유동적으로 학습할 수 있다는 장점을 보인다.

    본 연구에서는 도로 위 이미지를 분석하여 지정차로제 법규를 위반하는 검지하는 것을 목적으로 하는 AI 알고리즘을 개발하고자 한다. Visual LLM을 통해 1차 이미지 분석을 수행한 후 정보를 추출하고, 추출된 정 보는 multi-modal 방식의 CNN 알고리즘에 전달된다. 이렇게 모델을 학습시키는 것은 단순히 이미지만을 학 습하는 기존 CNN보다 더 높은 학습 성능을 보일 것으로 기대된다. 때문에, 교통 분야에서 활용하기 어려웠 던 visual LLM을 효과적으로 활용하였다는 점에서 차별점이 있다. 최종적으로, 단순 이미지만을 학습한 VGG-19와 ResNet-34를 visual LLM을 통해 추가 정보를 같이 학습한 mutli-modal모델과 비교하여 우리가 제 시한 모델이 성능이 높음을 제시하는 것을 목적으로 한다.

    Ⅲ. 연구 방법론

    연구 방법론은 데이터 수집, 프롬프트 정의 및 데이터 전처리, 모델 학습 순으로 총 3단계에 걸쳐 진행된 다. 최종적으로 도로 위 지정차로제 위반을 검지하는 것을 목표로 한다.

    1. 데이터 수집

    연구에 활용한 데이터는 AI 오픈 데이터셋을 활용할 수 있는 AI-hub(https://aihub.or.kr/)의 ‘차로 위반 영상 데이터’로, 2021년부터 2022년까지 수집된 국내 도로를 대상으로 한다. 본 연구에서 사용된 데이터셋의 레이 블은 차량, 차선, 위반 세 가지 분류로 나뉘어져 있다. 연구에서는 이 데이터를 검수하여 연구에 활용할 수 있도록 데이터를 나누었으며, 최종적으로 visual LLM이 얼마나 이미지를 잘 분석하였는지를 평가하는데 사 용한다.

    수집한 데이터의 세부 레이블은 <Table 2>와 같다. 차량 종류는 승용자동차(passenger car), 승합자동차 (bus), 화물자동차(truck), 기타차량으로 분류된다. 기존 지정차로제의 경우 차량의 종류가 세부적으로 나뉘어 져 있지만, LLM 학습 비용이 크고, 모델의 결과를 잘 확인할 수 있도록 특성이 잘 드러나는 네 가지 종류로 제한하여 라벨링을 진행하였다. 해당 차량으로 차선 종류는 백색, 청색, 황색으로 나뉘며, 위반 여부는 위반 및 정상으로 나뉘어져 이진 분류한다. 해당 데이터는 정의한 프롬프트에 의하여 visual LLM의 분석 대상이 된다.

    <Table 2>

    Data label introduction

    Class Label Label number
    Vehicle class Passenger car 0
    Bus 1
    Others 2
    Truck 3
    Lane color White 0
    Blue 1
    Yellow 2
    Driving status description Normal driving 0
    Lane changing 1

    2. 프롬프트 정의

    효율적인 이미지 분석을 위하여 visual LLM을 프롬프트를 통해 학습한다. 프롬프트를 정의하고 이미지를 분석하여 얻고자 하는 정보는 이미지 내 도로의 차로수, 차량 유형, 차선 유형, 도로 위 상황 설명 네 가지로, 각 상황을 모델이 이해할 수 있도록 풀어서 설명하고자 한다. 각 레이블에 따른 프롬프트는 <Table 3>과 같 다. 프롬프트 학습을 위하여 사용한 예시 데이터는 20장으로, 10장과 20장으로 나누어 학습을 진행하였다. <Fig. 3>는 LLM을 학습하기 위한 전체적인 플로우로, 이미지를 visual LLM에 학습시키고, 차로수, 차량 종 류, 차선의 색깔, 차선 위반 상황을 LLM에 인지시킨다. 이 때, LLM은 이미지를 바라보는 관점에서 가장 가 까운 차량을 대상으로 한다.

    <Table 3>

    Prompt content

    Prompt class Prompt
    Base prompt The analysis focuses on the vehicle closest to the observer in the image.
    Vehicle type Passenger car A small vehicle capable of carrying up to 10 passengers.
    Bus A large vehicle capable of carrying more than 10 passengers.
    Truck A vehicle equipped with a cargo space designed for transporting goods.
    Others Vehicles designed for purposes other than passenger or cargo transportation.
    Number of lanes The number of lanes is determined by the total count of solid or dashed lines in the image plus one. The wide road section without lanes at the edge is considered the shoulder.
    Lane color Lanes are classified into blue, white, or yellow based on their markings.
    Driving status description Normal The vehicle is fully within its lane.
    Lane changing When 30% or more of the vehicle's body has crossed into a different lane.
    <Fig. 3>

    Using of LLM prompt

    KITS-24-2-37_F3.gif

    3. Multi-modal 모델 학습

    Python 코드를 이용하여 VGG-19 및 ResNet-34 모델을 기반으로 하여 변형한 학습 모듈을 구현하였다. 해 당 모델의 구조는 <Fig. 4> 와 같다. Visual LLM을 통해 이끌어낸 정보를 바탕으로 레이블만 있는 숫자 배열 로 해당 데이터의 정보를 전처리한다. 이후 VGG-19 기반 변형 모델을 이용하여 하나의 feature map인 D_F를 추출해낸다. 이미지 또한 마찬가지로 ResNet-34 모델 기반 변형 모델을 이용하여 이미지를 학습한다. 이 때, 이미지 자체의 주요한 특징점들을 학습하고, 이미지 feature map 인 I_F를 추출하여 최종적으로 두 feature map을 결합하는 것으로 모델을 구성한다.

    <Fig. 4>

    Multi-modal model algorithm

    KITS-24-2-37_F4.gif

    4. 알고리즘 학습 및 평가

    수집한 데이터셋을 바탕으로 학습을 진행한다. 앞서 프롬프트 학습을 위한 20장의 이미지를 포함하여 multi-modal CNN 학습을 위해 데이터셋을 총 1,500장을 구축하였고, 이 때 학습 데이터셋의 비율은 train : valid : test 비율이 7:2:1이다. 모델의 학습에는 train set이 사용되며, valid set과 test set은 학습된 모델의 평가 에 활용된다.

    모델을 학습 할 때, loss 함수는 binary_cross-entropy loss 함수를 활용하였다. 모델의 목적이 분류 대상이 위 법인지 아닌지만을 판단하기 위함이기 때문에, cross-entorpy loss 함수를 활용하는 기존 다중 분류와는 다르 게 binary loss 함수를 활용하여 모델을 학습하였다. 최적화 함수는 학습속도가 빠르고, 안정적인 학습을 할 수 있는 Adam optimizer를 활용하였다. 마지막으로, visual LLM의 정보 없이 학습한 상황과 같이 활용하여 학 습한 상황을 나누어 CNN 중 ResNet과 VGGNet으로 학습한 모델의 결과와 제안하는 모델의 성능을 비교하고 자 한다.

    연구에서 비교 대상 모델은 ResNet과 VGGNet으로, ResNet의 경우 residual learning이라는 개념을 도입하여 모델의 층수가 많아져도 성능이 감소하지 않도록 설계된 모델이다. 입력과 출력 간 skip connection을 추가해 학습 과정에서 기울기 소실 문제를 해결하였고, 이를 통해 더 깊은 네트워크를 안정적으로 학습할 수 있다는 장점이 있다. 대표적으로 ResNet-34, ResNet-50이 있으며 본 연구에서는 비교 모델로 ResNet-34를 사용하였다 (He et al., 2016).

    VGGNet은 간단하고 규칙적인 구조를 가진 모델로, 층이 깊어져도 간단한 모델 디자인을 유지하기 때문에 입력 데이터의 세부적인 특징을 잘 추출한다는 장점이 있다. 때문에 구현이 쉽고 성능이 좋아 이미지 분류와 같은 비전 문제에 활용된다. 대표적으로 VGG-16, VGG-19가 있으며 본 연구에서는 VGG-19를 비교모델로 사 용하였다(Simonyan, 2014).

    Ⅳ. 학습 및 성능 평가

    1. 결과 분석

    1) Visual LLM

    정의한 프롬프트를 통해 Visual LLM으로 이미지를 분석한 결과는 <Table 4>와 같다. 앞서 언급한 대로 4 가지 레이블로 나누어 평가를 진행하였다. 연구에서는 10개의 data로 사전학습한 것과 20개의 data로 사전학 습한 결과를 나누어 제시하였는데, 두 유형 모두 차선 유형과 같이 정확히 사진으로 보이는 경우에는 높은 정확도가, 상황 유형과 같이 세부적으로 상황을 정의하여 분석해야하는 부분은 낮은 정확도를 보임을 확인 할 수 있다. 10개의 data로 사전학습한 것과 20개의 데이터로 사전학습 하였을 때 20개의 데이터로 사전학습 한 결과가 성능이 소폭 상승했음을 확인할 수 있었다.

    <Table 4>

    Accuracy of Data Analyzed Using Visual LLM(%)

    Label type Accuracy
    10 data Number of lanes 2-lane 3-lane 4-lane 5-lane 97.7
    99.2 98.4 98.4 94.6
    Type of vehicle Passenger car Bus Truck Others 95.0
    99.2 96.0 96.2 88.4
    Type of lane White Blue Yellow 99.9
    100.0 100.0 99.6
    type of situation Normal Lane changing 91.1
    97.8 84.4
    20 data Number of lanes 2-lane 3-lane 4-lane 5-lane 98.0
    99.2 98.4 98.4 96.0
    Type of vehicle Passenger car Bus Truck Others 95.5
    99.2 97.2 96.8 88.8
    Type of lane White Blue Yellow 99.9
    100 100 99.6
    type of situation Normal Lane changing 92.5
    98.3 84.6

    2) Multi-modal 모델 학습 성능

    Visual LLM을 통해서 추출된 데이터를 이용하여 학습한 multi-modal CNN 모델의 학습 결과는 <Table 5> 와 같다. 비교는 네 가지 상황으로 나누어 진행하였고, 이미지뿐 아니라 상황의 추가적인 정보를 같이 학습 하는 것이 보다 정확도가 높은 결과를 도출해 냄을 알 수 있다. 또한, Visual LLM을 통해 추출한 정보와 기 존의 정답 레이블 정보로 나누어 두 번 학습한 결과, 정답 레이블이 미세하게 더 정확도가 높았음을 확인할 수 있다, 이는 이미지에 대한 정보가 없을 시 Visual LLM을 활용하여 정보를 추출하는 것이 의미가 있음을 나타낸다.

    <Table 5>

    Multi-modal model evaluation(%)

    Model Using data Violated Non violated Precision Accuarcy Recall F1-score
    ResNet-34 Image 72.2 69.5 70.85 70.4 64.6 67.6
    VGG-19 Target label 61.7 61.9 61.8 61.8 65.9 63.8
    Using visual LLM label(10 data) 58.3 60.5 59.4 59.0 66.3 62.7
    Using visual LLM label(20 data) 58.6 61.0 59.8 59.4 66.3 62.9
    Proposed model Image + Target label 77.1 86.1 81.6 80.1 63.2 71.2
    Image + Using visual LLM label(10 data) 75.7 85.6 80.7 79.0 63.8 71.2
    Image + Using visual LLM label(20 data) 76.1 85.6 80.9 79.3 63.6 71.2

    Ⅴ. 결론 및 향후 연구 과제

    1. 결론

    본 연구에서는 지정차로제를 위반하는 상황을 검지하기 위해 이미지를 visual LLM을 통해 분석하고, 분석 한 데이터를 바탕으로 multi-modal CNN 모델을 학습하였다. 데이터는 오픈 데이터셋을 활용하였고, 학습에 는 도로 위 주행 이미지를 활용하였으며, 위반 상황을 검지하기 위해 서로 다른 유형의 데이터를 같이 학습 하는 모델 방식을 제시하였다. 이 때, 유형이 다른 두 데이터를 동시에 학습하기 위하여 각 데이터에 다른 유형의 모델을 구축하고 알고리즘 학습을 진행하였다. 결과적으로, 우리의 연구에서 기존 이미지 만으로 지 정차로를 학습하는 것은 어려운 일이지만, 데이터 상황 설명이 추가된다면 학습 성능이 오르고, 이를 visual LLM이 충분히 도울 수 있음을 제시하였다. 이와 같은 연구는 향후 교통 AI 분야에서 visual LLM을 효과적 으로 활용하는 데 있어 긍정적인 영향을 줄 수 있을 것으로 보이며, 추후 도로 위 지정차로 위반 검지를 통 해 더 안정적인 교통 시스템을 구축하는 데 도움을 줄 수 있을 것으로 보인다.

    2. 연구의 시사점 및 향후 연구 과제

    본 연구는 다음과 같은 점을 시사한다. 첫째, 본 연구에서는 이미지에서 visual LLM을 통해 분석한 이미지 를 토대로 AI 모델을 학습하였다. 결과적으로 정의된 프롬프트를 통해 학습한 visual LLM은 정답에 가까운 이미지 분석을 해 냈으며, 이는 잘 정의된 LLM만 있다면 이미지만으로 향후 레이블을 추출하는 데 큰 도움 을 줄 수 있을 것이다. 때문에, LLM은 교통 뿐 아니라 다른 많은 연구에서도 데이터 분류 작업을 하는 데 있어 긍정적인 역할을 할 수 있음을 시사한다.

    둘째, 본 연구의 목적은 교통 법규 위반을 검지하는데 있어 효과를 높이는 데 있기 때문에, 그 점에 있어 긍정적인 결과를 도출했다고 할 수 있다. 기존 지정차로제 위반을 검지하기 위해서는 CCTV를 통해 육안으로 검지하여야 했고, 때문에 어려움이 있었다. 그러나 우리와 같은 연구를 통하여 비교적 수월하게 지정차로제 위반 검지를 할 수 있을 것이고, 이는 도로 안전에 직결되어 더 나은 교통 시스템을 구축하는데 이바지한다.

    셋째, 유형이 다른 데이터의 융합은 단순히 하나의 데이터만을 학습하는 것보다 더욱 학습 효과가 큰 경 향을 보인다. 본 연구에서는 유형이 다른 이미지와 배열 데이터를 적절히 조합하여 학습을 진행하는 multi-modal 방식을 활용하여 결과를 제시하였고, 이는 정보가 넘쳐나는 현대 도로에서 다양한 데이터 조합 을 만들어 낼 수 있다는 것을 의미한다. 따라서 우리의 연구는 인프라, 상황 정보 등 다양한 데이터와 이미 지 데이터를 융합하여 교통 AI 연구 측면에서 긍정적인 연구 성과를 제시할 수 있을 것이라는 점에서 의미 가 있다.

    본 연구는 다음과 같은 한계점을 가진다. 본 연구의 모델은 결과적으로 정확도가 80% 이하로, 모델 자체 의 정확도가 비교적 떨어진다는 점이다. Visual LLM의 결과 또한 100%의 정확도를 내지 못하였고, 이는 정 답 레이블로 학습한 결과와 비교하였을 때 다소 성능이 떨어지는 모습을 보이게 하였다. LLM의 경우, 이미 지 내 상황 설명에 대하여 인지하는데 어려움이 있었기 때문에, 향후 기존의 단일 장면 데이터가 아닌 연속 장면 데이터(sequence data)를 이용하여 LLM이 이미지의 상황을 비교적 파악하기 쉽게 모델을 구축하고자 한 다. 또한, 기존 LLM 학습을 위한 비용이 크기 때문에 LLM 학습의 한계가 있었다. 추후 LLM 학습 비용을 최적화하고 충분한 비용을 활용하는 등의 연구를 지속하려 한다. 이와 같은 연구는 LLM 측면에서 뿐 아니 라 multi-modal CNN 중 이미지 데이터 학습 측면에서도 더 높은 성능을 발휘할 수 있을 것이다.

    앞으로 LLM은 범용성이라는 장점 덕분에 다양한 분야에서 활용이 될 것이므로, 교통 측면에서도 다양한 연구가 진행될 것이다. 다만, LLM을 구축하는데 있어 아주 큰 데이터량이 필요하기 때문에, LLM을 활용하 기 위해선 환경을 구축하는 것이 우선적인 업무가 될 것이다. 지속하여 LLM 연구를 발전하고, 다양한 모델 과 융합하여 긍정적인 연구 결과를 낸다면, 향후 교통 분야 연구에 있어 저렴하고 효율적인 시스템을 구축하 는데 많은 기여를 할 수 있을 것이다.

    ACKNOWLEDGEMENTS

    This work is supported by the Korea Agency for Infrastructure Technology Advancemen(KAIA) grant funded by the Ministry of Land, Infrastructure and Transport (Grant 22AMDP-C162184-02).

    Figure

    KITS-24-2-37_F1.gif

    Flow of research

    KITS-24-2-37_F2.gif

    Example of multi-modal model

    KITS-24-2-37_F3.gif

    Using of LLM prompt

    KITS-24-2-37_F4.gif

    Multi-modal model algorithm

    Table

    Designated Lane System: Lane-Specific Driving Rules

    Data label introduction

    Prompt content

    Accuracy of Data Analyzed Using Visual LLM(%)

    Multi-modal model evaluation(%)

    Reference

    1. Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L. and McGrew, B. ( 2023), “Gpt-4 technical report”, arXiv preprint arXiv:2303.08774.
    2. Boulahia, S. Y., Amamra, A., Madi, M. R. and Daikh, S. ( 2021), “Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition”, Machine Vision and Applications, vol. 32, no. 6, p.121.
    3. Chen, Q., Wang, W., Huang, K., De, S. and Coenen, F. ( 2021), “Multi-modal generative adversarial networks for traffic event detection in smart cities”, Expert Systems with Applications, vol. 177, p114939.
    4. De Zarzà, I., De Curtò, J., Roig, G. and Calafate, C. T. ( 2023), “LLM multimodal traffic accident forecasting”, Sensors, vol. 23, no. 22, p.9225.
    5. Devlin, J. ( 2018), “Bert: Pre-training of deep bidirectional transformers for language understanding”, arXiv preprint arXiv:1810.04805.
    6. Dinh, Q. M., Ho, M. K., Dang, A. Q. and Tran, H. P. ( 2024), “Trafficvlm: A controllable visual language model for traffic video captioning”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.7134-7143.
    7. Han, X., Zhang, Z., Wu, Y., Zhang, X. and Wu, Z. ( 2024.10), “Event Traffic Forecasting with Sparse Multimodal Data”, In Proceedings of the 32nd ACM International Conference on Multimedia, pp.8855-8864.
    8. He, K., Zhang, X., Ren, S. and Sun, J. ( 2016), “Deep residual learning for image recognition”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp.770-778.
    9. Jeong, C. Y., Kwon, K. B. and Jeong, C. W. ( 2008), “A Study on the Operational Improvement of Designated Lane at Highway with 4 lanes-A Viewpoint of Traffic Accidents Prevention-”, The Journal of Police Science, vol. 8, no. 2, pp.89-111.
    10. Kim, J. H., Lee, S. B., Kim, D. H. and Hong, J. Y. ( 2012), “The Relationship between Violation of Designated Lane Usage and Accident Severity on Freeways”, Journal of Korean Society of Transportation, vol. 30, no. 3.
    11. Lee, S. J., Lee, C. K., Lee, Y. J. and Kim, Y. M. ( 2016), “Study on the improvements for Managerial Efficiency of the Designated Lane Law”, The Journal of The Korea Institute of Intelligent Transport Systems, vol. 15, no. 2, pp.85-94.
    12. Li, Y., Yu, A. W., Meng, T., Caine, B., Ngiam, J., Peng, D. and Tan, M. ( 2022), “Deepfusion: Lidar-camera deep fusion for multi-modal 3d object detection”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.17182-17191.
    13. Ma, C. Y., Yoon, T. K. and Kim, B. K. ( 2012), “A Study on the Spacing Distrubution based on Relative Speeds between Vehicles-Focused on Uninterrupted Traffic Flow-”, Int. J. Highw, vol. 14, no. 2, pp.93-99.
    14. Ma, L., Lu, Z., Shang, L. and Li, H. ( 2015), “Multimodal convolutional neural networks for matching image and sentence”, In Proceedings of the IEEE International Conference on Computer Vision, pp.2623-2631.
    15. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W. and Liu, P. J. ( 2020), “Exploring the limits of transfer learning with a unified text-to-text transformer”, Journal of Machine Learning Research, vol. 21, no. 140.
    16. Simonyan, K. ( 2014), “Very deep convolutional networks for large-scale image recognition”, arXiv preprint arXiv:1409.1556.
    17. Vaswani, A. ( 2017), “Attention is all you need”, Advances in Neural Information Processing Systems.

    저자소개

    Footnote