Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.25 No.2 pp.179-192
DOI : https://doi.org/10.12815/kits.2026.25.2.179

Prompt Design and Quality Analysis for Automated Captioning of Autonomous Driving Data in an On-Premises VLM Environment

Sojeong Lim*, Juwan Kim**, Jeong-Woo Lee***, JeongDan Choi****
*Autonomous Driving Intelligence Research Section, ETRI
**Autonomous Driving Intelligence Research Section, ETRI
***Autonomous Driving Intelligence Research Section, ETRI
****Artificial Intelligence Robot Research Division, ETRI
Corresponding author : Juwan Kim, juwan@etri.re.kr
23 March 2026 │ 14 April 2026 │ 20 April 2026

Abstract


The acceleration of large-scale driving data collection driven by advances in AI-based autonomous driving technology has heightened the importance of data curation technology for efficiently managing vast amounts of training data. In particular, while manual captioning is expensive and inconsistent, leading to a growing demand for AI-based automation, the use of Vision-Language Models (VLMs) that can be deployed in on-premises environments rather than via cloud APIs is attracting attention as an alternative because of data security and cost concerns. In this study, a four-stage prompting strategy was designed for high-quality automatic captioning of driving data in an on-premises VLM environment, and its performance was verified by applying it to GPT-5.2, GPT-4o, and InternVL2.5-8B. An analysis of the captions generated by each model using three metrics(text similarity, embedding similarity, and LLM-as-a-Judge)confirmed that the prompts proposed in this study achieved a level of performance suitable for practical application in on-premises VLM-based captioning. These results can be used to automatically generate metadata for vast amounts of driving data at low cost and are expected to help establish a data curation system, including efficient training data management.



온프레미스 VLM 기반 자율주행 데이터 자동 캡셔닝을 위한 프롬프트 설계 및 품질 분석

임소정*, 김주완**, 이정우***, 최정단****
*한국전자통신연구원 자율주행지능연구실 연구연수생
**한국전자통신연구원 자율주행지능연구실 책임연구원
***한국전자통신연구원 자율주행지능연구실 책임연구원
****한국전자통신연구원 AI로봇연구본부 본부장

초록


AI 기반 자율주행 기술의 발전으로 대규모 주행 데이터 수집이 가속화됨에 따라 방대한 학 습 데이터를 효율적으로 관리하기 위한 데이터 큐레이션 기술의 중요성이 커지고 있다. 특히 수작업 캡셔닝은 비용이 높고 일관성이 낮아 AI 기반 자동화 요구가 커지고 있으나, 데이터 보안과 비용 문제로 클라우드 API보다 온프레미스(On-premises) 환경에서 실행 가능한 VLM (Vision-Language Model) 활용이 대안으로 주목받고 있다. 본 연구에서는 온프레미스 VLM 환 경에서 주행 데이터에 대한 고품질의 자동 캡셔닝을 위해 4단계 프롬프트 전략을 설계하였으 며, GPT-5.2, GPT-4o, InternVL2.5-8B에 적용하여 성능을 검증하였다. 각 모델에서 생성된 캡션 을 텍스트 유사도, 임베딩 유사도, LLM-as-a-Judge의 세 가지 지표로 분석한 결과 본 연구에서 제안하는 프롬프트가 온프레미스 VLM 기반 캡셔닝 실무에 활용 가능한 수준의 성능을 확보 했음을 확인하였다. 본 연구의 결과는 방대한 주행 데이터에 대해 저비용의 자동 메타정보 생 성에 활용할 수 있으며, 효율적인 데이터 관리 등 학습 데이터 큐레이션 체계 구축에 기여할 것으로 기대된다.



    Ministry of Land, Infrastructure and Transport
    Korea Agency for Infrastructure Technology Advancement
    RS-2023-00243530

    Ⅰ. 서 론

    자율주행 기술의 발전과 함께 대규모 주행 데이터의 수집이 빠르게 증가하고 있다. 이러한 데이터는 인지 모델 학습, 주행 시나리오 분석, 안전성 검증 뿐 아니라 E2E(End-to-End) AI 등 다양한 연구와 개발 과정에서 활용된다. 따라서 방대한 자율주행 데이터를 체계적으로 관리하고 활용하기 위한 데이터 큐레이션 기술의 중요성이 증가하고 있다(Liu et al., 2024). 자율주행 데이터 큐레이션을 위해서는 주행 장면의 의미 정보를 구조화하는 과정이 필요하다. 구조화 캡션은 도로 환경, 교통 상황, 동적 객체, 잠재 위험 요소와 같은 장면 정보를 항목별 텍스트로 기술한 것이다. 이러한 캡션은 특정 주행 상황을 검색하거나 시나리오를 분석하는 데 활용될 수 있으며, 주행 의사결정의 해석 가능성을 높이는 데에도 기여한다(Arai et al., 2025).

    그러나 대규모 자율주행 데이터를 사람이 직접 캡셔닝하는 방식은 높은 비용과 많은 시간을 요구한다. 또한 수십만 개 이상의 주행 영상을 일관된 기준으로 기술하기 어렵고, 작업자 간 판단 차이는 캡션 품질의 변동으로 이어질 수 있다. 이러한 한계를 보완하기 위해 최근에는 비전-언어 모델(Vision-Language Model, VLM)을 활용한 자동 캡셔닝 방식이 주목받고 있다. VLM은 이미지 이해와 자연어 생성 능력을 결합한 멀티모달 모델로, 다양한 캡셔닝 과업에서 우수한 성능을 보이고 있다. 그러나 자동 캡셔닝의 품질은 모델 자체의 성능뿐 아니라 프롬프트 설계 방식에도 크게 영향을 받는 것으로 알려져 있다(Liu et al., 2023;Dai et al., 2023). 특히 자율주행 시퀀스와 같이 다수의 프레임을 포함하는 데이터에서는 어떤 정보를 선택적으로 기술하고 어떤 형식으로 정리할 것인지가 캡션의 정확도와 일관성에 직접적인 영향을 미친다. 따라서 프롬프트 설계는 자율주행 시퀀스 캡셔닝의 정확도를 결정하는 핵심 요소이다. 한편, 기존의 고성능 VLM 기반 캡셔닝은 주로 클라우드 API 모델에 의존한다. 이러한 방식은 우수한 성능을 제공할 수 있으나, 대규모 데이터 처리 환경에서는 비용 부담이 발생한다. 또한 자율주행 데이터는 실제 도로 환경 정보를 포함하므로 외부 서버로의 데이터 전송이 제한될 수 있다. 따라서 온프레미스 환경에서 실행 가능한 오픈소스 VLM의 활용 가능성이 중요한 대안으로 주목받고 있다. 그러나 온프레미스 VLM은 일반적으로 대형 API 모델보다 제한된 모델 규모와 추론 성능을 가지므로, 복잡한 주행 장면을 안정적으로 기술하기 위한 품질 보완 방법이 필요하다. 이때 추가 학습 없이 출력 품질을 조정할 수 있는 프롬프트 설계는 현실적인 접근이 될 수 있다.

    그럼에도 불구하고 자율주행 시퀀스 데이터를 대상으로 구조화 캡션 생성을 위한 프롬프트 설계 전략을 체계적으로 비교한 연구는 충분하지 않다. 기존 연구는 주로 일반 이미지 캡셔닝 성능이나 대형 모델의 활용 가능성에 초점을 두고 있다(Liu et al., 2023;Dai et al., 2023;Tian et al., 2024). 그러나 자율주행 데이터는 도로 구조, 교통 흐름, 위험 요소, 주행 전이와 같은 도메인 특화 정보를 함께 다루어야 한다. 따라서 자율주행 시퀀스의 특성을 반영한 구조화 프롬프트 설계와 그 품질 효과를 분석하는 연구가 필요하다.

    본 연구는 온프레미스 VLM 환경에서 자율주행 시퀀스를 위한 구조화 캡션 생성 방법을 제안하고, 프롬프트 설계 전략이 캡션 품질에 미치는 영향을 분석한다. 자율주행 장면 이해에 적합한 캡션 스키마를 설계하고, 출력 자유도, 선택지 구성, 불확실성 처리 방식 등 서로 다른 네 가지 프롬프트 전략을 만들었다. 실험에서는 GPT-5.2, GPT-4o, InternVL2.5-8B를 활용하여 프롬프트 전략에 따른 캡션 품질 변화를 비교하며, 텍스트 유사도, 임베딩 유사도, LLM-as-a-Judge의 세 가지 방법을 통해 품질을 평가한다. 이러한 분석은 온프레미스 VLM 기반 자율주행 캡셔닝 시스템의 실용적 활용 가능성을 검토하고, 향후 데이터를 관리하고 효과적으로 활용할 수 있는 데이터 큐레이션 체계 구축에 기여할 것으로 기대된다.

    Ⅱ. 관련 연구

    자율주행 환경에서는 도로 구조, 교통 상황, 동적 객체의 행동, 잠재 위험 요소 등 복합적인 장면 정보를 정확하게 인지하고 해석하는 능력이 중요하다. 초기 연구는 객체 탐지, 차선 인식, 시맨틱 분할과 같은 인식 기술 중심으로 발전해 왔다. 현재 공개되어 있는 nuScenes, WaymoOpen Dataset, BDD 100K와 같은 데이터셋은 다양한 도로 환경과 교통 상황에 대한 정형화된 주석을 제공하며, 자율주행 인지·예측 모델의 학습과 평가를 위한 표준 벤치마크로 활용되고 있다(Liu et al., 2024). 그러나 최근 AI 기반 자율주행 연구 동향에서는 단순한 객체·픽셀 수준 표현만으로는 복수의 교통 주체 간 상호작용, 장면 문맥, 시간에 따른 주행 전이를 충분히 포착하기 어렵다고 지적하며, 상위 수준의 시나리오 이해와 추론을 지원하는 표현의 필요성을 제기하고 있다(Shao et al., 2023;Chen et al., 2024).

    이러한 한계를 보완하기 위해 최근에는 자율주행 장면을 자연어로 설명하거나 비디오 수준 질의응답을 수행하는 연구가 제안되고 있다. VLAAD는 주행 영상 시퀀스를 입력으로 받아 장면 설명, 위험 요소 분석, 질의응답을 수행하는 비전-언어 어시스턴트를 제안함으로써 시퀀스 기반 자연어 상호작용의 가능성을 보였다(Park et al., 2024). 한편 WTS는 보행자 중심 교통 장면에 대한 미세한 시공간 이해를 목표로, 차량·보행자의 행동과 주변 맥락을 포함한 장문의 비디오 캡션을 제공하는 데이터셋을 구축하였다(Kong et al., 2024). 이러한 연구는 자율주행 장면을 자연어 기반으로 기술할 수 있을 뿐 아니라, 시퀀스 수준의 세밀한 장면 이해와 안전성 분석까지 확장할 수 있음을 보여준다.

    이미지 캡셔닝 연구는 CNN–RNN 기반 구조에서 attention 메커니즘을 거쳐 최근에는 비전-언어 모델(VLM)을 활용하는 방식으로 발전해 왔다(Stefanini et al., 2023). BLIP-2, LLaVA, InstructBLIP와 같은 모델은 시각 정보와 언어 지시를 통합적으로 처리함으로써 캡션 생성, 질의응답, 추론 등 다양한 멀티모달 과업에서 우수한 성능을 보였다. 그러나 대부분의 고성능 VLM은 클라우드 API 기반으로 제공되므로, 대규모 데이터를 반복적으로 처리해야 하는 작업 환경에서는 처리 비용 및 외부 서버 전송에 따른 지연 측면의 제약이 발생할 수 있다. 따라서 온프레미스 환경에서 실행 가능한 VLM을 활용한 장면 기술 방식은 실용적 측면에서 중요한 대안으로 볼 수 있다.

    종합하면, 기존 연구들은 자율주행 장면의 자연어 설명 가능성과 VLM 기반 장면 기술의 확장 가능성을 보여주었다. 그러나 이러한 연구는 주로 장면 설명이나 질의응답 기능의 구현에 초점을 두고 있어, 자율주행 시퀀스를 일정한 형식으로 기술하기 위한 구조화 캡션 표현을 체계적으로 다룬 연구는 상대적으로 제한적이다. 특히 구조화된 출력 형식을 안정적으로 유도하기 위한 프롬프트 설계와, 온프레미스 VLM 환경에서 이러한 설계가 캡션 품질에 미치는 영향 역시 충분히 분석되지 않았다.

    Ⅲ. 데이터셋 및 분석 방법론

    1. 입력 데이터와 출력 구조 정의

    본 연구에서는 ETRI 자율주행 차량을 이용하여 다양한 시간 및 공간적 범위에서 수집된 주행 동영상을 활용하였으며, 연구의 신뢰성을 확보하기 위하여 수집된 주행 동영상에는 다양한 주행 장면을 포함하였다. 일반도로, 이면도로 및 주차장과 같은 다양한 도로 유형을 포함하고 있으며, 다양한 일조 조건(주간, 황혼) 뿐 아니라 안개, 눈, 비와 같은 악천후 상황도 포함하여 데이터의 다양성도 확보하였다. 수집된 원본 동영상에서 일정 간격으로 프레임을 추출하여 이미지 시퀀스를 구성하였으며, 시퀀스 전 구간의 변화를 고르게 반영하기 위해 균등 샘플링을 적용하였다. <Fig. 1>에서 보는 바와 같이 각 시퀀스에는 총 10장의 프레임으로 하나의 주행 클립을 정의하였으며, 본 연구에서는 총 826개의 주행 클립을 사용하였다. 전체 주행 클립 중에서 안개(48개), 눈(145개), 비(86개)와 같은 악천후 환경이 약 33.8%를 차지하며, 장면 유형별 분포는 도시내 일반 도로(55%), 교외 도로(15%), 주차장과 기타 구역(20%) 그리고 각 구역이 혼합되거나 전환되는 구간(10%)으로 구성되어 있다.

    KITS-25-2-179_F1.jpg
    <Fig. 1>

    Example of an image sequence extracted by uniform sampling

    출력은 자율주행 장면을 일관된 형식으로 기술하기 위한 구조화 캡션으로 정의하였다. 캡션 스키마는 장면의 정적 속성과 시퀀스 기반 변화를 함께 반영하도록 설계되었다. 전반부 필드는 날씨, 도로 환경, 교통 상황, 동적 객체, 잠재 위험, 주행 판단과 같은 장면 정보를 기술하고, 후반부 필드는 시퀀스의 시작, 중간, 끝, 전체 전이를 기술한다. 캡션 스키마의 세부 구성은 <Table 1>에 제시하였다. 이와 같이 정의한 입력 데이터와 출력 구조는 이후 모든 프롬프트 전략과 모델에 공통으로 적용된다. 이를 통해 서로 다른 조건에서 생성된 캡션을 동일한 형식에서 비교할 수 있도록 하였다.

    <Table 1>

    Caption schema field definitions

    Type Field Description
    Static Weather and Conditions (W&C) Sky state, visibility, road surface condition, precipitation, and lighting
    Road Environment (Road) Road type, lane count, lane divider, road geometry, and key structures
    Traffic Conditions (Traffic) Traffic density, flow state, vehicles types, lane usage, and expected speed
    Dynamic Objects (Objects) Pedestrians, cyclists, motorcycles, active scenarios, and surrounding vehicle actions
    Potential Risks (Risks) Risk level, risk sources, and specific hazards
    Dynamic Sequence Beginning (Seq_b) Scene description at the start of the sequence
    Sequence Middle (Seq_m) Notable transitions and changes across the sequence
    Sequence End (Seq_e) Scene description at the end of the sequence
    Sequence Overall Transition (Seq_o) One-sentence summary of the dominant driving maneuver across the full sequence

    2. 비교 환경 및 실험 절차

    본 연구에서는 구조화 캡션 품질을 비교하기 위해 상용 클라우드 API 기반으로 제공되는 GPT-5.2, GPT-4o와 온프레미스 VLM 모델인 InternVL2.5-8B를 사용하였으며, 모든 모델이 동일한 주행 클립 입력에 대해 동일한 출력 스키마의 구조화 캡션을 생성하도록 구성하였다. 가장 성능이 뛰어난 모델인 GPT-5.2는 참조 캡션 생성 모델로 사용하며, GPT-4o는 온프레미스 모델과 상용 모델 간의 상대적 성능 격차를 파악하기 위한 비교 기준으로 포함하였다. InternVL2.5-8B는 다수의 이미지 프레임을 동시에 입력받아 구조화 캡션을 생성하기 위해 채택된 오픈소스 모델로, 본 연구에서 온프레미스 환경 적용 가능성을 검토하기 위한 핵심 비교 대상이다(Chen et al., 2024).

    실험은 공통된 캡셔닝 파이프라인에 따라 수행하였다. 온프레미스 환경에서는 GPU, 메모리 및 인프라 관리 측면에서 발생되는 여러 가지 요소를 고려하여 단일 단계의 프롬프트 기반 구조화 캡셔닝 방식을 채택하였다. <Fig. 2>와 같이 파이프라인은 주행 클립 입력, 모델 기반 캡션 생성, 결과 저장의 단계로 구성되며, 모든 모델에 동일한 프롬프트 구조와 출력 형식을 적용하였다. 또한 생성 조건의 차이를 줄이기 위해 temperature는 0으로 설정하였다. 생성된 결과는 사전에 정의한 캡션 스키마에 따라 저장하였으며, 이를 통해 모델과 프롬프트 전략에 따른 구조화 캡션 품질을 동일한 기준에서 비교할 수 있도록 하였다.

    KITS-25-2-179_F2.jpg
    <Fig. 2>

    Automatic captioning pipeline using InternVL2.5-8B

    3. 제안하는 프롬프트 전략

    본 연구에서는 온프레미스 VLM 환경에서 자율주행 시퀀스 캡션 품질에 미치는 프롬프트 설계의 영향을 분석하기 위해 네 가지 프롬프트 전략을 설계하였다. 프롬프트는 모델에게 장면 해석의 기준과 출력 형식을 동시에 제시하는 요소이다. 본 연구의 프롬프트 전략은 동일한 캡션 스키마를 공유하면서도 출력 자유도와 세분화 수준을 조정하여 차별성을 확보하였다. 설계 과정에서는 (1) 출력 제약 수준과 (2) 불확실성 처리 방침을 핵심 요소로 설정하였으며, 초기 프롬프트의 자유도를 단계적으로 제어함으로써 구조적 정밀도와 출력의 신뢰성을 점진적으로 향상시켰다.

    <Fig. 3>은 네 가지 프롬프트 전략의 구조적 차이를 나타낸다. 프롬프트 <A>는 출력 구조에 아무런 제약을 부여하지 않는 자유 서술형으로 최대한의 표현 자유도를 제공하는 게 특징이다. 그러나 자유 서술형 프롬프트 방식은 표현의 유연성은 높지만, 필드 간 묘사된 내용의 일관성은 떨어질 수 있다. 따라서 프롬프트 <B>에서는 각 필드에 대해서 사전에 정의된 선택지를 제공하여 구조적 일관성을 높이고자 하였다. 그러나, 프롬프트 <B>는 일관성 확보에는 유리하지만, 장면의 다양한 상태를 충분히 반영하기에는 선택지 범위가 제한적일 수 있다. 이를 보완하기 위해 프롬프트 <C>에서는 선택지를 세분화하여 보다 세밀한 장면 기술을 가능하게 하는 동시에, 일부 필드에 대해서는 복수 선택을 허용하여 복합적인 장면 속성을 동시에 기술할 수 있도록 하였다. 그렇지만, 선택지가 세분화되더라도 시각적으로 확인하기 어려운 정보를 모델이 임의로 추정할 가능성은 여전히 존재한다. 따라서 프롬프트 <D>에서는 프롬프트 <B>의 구조를 유지하면서 각 선택지에 “unclear” 항목을 추가하여, 시각적 근거가 불충분한 경우 보수적으로 응답하도록 설계하였다. 즉, 프롬프트 <A>에서 프롬프트 <C>로의 변화가 출력 일관성과 표현 세밀도의 개선을 목표로 한 것이라면, 프롬프트 <D>는 불확실한 정보에 대한 과도한 추정을 줄이기 위한 전략이다. 이러한 설계는 자율주행 캡셔닝에서 특히 중요한 출력 신뢰성을 확보하기 위해 출력 자유도와 시각적 불확실성에서 발생되는 환각효과에 대한 트레이드오프를 분석한 결과이다. 본 연구에서는 이러한 점진적 설계 차이를 통해 프롬프트 전략이 자율주행 시퀀스 캡션의 정확도, 일관성, 정보 충실도에 미치는 영향을 비교하였다.

    KITS-25-2-179_F3.jpg
    <Fig. 3>

    Structural comparison of four prompt strategies

    4. 캡션 품질 평가 방법

    자율주행 시퀀스 캡션의 품질은 단일 지표만으로 충분히 평가하기 어렵다. 어휘 일치도, 의미적 유사성, 시각적 근거성은 서로 다른 품질 측면을 반영하기 때문이다. 이에 본 연구에서는 텍스트 유사도 평가, 임베딩 유사도 평가, LLM-as-a-Judge 기반 평가의 세 가지 방법을 적용하였다.

    텍스트 유사도 평가는 생성된 캡션과 참조 캡션 간의 어휘 기반 일치도를 측정하기 위한 방법이다. 본 연구에서는 BLEU와 METEOR를 사용하였으며, 사람이 직접 작성한 참조 캡션이 없는 조건을 고려하여 GPT-5.2가 생성한 캡션을 참조 캡션으로 설정하였다. 이후 GPT-4o와 InternVL2.5-8B가 생성한 캡션을 참조 캡션과 비교하고, 각 필드별 점수의 평균을 최종 점수로 사용하였다. 임베딩 유사도 평가는 텍스트 간 의미적 유사성을 측정하는 방법이다. 본 연구에서는 BGE-M3를 사용하여 캡션을 임베딩 벡터로 변환한 후, 참조 캡션과 비교 캡션 간의 코사인 유사도를 계산하였다. 평가는 전체 캡션과 각 필드에 대해 수행하였다.

    그러나 텍스트 및 임베딩 유사도 평가는 모두 참조 캡션과의 상대적 유사도를 측정하므로 실제 이미지 장면에 대한 캡션의 정확성을 직접 판단하기에는 한계가 있다. 이를 보완하기 위해 본 연구에서는 Tong et al.(2025)에서 제시한 G-VEval 기반 LLM-as-a-Judge 평가를 추가로 적용하였다. 이미지 시퀀스와 평가 대상 캡션을 함께 입력으로 제공하고, G-VEval의 기준에 따라 GPT-5.2가 품질 점수를 산출하도록 하였다. 또한 생성 모델 정보를 제공하지 않는 익명 평가 방식을 적용하여 특정 모델에 대한 편향 가능성을 줄였다.

    한편 본 연구의 평가 방법은 GPT-5.2를 참조 기준으로 설정한 평가 체계 내에서의 상대적 비교이며, 사람이 수작업으로 만든 참조 캡션이 존재하지 않는 대규모 자율주행 데이터 환경에서 현실적으로 적용 가능한 평가 방식이다. 구체적으로, GPT-5.2는 (1) 비교 기준이 되는 참조 캡션 생성과 (2) LLM-as-a-Judge의 두 가지 역할로 활용된다. (1)은 BLEU 및 METEOR 계산에만 사용되며, (2)는 원본 이미지 시퀀스와 평가 대상 캡션을 직접 입력으로 사용하여 시각-캡션 정합성을 판단하므로 두 역할은 기능적으로 분리되어 있다. 이때 독립성 측면에서의 한계를 최소화하기 위해 앞서 언급한 익명 평가 방식과 더불어, GPT-5.2와 무관한 BGE-M3를 활용한 교차 검증을 함께 수행하였다.

    Ⅳ. 실험 결과 및 분석

    1. 프롬프트 전략별 캡션 생성 예시

    본 절에서는 동일한 주행 클립에 대해 서로 다른 프롬프트 전략이 생성한 구조화 캡션의 질적 차이를 분석한다. 정량적 평가 결과를 제시하기에 앞서, 프롬프트 설계 방식이 캡션의 서술 구조와 정보 표현 방식에 어떠한 영향을 미치는지를 확인하기 위함이다. 이를 위해 동일한 주행 클립에 대해 프롬프트 <A>, <B>, <C>, <D>를 각각 적용하여 생성된 캡션을 비교하였다.

    <Fig. 4>은 동일한 주행 클립에 대해 InternVL2.5-8B 모델이 프롬프트 <A> ~ <D> 에 따라 생성한 캡션 예시를 비교하여 보여준다. 그림에서 확인할 수 있듯이 프롬프트 설계 방식에 따라 캡션의 표현 구조와 정보 기술 방식에서 차이가 나타난다. 먼저 프롬프트 <A>의 경우 각 항목에 대해 자유 서술 방식의 캡션이 생성된다. 이 방식은 모델이 자연어 문장을 자유롭게 구성할 수 있다는 장점이 있으나, 항목별 서술 형식이 일정하지 않으며 캡션 구조의 일관성이 낮게 나타나는 경향이 관찰된다. 또한 동일한 장면 정보가 서로 다른 표현으로 기술되거나 일부 정보가 누락되는 사례가 확인된다. 프롬프트 <B>는 사전 정의된 카테고리 목록을 제공하고 단일 선택을 요구하는 방식으로 설계되었다. 이 경우 캡션의 표현 구조가 일정하게 유지되며 장면 속성에 대한 기술이 보다 명확하게 나타난다. 그러나 선택 가능한 항목이 제한되어 있기 때문에 실제 장면의 복합적인 특성을 충분히 반영하지 못하는 경우가 존재한다. 프롬프트 <C>는 카테고리 체계를 확장한 방식이다. 이 전략에서는 장면의 다양한 속성을 보다 폭넓게 표현할 수 있으며 상세한 정보 기술이 가능하다. 그러나 시각적으로 명확하지 않은 요소에 대해서도 모델이 가장 근접한 항목을 선택하도록 유도되기 때문에 일부 경우 실제 장면과 완전히 일치하지 않는 기술이 생성되는 사례가 관찰된다. 마지막으로 프롬프트 <D>는 기존 카테고리 체계를 유지하면서 각 항목에 “unclear” 선택지를 추가한 방식이다. 이 전략은 모델이 시각적으로 확인가능한 정보만을 선택하도록 유도함으로써 장면의 관측 가능 정보에 기반한 서술을 생성하도록 설계되었다. 실제 예시에서도 프롬프트 <D>는 주요 장면 정보를 안정적인 구조로 기술하면서도 불확실한 정보에 대해서는 명시적으로 unclear를 선택하는 특징을 보인다.

    KITS-25-2-179_F4.jpg
    <Fig. 4>

    Comparison of captions generated by InternVL2.5-8B under different prompt strategies

    이러한 질적 비교 결과는 프롬프트 설계 방식이 캡션의 표현 구조와 정보 기술 방식에 직접적인 영향을 미친다는 점을 보여준다. 특히 카테고리 기반 구조를 사용하는 전략은 캡션의 구조적 일관성을 향상시키는 경향을 보이며, 시각적 불확실성을 명시적으로 표현하는 전략은 관측 가능한 정보 중심의 서술을 유도하는 특징을 보인다. 이러한 차이는 이후 절에서 제시되는 정량적 평가 결과와 함께 보다 체계적으로 분석된다.

    2. 텍스트 유사도 실험 결과

    <Table 2>는 프롬프트 전략과 모델에 따른 BLEU 및 METEOR 점수를 비교한 결과를 나타낸다. 전체적으로 프롬프트 (d)에서 가장 높은 점수가 나타났으며, 이는 카테고리 기반 구조와 시각적 불확실성 표현을 포함한 프롬프트 전략이 캡션의 표현 일관성을 향상시키는 데 기여함을 시사한다. 특히 BLEU-4와 METEOR 지표 모두에서 프롬프트 (d)가 가장 높은 값을 보이며, 구조화된 프롬프트 설계가 텍스트 유사도 측면에서 효과적으로 작동함을 확인할 수 있다. 모델 간 비교에서는 GPT-4o와 InternVL2.5-8B가 전반적으로 유사한 수준의 점수를 보였으며, 일부 프롬프트 설정에서는 InternVL2.5-8B가 더 높은 점수를 기록하였다.

    <Table 2>

    Text similarity calculation results by prompt

    Prompt Model BLEU-1 BLEU-2 BLEU-3 BLEU-4 METEOR
    A GPT-4o 24.87 13.41 6.70 3.46 22.65
    InternVL2.5-8B 18.74 9.18 4.15 1.91 18.32
    B GPT-4o 42.33 24.34 13.82 7.79 33.08
    InternVL2.5-8B 46.63 28.52 16.35 9.31 33.49
    C GPT-4o 30.80 21.22 14.91 11.02 26.41
    InternVL2.5-8B 32.14 20.02 12.71 8.70 25.22
    D GPT-4o 58.76 47.41 39.23 33.38 46.61
    InternVL2.5-8B 63.21 49.48 39.98 33.50 48.56

    필드별 분석 결과는 <Table 3><Table 4>에 제시하였다. 환경 정보 필드에서는 높은 유사도가 나타난 반면, Risks 필드에서는 상대적으로 낮은 점수가 관찰되었다. 이는 동일한 장면 정보라도 모델마다 표현 방식이 다르기 때문으로 해석된다.

    <Table 3>

    BLEU-4 analysis results by fields

    Prompt Model Field
    Static Dynamic
    W&C Road Traffic Objects Risks Seq_b Seq_m Seq_e Seq_o
    A GPT-4o 6.17 1.99 1.57 2.34 0.70 3.16 1.90 1.61 4.59
    InternVL 5.00 1.17 1.15 0.88 0.39 2.93 1.21 1.34 1.85
    B GPT-4o 7.46 14.43 9.72 5.21 4.75 7.44 1.87 2.17 4.52
    InternVL 9.30 18.51 12.01 10.95 8.02 5.30 1.67 2.47 2.87
    C GPT-4o 38.62 5.86 14.25 5.85 11.19 6.74 1.28 3.46 3.00
    InternVL 21.56 5.44 11.62 5.86 11.20 4.73 1.08 2.53 2.22
    D GPT-4o 56.72 32.75 39.37 20.01 6.73 19.22 24.25 24.21 3.97
    InternVL 57.22 36.20 34.24 15.68 3.60 12.07 26.38 23.64 4.02
    <Table 4>

    METEOR analysis results by fields

    Prompt Model Field
    Static Dynamic
    W&C Road Traffic Objects Risks Seq_b Seq_m Seq_e Seq_o
    A GPT-4o 33.66 18.15 17.51 20.10 10.82 22.61 16.98 16.92 24.95
    InternVL 25.91 15.18 15.18 13.27 7.51 20.26 13.20 14.53 19.68
    B GPT-4o 51.35 47.22 46.07 30.25 32.93 30.07 13.10 17.08 22.97
    InternVL 60.25 54.43 58.02 38.23 46.01 24.40 13.29 16.52 19.85
    C GPT-4o 60.98 29.04 36.86 26.93 29.67 31.55 12.42 23.28 20.99
    InternVL 49.63 29.07 35.39 22.19 28.20 28.34 10.45 19.17 19.46
    D GPT-4o 79.45 53.96 65.52 49.29 34.01 47.37 41.01 43.72 26.55
    InternVL 79.72 58.78 66.90 48.07 29.12 44.07 40.84 45.22 27.00

    3. 임베딩 유사도 실험 결과

    본 절에서는 임베딩 기반 유사도 분석을 통해 생성된 캡션의 의미적 유사성을 평가한다. 텍스트 유사도 분석이 어휘 수준의 일치도를 중심으로 측정하는 반면, 임베딩 기반 평가는 문장의 의미적 표현을 벡터 공간에서 비교함으로써 캡션 간 의미적 유사성을 보다 직접적으로 분석할 수 있다.

    <Table 5>는 프롬프트 전략과 모델에 따른 임베딩 기반 유사도 결과를 제시한다. 전체적으로 프롬프트 <D>에서 가장 높은 유사도가 나타났으며, 이는 텍스트 유사도 분석과 동일한 경향이다. 또한 GPT-4o가 InternVL2.5-8B보다 전반적으로 높은 점수를 보였고, 두 모델 모두 프롬프트 <D>에서 최고 점수를 기록하였다. 이러한 결과는 카테고리 기반 구조와 불확실성 표현을 포함한 프롬프트 전략이 의미적 표현의 일관성 향상에도 효과적임을 보여준다. 다만 임베딩 기반 유사도 역시 참조 캡션과의 상대적 유사도를 측정하므로, 실제 이미지 장면 반영의 정확성을 직접 판단하기에는 한계가 있다.

    <Table 5>

    Embedding similarity calculation results by prompt

    Prompt Model Field
    Static Dynamic
    W&C Road Traffic Objects Risks Seq_b Seq_m Seq_e Seq_o
    GPT-4o A 91.26 87.11 87.54 87.05 85.13 84.15 84.03 82.15 87.88
    B 95.06 92.17 96.17 86.95 85.37 85.40 80.37 81.59 84.19
    C 94.39 89.33 92.47 86.67 87.88 90.71 82.02 87.84 83.44
    D 97.37 96.11 95.03 93.36 92.94 91.64 92.28 90.40 87.81
    InternVL2.5-8B A 88.50 86.34 86.84 83.43 81.17 83.20 81.44 80.57 86.00
    B 95.16 93.77 96.33 87.25 88.82 83.35 81.52 82.65 83.52
    C 93.19 88.64 92.59 84.36 86.96 90.07 80.00 86.17 82.31
    D 97.03 96.26 95.48 92.10 89.79 91.71 92.18 89.86 87.91

    4. LLM-as-a-Judge 실험 결과

    본 절에서는 생성된 캡션이 실제 장면 정보를 얼마나 정확하게 반영하는지를 평가하기 위해 LLM 기반 평가 방법을 적용하였다. 앞선 두 평가 방법이 참조 캡션과의 유사도를 측정하는 상대 평가 방식이었다면, 본 평가는 이미지와 캡션을 동시에 입력으로 사용하여 캡션의 품질을 직접 평가하는 절대 평가 방식이다.

    <Table 6>은 프롬프트 전략과 모델에 따른 LLM 기반 평가 결과를 제시한다. 두 모델 모두 전반적으로 70점 이상의 점수를 기록하여 구조화 캡션 자동 생성이 실용적인 수준에서 가능함을 보였다. GPT-4o가 전반적으로 InternVL2.5-8B보다 높은 점수를 보였으나, 프롬프트 전략에 따른 향상폭은 InternVL2.5-8B에서 더 크게 나타났다. 특히 프롬프트 <D>는 두 모델에서 정확도 측면의 높은 점수를 일관되게 보이며 가장 효과적인 전략으로 나타났다. 반면 Conciseness 차원은 상대적으로 낮은 점수를 보였는데, 이는 구조화 캡션이 장면 정보를 상세히 기술하는 과정에서 서술 길이가 증가하기 때문으로 해석된다.

    <Table 6>

    G-VEval metric results

    Model Prompt Accuracy Complete Concise Relevance Average
    GPT-4o A 78.6 75.7 59.4 85.3 74.8
    B 74.9 67.5 60.4 84.9 71.9
    C 75.5 69.9 57.5 86.1 72.3
    D 79.7 77.3 55.6 89.6 75.6
    InternVL2.5-8B A 37.7 35.8 28.7 42.3 36.1
    B 73.3 68.6 54.8 83.7 70.1
    C 74.1 67.7 55.7 85.9 70.9
    D 74.3 74.6 48.4 86.8 71.0

    5. 종합 분석

    지금까지 기술한 모든 평가 결과를 종합하면, 프롬프트 설계 전략과 모델 특성이 캡션 품질을 결정짓는 핵심 요인임을 알 수 있다. 전반적으로 선택지 기반 구조화 프롬프트가 자유 서술형보다 안정적인 출력 형식을 보였으며, 프롬프트 <D>는 텍스트 유사도, 임베딩 유사도, LLM 기반 평가에서 가장 일관되게 우수한 결과를 나타냈다. 이러한 프롬프트 <D>의 우수 성능은 단순한 출력 제약 증가에 의한 것이 아니라, “unclear” 옵션을 통한 불확실성 처리 메커니즘에 기인한다. 프롬프트 <B>와 <D>는 동일한 카테고리 제약 구조를 공유하지만, <D>만이 일관되게 높은 성능을 보인다는 점이 이를 뒷받침한다. VLM을 포함한 언어 모델은 제약된 프롬프트 환경에서 시각적 근거가 모호하거나 부재한 경우에도 가장 그럴듯한 옵션을 선택하는 경향이 있으며, 이는 입력에 근거하지 않은 확신에 찬 출력을 생성한다는 점에서 환각 효과의 한 형태이다(Liu 2025;Turpin, 2023). 프롬프트 <D>의 “unclear” 옵션은 이러한 과도한 추정을 억제하고 모델이 자신의 신뢰도를 자기 교정하도록 유도함으로써, 시각적 근거에 충실한 캡션 생성을 가능하게 한다. 이는 온프레미스 VLM과 같이 상대적으로 제한된 모델에서도 프롬프트 설계만으로 의미 있는 품질 개선이 가능함을 시사한다. 모델 간 비교에서는 GPT-4o가 전반적으로 더 안정적인 성능을 보였으나, InternVL2.5-8B 역시 구조화 프롬프트가 적용될 때 성능이 뚜렷하게 향상되었음을 확인하였다. 따라서 본 논문에서 제안한 프롬프트 전략은 온프레미스 VLM 기반 자율주행 캡셔닝의 실용성을 높이는 중요한 요소로 볼 수 있다.

    Ⅴ. 결 론

    본 연구에서는 자율주행 장면을 설명하는 구조화 캡션을 자동으로 생성하기 위한 방법을 제안하고, 다양한 프롬프트 전략과 VLM을 비교 분석하였다. 이를 위해 이미지 시퀀스로 구성된 주행 데이터를 활용하여 캡션 생성 실험을 수행하고, 텍스트 유사도, 임베딩 기반 유사도, 그리고 LLM 기반 평가 방법을 통해 생성된 캡션의 품질을 다각도로 분석하였다. 실험 결과 프롬프트 설계 전략이 캡션 생성 품질에 중요한 영향을 미친다는 점을 확인하였다. 특히 선택지 기반 구조화 프롬프트를 적용할 경우 캡션의 표현 형식이 보다 일관되게 유지되며 장면 정보를 보다 안정적으로 설명하는 경향이 나타났다. 또한 시각적 불확실성을 명시적으로 표현하도록 설계된 프롬프트 전략은 이미지 장면과 캡션 간의 정합성을 유지하는 데 효과적으로 작용하는 것으로 확인되었다. 모델 비교 결과에서는 온프레미스 VLM에 적절한 프롬프트 설계 전략이 적용될 경우 API 기반 모델과 비교하여 경쟁력 있는 결과를 나타낼 수 있음을 확인하였다. 이러한 결과는 프롬프트 설계가 캡션 생성 모델의 성능에 중요한 영향을 미칠 수 있으며, 온프레미스 모델 기반의 캡션 생성 시스템 역시 실용적인 대안으로 활용될 가능성이 있음을 시사한다. 또한 본 연구에서는 텍스트 기반 평가와 더불어 LLM 기반 평가 방법을 함께 적용함으로써 캡션 품질을 보다 다양한 관점에서 분석하였다. 특히 LLM 기반 평가는 실제 이미지 장면과 캡션 간의 정합성을 직접적으로 평가할 수 있다는 점에서 기존 텍스트 유사도 기반 평가 방법을 보완할 수 있음을 확인하였다. 본 연구에서 제안하는 프롬프트 설계 전략은 자율주행 뿐 아니라 지능형 영상 관제, 의료 영상 분석, 재난 영상 분석 등 시각적 불확실성이 내재된 환경에서 정형화된 정보 추출이 필요한 다양한 도메인에 적용 가능할 것으로 기대된다.

    향후 연구에서는 보다 다양한 주행 환경, 복잡한 교통 상황 및 극한의 기상 조건을 포함한 데이터셋으로 실험 범위를 확장할 필요가 있으며, InternVL 외에 온프레미스 환경에서 운영 가능한 최신 VLM 모델을 적용한 성능 비교도 수행할 계획하다. 특히 평가 방법 측면에서 GPT-5.2를 참조 모델로 활용함에 따른 잠재적 편향성을 최소화하기 위해, 인간 평가를 통한 직접 검증 방식을 도입하여 평가 결과의 객관성을 더욱 공고히 하고자 한다. 이러한 후속 연구를 통해 자율주행 데이터의 자동화된 이해와 활용을 지원하는 캡션 기반 데이터 관리 기술의 실용성에 기여할 수 있을 것으로 기대된다.

    ACKNOWLEDGEMENTS

    본 연구는 국토교통부 및 국토교통과학기술진흥원 자율주행기술개발혁신사업의 연구비 지원에 의해 수행 되었습니다 (RS-2023-00243530, 자율차-일반차 혼재상황 대비 AI기반자율주행모빌리티 운영플랫폼 개발).

    Figure

    KITS-25-2-179_F1.jpg

    Example of an image sequence extracted by uniform sampling

    KITS-25-2-179_F2.jpg

    Automatic captioning pipeline using InternVL2.5-8B

    KITS-25-2-179_F3.jpg

    Structural comparison of four prompt strategies

    KITS-25-2-179_F4.jpg

    Comparison of captions generated by InternVL2.5-8B under different prompt strategies

    Table

    Caption schema field definitions

    Text similarity calculation results by prompt

    BLEU-4 analysis results by fields

    METEOR analysis results by fields

    Embedding similarity calculation results by prompt

    G-VEval metric results

    Reference

    1. Arai, H., Miwa, K., Sasaki, K., Watanabe, K., Yamaguchi, Y., Aoki, S. and Yamamoto, I. ( 2025) , “CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving”, 2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), IEEE, pp.1933-1943.
    2. Chen, Z., Wu, J. N., Wang, W. H., Su, W. J., Chen, G., Xing, S., Zhong, M. Y., Zhang, Q. L., Zhu, X. Z., Lu, L. W., Li, B., Luo, P., Lu, T., Qiao, Y. and Dai, J. F. ( 2024) , “InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.24185-24198.
    3. Dai, W., Li, J., Li, D., Tiong, A. M. H., Zhao, J., Wang, W., Li, B., Fung, P. and Hoi, S. ( 2023) , “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning”, Advances in Neural Information Processing Systems, vol. 36, pp.49250-49267.
    4. Kong, Q., Kawana, Y., Saini, R., Kumar, A., Pan, J., Gu, T., Ozao, Y., Opra, B., Anastasiu, D. C., Sato, Y. and Kobori, N. ( 2024) , “WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding”, European Conference on Computer Vision, pp.1-18.
    5. Li, C., Penghao, W., Kashyap, C., Bernhard, J., Andreas, G. and Li, H. ( 2024) , “End-to-End Autonomous Driving: Challenges and Frontiers”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 12, pp.10164-10183.
    6. Liu, H., Li, C., Wu, Q. and Lee, Y. J. ( 2023) , “Visual Instruction Tuning”, Advances in Neural Information Processing Systems, vol. 36, pp.34891-34916.
    7. Liu, M., Yurtsever, E., Fossaert, J., Zhou, X., Zimmer, W., Cui, Y., Zagar, B. L. and Knoll, A. C. ( 2024) , “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”, IEEE Transactions on Intelligent Vehicles, vol. 9, no. 11, pp.7138-7164.
    8. Liu, X., Luo, M., Chatterjee, A., Wei, H., Baral, C. and Yang, Y. ( 2025) , “Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations”, arXiv preprint, arXiv:2507.03123.
    9. Park, S., Lee, M., Kang, J., Choi, H., Park, Y., Cho, J., Lee, A. and Kim, D. ( 2024) , “VLAAD: Vision and Language Assistant for Autonomous Driving”, Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp.980-987.
    10. Shao, H., Wang, L., Chen, R., Waslander, S. L., Li, H. and Liu, Y. ( 2023) , “ReasonNet: End-to-End Driving with Temporal and Global Reasoning”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.13723-13733.
    11. Stefanini, M., Cornia, M., Baraldi, L., Cascianelli, S., Fiameni, G. and Cucchiara, R. ( 2023) , “From Show to Tell: A Survey on Deep Learning-based Image Captioning”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 1, pp.539-559.
    12. Tian, X., Gu, J., Li, B., Liu, Y., Wang, Y., Zhao, Z., Zhan, K., Jia, P., Lang, X. and Zhao, H. ( 2024) , “DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models”, Proceedings of The 8th Conference on Robot Learning (CORL 2024), Proceedings of The Machine Learning Research, vol. 270, pp.4698-4726.
    13. Tong, T. C., He, S., Shao, Z. and Yeung, D. Y. ( 2025) , “G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o”, Proceedings of the AAAI Conference on Artificial Intelligence, vol. 39, no. 7, pp.7419-7427.
    14. Turpin, M., Michael, J., Perez, E. and Bowman, S. R. ( 2023) , “Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting”, Advances in Neural Information Processing Systems, vol. 36, pp.74952-74965.

    저자소개

    Footnote