Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.5 pp.54-76
DOI : https://doi.org/10.12815/kits.2025.24.5.54

A Process for Developing a Traffic Safety Domain Specific Language Model Using Fine-Tuning and RAG

Yoseph Lee*, Yejin Kim**, Sihyun Moon**, Shinhye Joo***, JooYoung Lee****, Ilsoo Yun*****
*Department of Data, Networks, and AI, Ajou University
**Data Convergence Department, Korea Transportation Safety Authority
***Dept. of Industrial and Management Eng., Hannam Univ.
****Dept. of Transportation Eng., Ajou Univ.
*****Corresponding author: Professor, Department of Transportation Systems Engineering, Ajou University
Corresponding author : Ilsoo Yun, ilsooyun@ajou.ac.kr
31 July 2025 │ 5 September 2025 │ 1 October 2025

Abstract


The field of traffic safety requires policies to be established and implemented based on clear evidence and real-world cases, which limits the applicability of general-purpose large language models (LLMs). This study investigates the feasibility and applicability of domain-specific LLMs for traffic safety and proposes a systematic development process. To this end, a small language model (SLM) was developed using fine-tuning and retrieval-augmented generation (RAG) techniques to generate countermeasures based on traffic accident types and related information. The model’s responses were qualitatively evaluated through actual improvement project cases. Key considerations derived from this process include the structuring of training data, incorporation of multidimensional contextual information, and establishment of a rigorous evaluation framework. This study provides both academic and practical implications by presenting the direction and foundation for developing traffic safety domain-specific SLMs.



Fine-tuning과 RAG를 활용한 교통안전 분야 특화 언어모델 구축을 위한 프로세스 제시

이 요 셉*, 김 예 진**, 문 시 현**, 주 신 혜***, 이 주 영****, 윤 일 수*****
*주저자 : 아주대학교 D.N.A.플러스 융합학과 석박사 통합과정
**공저자 : 아주대학교 D.N.A.플러스 융합학과 석박사 통합과정
***공저자 : 한국교통안전공단 모빌리티·교통안전본부 데이터융복합처 책임연구원
****공저자 : 한남대학교 산업경영공학과 조교수
*****교신저자 : 아주대학교 교통시스템공학과 교수

초록


교통안전 분야는 명확한 판단 근거와 실제 사례를 기반으로 정책이 수립되고 시행되는 특 성이 있다. 그렇기에 범용 대규모 언어모델(large language model, LLM)을 활용하는 데는 한계 가 존재한다. 따라서, 본 연구는 교통안전 분야에 특화된 LLM의 구축 가능성과 활용성을 실증 적으로 검토하고, 이를 위한 체계적인 개발 프로세스를 제시하고자 한다. 이에 따라 본 연구에 서는 교통사고 유형과 관련 정보를 기반으로 교통안전대응책을 제시할 수 있도록 파인튜닝 (fine-tuning)과 검색 증강 생성(retrieval-augmented generation) 기법을 적용한 소규모 언어모델 (small language model, SLM)을 개발하고, 실제 개선사업 사례를 통해 모델의 응답을 정성적으 로 평가하였다. 이 과정에서 학습 데이터의 구조화, 다차원적 맥락 정보의 반영, 그리고 정교한 평가체계의 필요성이 핵심 고려사항으로 도출되었으며, 본 연구는 교통안전 분야의 특성과 실무 환경을 반영한 SLM 구축의 방향성과 기반을 마련했다는 점에서 학술적·실무적 의의가 있다.



    Ⅰ. 서 론

    1. 연구의 배경 및 목적

    국내 대표적인 교통안전 사업인 한국도로교통공단의 ‘교통사고 잦은 곳 개선사업’은 1988년부터 23,245개 소의 교통사고 잦은 곳을 개선하며 교통사고 발생 건수는 28.9%, 사망자 수는 45.3%, 부상자 수는 29.2% 감 소하였다(KOROAD, 2025). 다만, 교통사고 잦은 곳은 매년 1,700개소가 선정되는 반면, 실제로 개선사업이 수행되는 지점은 연평균 400개소 수준에 머물러있다(KOROAD, 2025). 이는, 교통사고 잦은 곳 개선사업이 물리적 기하구조 및 시설 개선을 포함하고 있어 비용적 측면의 부담이 클 뿐만 아니라, 조사·설계 단계에서 1년 이상이 소요되는 만큼(MOLIT, 2002) 시간적 비용 및 체계적이고 합리적인 교통안전 대안을 수립할 전문 인력의 부족 역시 큰 요인으로 작용할 것으로 사료된다.

    한편, 대규모 언어모델(large language model, LLM)은 인간의 언어를 이해하고 문맥을 생성할 수 있도록 훈 련된 인공지능(artificial intelligence, AI) 모델로(Ian et al., 2023), 다양한 산업군과 학술 연구 분야에서 데이터 분석, 정보 생성, 의사결정 지원시스템 등으로 활용되고 있다(Jeong, 2024;Gaber et al., 2025;Kim and Shin, 2025;Lee et al., 2025). 다만, LLM은 사실과 다른 정보를 산출하는 환각(hallucination) 현상, 긴 문맥을 기억하 지 못하는 구조적 한계, 그리고 특정 분야의 심층적 질문에는 취약하다는 제약을 지닌다(Xu et al., 2025;Liu et al., 2024). 이에 따라 최근에는 상대적으로 파라미터 수가 적은 소규모 언어모델(small language model, SLM)을 재학습하여 활용 분야에 최적화하는 접근이 주목받고 있다.

    SLM은 다양한 기업 및 커뮤니티에서 특정 목적에 특화하여 개발되고 있다. 대부분이 오픈소스로 배포되 고 있어 접근성이 높으며, 작업 환경 구축 편의성 및 비용 효율성이 높기 때문에 실무적 활용 가치가 높다. SLM의 재학습을 위해 최신 정보·지식을 추가로 학습하는 파인튜닝(fine-tuning), 데이터베이스에 있는 전문 지식 자료를 참고하여 응답을 생성하는 검색 증강 생성(retrieval augmented generation, RAG)과 같은 기법을 적용할 수 있다. 이러한 과정을 통해 SLM은 파라미터 수가 상대적으로 적음에도 특정 분야의 심층적 정보 반영 및 사실성 유지가 가능해지며, 실제 응용 환경에서는 상용 LLM과 비교해 유사하거나 더욱 높은 성능 을 보이기도 한다(Subramanian et al., 2025).

    교통안전 분야에서의 의사결정은 본질적으로 사고 피해를 줄이는 데 목적이 있으며, 그 의사결정은 다양 한 관련 법령 및 기준, 실제 교통안전 개선사업 실례를 기반으로 수행되어야 한다. 그렇기에 의사결정을 수 행하는 데 있어 상당한 시간적 비용이 소요되며, 관련 자료를 검토하고 분석하는 과정에서도 많은 노력이 필 요하다. 따라서, 교통안전 개선사업에서 기수행된 의사결정 과정 및 근거가 되는 관련 법령 ·기준을 체계적 으로 분석하고, 이를 신속하게 탐색·활용할 수 있는 지원 시스템이 존재한다면 의사결정 과정의 효율성이 증 대될 것으로 사료된다. 이러한 맥락에서 언어모델은 방대한 텍스트를 학습하여 이용자의 요구에 부합하는 정보를 신속히 제시할 수 있으므로, 의사결정 지원에 적합한 대안이 될 수 있다.

    따라서, 본 연구에서는 교통안전 분야에서 의사결정을 지원하는 언어모델을 개발하기 위해 활용 분야에 맞도록 모델을 최적화하는 다양한 방법들을 검토하고, 이를 비용·효율적으로 적용하는 방안을 모색한다. 특 히, 교통안전 관련 기준과 법령, 그리고 실제 교통사고 개선사업 수행 이력 등을 기반으로 파인튜닝과 RAG 기법을 적용한 교통안전 분야 특화 언어모델을 각각 구축하고, 두 모델의 성능을 비교·분석하고자 한다. 또 한, 실제 사례 기반 평가를 통해 그 실효성을 검증하고자 한다. 이를 통해 구축된 언어모델은 교통안전 분야 에서 보다 신뢰성 높은 지원 도구로 활용될 수 있으며, 이러한 언어모델 구축의 과정을 통합하여 하나의 프 로세스로 제안함으로써, 교통안전 분야를 넘어 교통 전반에서 맞춤형 언어모델의 구축 및 활용 가능성을 확 인하고자 한다.

    2. 연구의 범위 및 절차

    본 연구는 국내 교통안전 분야에 특화된 언어모델 구축을 위해 파인튜닝과 RAG 기법의 적용 가능성을 검토하고 이를 실증적으로 평가하며, 이러한 일련의 과정을 프로세스로 제시하고자 한다. 본 연구에서 언어 모델의 재학습 및 보완을 위해 활용되는 데이터는 한국교통안전공단의운수안전컨설팅 지원시스템(consulting oriented safety assistance system, COSAS)1) 내 사고예방대책 데이터베이스(database, DB), 한국도로교통공단의 서울특별시 교통사고 잦은 곳 기본개선계획(KOROAD, 2016~2022), 사고 잦은 곳 개선사업 업무편람 (MOLIT, 2002)이다. 본 연구는 교통안전 분야에 특화된 언어모델의 구축 프로세스 제시를 목적으로 하므로, 파인튜닝 및 RAG 기법 적용이 용이한 언어모델을 우선적으로 선정하도록 한다. 이어 언어모델의 재학습 및 보완에 적용될 학습 데이터 구축, 개별 언어모델의 파인튜닝 및 RAG 적용 및 평가를 수행하며, 일련의 과정 을 프로세스로 통합하여 제시하도록 한다.

    Ⅱ. 관련 이론 및 연구 고찰

    1. 관련 이론 고찰

    1) 언어모델

    LLM은 대량의 텍스트 데이터를 사전 훈련하여 텍스트의 문맥을 파악하고, 다양한 문법 구조와 의미적 관 계를 이해하는 데에 우수한 성과를 보여주고 있다(Jeong, 2024). 대부분의 LLM은 기존 자연어 처리(natural language processing, NLP) 방법이 가진 장기 의존성 문제를 해결하기 위해 트랜스포머 구조, 특히 텍스트 생 성에 특화된 디코더 구조를 활용한다. 또한, 셀프 어텐션(self-attention) 메커니즘을 통해 문장 내 모든 단어 간 관계를 병렬적으로 계산함으로써 긴 문맥 정보를 효과적으로 학습·생성할 수 있도록 설계되었다. 최근에 는 다양한 형태의 입력을 처리할 수 있는 멀티모달(multi-modal) LLM이 개발되었으며, 이에 따라 이미지, 영 상 등 다양한 형태의 데이터를 함께 처리할 수 있게 되었다(OpenAI, 2024;Gemini Team Google, 2025).

    LLM은 일반적으로 파라미터의 규모, 학습 데이터의 크기, 연산량이 클수록 높은 성능을 보인다(Kaplan et al., 2020). 이를 검증하기 위해 다양한 성능 평가 방법이 존재하나, 대표적인 방법은 벤치마크 테스트이다. 벤치마크 테스트는 근거 및 사실성, 과학·기술·공학·수학(science, technology, engineering, mathematics, STEM), 코드 작성 등 다양한 분야의 질문 쌍을 구축하여 이를 옳게 대답하는 정도를 척도로 점수화하는 방법이다. 하지만 고성능 LLM은 고사양의 그래픽 처리 장치(graphic processing unit, GPU) 및 전용 서버를 필요로 하므 로, 적절한 인프라가 구축되지 않은 환경에서는 비용과 자원 측면에서 실무적으로 활용하기 어렵다. 이러한 한계로 인해, 최근에는 파라미터 수는 상대적으로 적지만 고성능 LLM과 유사한 성능을 보이는 SLM이 주목 받고 있다. 또한, 최근에는 양자화 기술(quantization)의 개발로 모델의 연산 및 메모리 소모를 줄일 수 있어 보다 적은 컴퓨팅 자원으로 언어모델을 활용할 수 있게 되었다. 이들 SLM 중 멀티모달 기능을 지원하는 모 델도 존재한다.

    다만, 대부분의 언어모델은 사전에 웹 크롤링 데이터 등 범용 데이터를 기반으로 학습되었기 때문에, 교통 안전과 같은 특정 분야에 대한 심층적인 답변 생성에는 한계가 존재한다(Xu et al., 2025). 이러한 한계를 보 완하기 위해 GPT-4와 같은 초거대 모델을 재학습하기도 하나, 여기에는 막대한 연산 자원이 요구되어 실무 적용에는 제약이 따른다. 이에 따라, 최근에는 SLM을 기반으로 파인튜닝이나 RAG 기법을 적용함으로써 활 용 분야에 특화하여 성능을 향상시키는 접근이 주목받고 있다(Wang et al., 2025;Gaber et al., 2025).

    2) 언어모델의 재학습 및 보완 기법

    언어모델을 특정 분야에 최적화시키는 가장 효과적인 방법은 모델 내에 있는 파라미터 전체를 해당 분야 의 정보들을 기반으로 추가 학습시키는 풀 파인튜닝이다. 다만, 재학습해야 하는 파라미터의 규모가 클수록 막대한 자원이 소모되기 때문에, 전체 파라미터 중 일부만 조정하는 매개변수 효율적 파인튜닝(parameter efficient fine-tuning, PEFT) 기법이 주목받고 있다(Han et al., 2025). PEFT는 모델의 전체 파라미터를 재학습하 는 대신, 일부 계층(layer) 혹은 모델 외부의 어댑터(adapter)를 선택적으로 재학습하여 메모리 효율성을 높이 고 자원 소모량을 줄이는 파인튜닝 기법이다. 대표적으로 어댑터 튜닝(adapter tuning), 프롬프트 튜닝(prompt tuning), 저차원 어댑테이션(low-rank adaptation, LoRA) 등이 널리 활용되고 있다(Han et al., 2024).

    한편, 언어모델의 환각 현상을 줄이기 위해서 고안된 방법으로는 RAG 기법이 활발히 적용되고 있다 (Lewis et al., 2020; Goa et al., 2023). RAG는 언어모델의 이용자가 모델의 외부에 벡터 데이터베이스를 생성 하여 언어모델의 답변 생성에 근거가 될 수 있는 문서들을 정의하면, 언어모델이 답변 생성 시 관련 내용을 검색(retrieval)한 후, 그 문서를 근거로 답변을 생성(generation)하도록 하는 기법이다(Lewis et al., 2021). RAG 는 사전학습 및 파인튜닝에 활용되지 않은 정보들을 반영하여 언어모델이 답변할 수 있도록 하며, 근거가 되 는 문서를 기반으로 답변을 생성하기 때문에 환각 현상을 줄이기 위한 방안으로 활용되고 있다.

    2. 관련 연구 고찰

    1) 언어모델을 활용한 분야 특화 모델 개발

    Gaber et al.(2025)는 의료 분야에서 SLM과 RAG 기법을 활용하여 임상 의사결정 지원 모델을 구축하였다. 해당 모델은 입력된 환자 증상 정보를 기반으로 환자의 응급도 분류, 진료과 선정, 진단 등을 수행할 수 있 도록 최적화되었으며, RAG에 입력된 데이터는 medical information mart for intensive care(MIMIC-IV)에서 제 공하는 2,000여 건의 의료 사례를 기반으로 구축되었다. 모델의 구축에 활용된 SLM은 Anthropic 사의 Claude 모델들(3.5 Sonnet, 3 Sonnet, 3Haiku)이며, Claude 3.5 Sonnet 모델에 RAG를 적용한 최적 모델과 RAG를 적용 하지 않은 모델의 사례 기반 정답률을 통해 평가하였다. 모델들의 비교 결과, RAG를 적용하지 않은 모델들 은 60% 이내의 정확도를 보이는 것에 비해, RAG를 적용한 모델은 70% 내외의 정확도를 보이는 것으로 나 타났다. 또한, RAG를 적용한 모델의 응답 결과를 실제 임상의 4인의 평가를 통해 검증하였으며, RAG를 적 용한 모델은 개인 평가결과 94.91%의 정확도, 두 임상의 이상 모두가 정답으로 판단하는 협력 평가결과 69.86%로, RAG를 적용한 언어모델이 의사결정 지원 도구로서 적합하다는 평가를 내렸다.

    Jeong(2024)는 금융 특화 언어모델을 구축하기 위해 Mistral 사 Mistral 7B 모델에 손해보험금융 FAQ 및 금 융용어 데이터 기반 파인튜닝을 수행하였다. 또한, 파인튜닝이 적용된 모델의 실무적 활용 가능성 및 기대효 과를 제시하였다. 해당 연구는 금융 분야 특화 언어모델의 구축을 위해서 데이터 수집 및 전처리 절차부터 파인튜닝 방법, 하이퍼파라미터 조정, 성능평가지표의 선정 및 모델 생성 방법에 대하여 단계별로 상세하게 제시하였다. 특히, 금융 분야에서 언어모델의 구축을 위해 고려해야 하는 사항을 고찰하였다. 연구 결과, 금 융 분야에 적합하게 파인튜닝된 언어모델은 고객 응대, 금융 예측 및 트레이딩, 금융 리서치 등 다양한 방면 에서 활용될 수 있을 것이며, 금융 분야를 대표하는 데이터 세트의 확보가 가능할 경우 실무적으로 활용 가 능하다고 주장하였다.

    Lee et al.(2025)는 화학 분야에 특화된 언어모델 구축을 위한 지시어 튜닝 연구를 통해 Meta 사의 Llama2 7B, 13B 모델에 프롬프트 튜닝을 적용하였다. 데이터 세트는 LG 화학 내부의 친환경 그린 수소 관련 연구 분야 데이터, Hugging face에서 공개된 Chemrxic 논문 데이터, 국내 소재 관련 과학 분야 자격증 시험 기출 데이터가 활용되었다. 학습 데이터는 한국어와 영어로 분류하였으며, 언어별로 분류한 데이터를 학습한 모 델, 모든 언어를 동시에 학습한 모델로 나누어 구축하였다. 모델의 평가는 학습 데이터 중 일부를 QA 형태 로 구축하여 F1- score를 기반으로 수행하였다. 프롬프트 튜닝을 적용한 모델과 적용하지 않은 모델을 비교 하였을 때, 프롬프트 튜닝을 적용하였을 때 모델의 성능이 향상됨을 확인하였다. 이를 기반으로, 해당 연구 는 화학 분야에서 언어모델의 프롬프트 튜닝이 효과적임을 입증하고, 다양한 산업군에서도 업무 보조에 활 용 가능할 것으로 판단하였다.

    2) 교통 분야 LLM 활용 연구

    Zheng et al.(2023)은 Meta 사의 Llama 7B 모델을 교통안전 분야 특화 모델로 구축하기 위해 파인튜닝을 수 행하였다. 파인튜닝을 위해 미국 연방/주 정부의 교통안전 지침서 기반 지식을 OpenAI 사의 ChatGPT를 활용 하여 2,000개의 QA쌍 형태로 구축하였으며 PEFT가 아닌 풀 파인튜닝을 적용하였다. 모델의 파인튜닝 결과, 비교적 작은 학습 데이터로 모델을 학습했음에도 불구하고, 파인튜닝을 적용하지 않은 모델과 비교하였을 때, 정확성, 문제 이해력, 전문 용어 사용 적절성 등에서 의미 있는 개선을 보이는 것으로 나타났다. 해당 연 구는 언어모델을 활용한 교통안전 분야 특화 모델 구축의 가능성을 확인했다는 점에서 의의를 가진다. 다만, 학습에 활용된 QA쌍이 교통 분야의 전문적인 지식이 아닌 교통 분야 용어 정의 및 일반적 교통 지식 수준 으로 구성되었으며, 모델의 평가에 있어 기계번역의 품질 평가에 활용되는 의미적 유사성을 평가하는 평가 지표를 활용했다는 점에서 한계를 가진다.

    Melton et al.(2025)은 상용화된 여러 LLM과 Meta 사의 Llama 2, 3 모델을 기반으로 RAG를 적용한 모델과 미적용한 대규모 파라미터 LLM의 위험물 운송과 관련된 연방 및 주 규제문서 기반 질의응답 성능을 비교· 분석 하였다. RAG에 입력된 데이터는 경로 계획 및 교통안전 관련 법규 등 실제 현장에서 발생할 수 있는 100개의 질의 시나리오를 기반으로 구축되었다. 모델의 평가를 위해 교통안전 및 규제 관련 전문가 3인이 참 여하여 정확성, 구체성, 연관성, 환각 현상 여부, 전반적 평가 등을 5점 척도로 정성 평가하였다. 그 결과 RAG를 적용한 Llama 모델들이 OpenAI 사의 ChatGPT, Google 사의 Vertex AI와 비교하였을 때 구체성 측면 에서 높은 점수를 보였다. 이를 통해 교통안전 분야에서 RAG를 활용한 모델이 활용하지 않은 모델보다 구 체적이고 신뢰성 있는 응답을 제공할 수 있다는 점을 확인하였다. 다만, 환각 현상은 모든 모델에서 공통적 으로 발생하였으며, 실제 현장에서 언어모델을 활용하기 위해서는 분야별 관련 데이터의 선정 및 구축의 필 요성과 평가체계 구축이 필요함을 강조하였다.

    3. 연구의 차별성

    관련 이론 및 연구 고찰 결과, 다양한 산업군에서 언어모델을 활용한 분야 특화 모델을 구축하는 연구들 이 수행되고 있다. 대부분의 분야 특화 모델 구축 연구에서 파인튜닝과 RAG와 같은 기법을 적용하여 해당 분야에 대한 정보를 재학습시키고 모델을 보완하는 연구들이 활발히 이루어지고 있다. 특히, Jeong(2024)은 언어모델의 금융 분야 특화 모델을 개발할 수 있도록 학습 데이터 구축의 고려사항, 기대효과, 모델 구축 프 로세스 등을 상세히 제시하고 있다. Gaber et al.(2025)은 의료 사례를 기반으로 SLM에 RAG 기법을 적용하였 으며, 실제 임상의들의 평가를 통해 RAG를 적용한 SLM이 의사결정 지원 도구로써 활용하기에 적합하다는 평가를 내렸다. 특정 분야 특화 모델 개발 연구의 고찰 결과, 대부분의 연구들이 다양한 산업군으로의 확장 이 가능할 것으로 기대하고 있으며, 실무적인 활용 가능성이 있음을 시사하고 있다.

    다만, 교통안전 분야에서 언어모델의 활용 가능성은 분명하나, 분야 특화 모델 개발 프로세스 및 실제 사 례 기반 모델 구축 사례가 부족한 실정이다. 대부분의 연구에서는 용어 정의, 일반적 교통 분야 지식의 학습 을 수행하고 있으며, 모델의 개발 절차 및 데이터 구축 고려사항, 프로세스 등에 대한 제시는 부족한 것으로 보인다. 이는, 교통안전 분야에 특화된 언어모델을 구축하기 위한 실질적 프로세스와 학습 데이터의 성격 및 처리 방식, 고려사항 등에 대한 체계적 논의가 부족하기 때문으로 사료된다.

    따라서, 본 연구는 이러한 한계점들을 보완하기 위해 교통안전 분야에서 가장 핵심적인 과제 중 하나인 교통안전대응책 도출 및 의사결정 지원을 위한 프로토타입(prototype) 모델을 구축하며, 교통안전 분야에서의 활용 가능성을 고찰하고자 한다. 이상적으로는 파인튜닝과 RAG 기법을 통합 적용한 모델 개발이 바람직하 나, 컴퓨팅 자원의 제약으로 인해 두 기법을 각각 적용한 개별 모델을 개발하였다. 모델의 학습 데이터는 한 국교통안전공단의 COSAS 내 사고 예방대책 DB, 서울특별시 교통사고 잦은 곳 기본개선계획(KOROAD, 2016~2022), 사고 잦은 곳 개선사업 업무편람(2002)을 활용하여 구축하며, 실제 개선사업 수행 사례를 기반 으로 평가하였다. 또한, 이러한 일련의 과정을 프로세스로 제시하여 교통안전 분야에서의 언어모델 적용 가 능성을 학술적·실무적으로 입증하고자 한다.

    Ⅲ. 교통안전 분야 특화 SLM 개발 및 평가

    본 장에서는 프로세스 및 고려사항을 제시하기 이전에 이를 도출하기 위한 프로토타입 모델 구축 과정을 기술한다. 모델 구축 절차는 목적과 작업 환경에 따른 언어모델 선정, 분야 최적화를 위한 파인튜닝 및 RAG 기법 선정, 파인튜닝 학습 데이터 및 RAG DB 구축, 파인튜닝 및 RAG 기법 적용, 성능 및 신뢰성 평가의 다 섯 단계로 구성된다. 본 연구에서 개발하는 모델은 교통사고 잦은 곳의 개선사업 수행 이력을 학습하여 입력 된 교통사고 데이터 및 교통사고 잦은 곳의 정보를 기반으로 교통안전대응책을 도출할 수 있는 모델이다.

    1. 언어모델의 선정

    언어모델은 개발하고자 하는 모델의 목적 및 이용 대상에 부합하게 선정되어야 한다. 본 연구의 목적은 교통안전 분야에서 의사결정을 지원할 수 있도록 교통사고 잦은 곳의 개선사업 수행 이력을 학습하여 입력 된 교통사고 데이터 및 정보를 기반으로 교통안전대응책을 도출하는 모델을 개발함에 있다. 이에 부합하는 언어모델의 선정을 위해 다음과 같은 기준을 활용하였다. 첫째, 본 연구에서 활용할 수 있는 컴퓨팅 자원에 부합하는 규모의 모델일 것, 둘째, 공개중인 언어모델 중 상업적 이용이 허가되어 자유로이 활용할 수 있을 것, 셋째, 한국어를 지원하는 다국어(multilingual) 모델일 것, 마지막으로 파인튜닝 및 RAG와 같은 최적화 기 법의 적용에 무리가 없을 것이다.

    본 연구에서는 다양한 언어모델의 선정에 있어 언어모델 개발자 및 이용자들의 커뮤니티인 Hugging face2) 를 활용하였다. Hugging face는 다양한 언어모델들을 대상으로 성능, 필요 자원, 지원 언어, 최적화 기법의 적 용 가능 여부 등을 확인할 수 있도록 제시하고 있다. Hugging face를 기반으로 본 연구의 선정 기준에 부합하 는 모델들을 검토한 결과, 우선 가용한 컴퓨팅 자원의 한계로 대규모 파라미터 LLM의 활용에는 제약이 있 었다. 따라서, 공개중인 SLM을 대상으로 검토를 수행하였으며, 상업적 이용이 허가되며 한국어를 지원하는 모델들을 대상으로 한정하였다. 마지막으로, 파인튜닝 및 RAG의 적용 가능성은 대표적인 최적화 라이브러 리인 Unsloth3)의 지원 여부를 기반으로 판단하였다. Unsloth는 Hugging face에 공개된 다양한 SLM에 대해 양 자화 및 효율적인 파인튜닝을 지원하고 있으며, 그 모델별 권장 컴퓨팅 자원을 제시하고 있다. 최종적으로 본 연구에서 선정된 SLM은 Google사의 Gemma-3 27B 모델로, 선정 대상 모델들 중 두 번째로 파라미터 규 모가 크며 적은 샘플의 학습만으로 한국어와 영어의 표현력에 있어 OpenAI사의 GPT-4o 모델보다 높은 성능 을 보인다고 평가를 받은 모델이다(Google, 2025). 본 연구에서 활용한 컴퓨팅 자원 및 선정 대상 모델들의 상세는 <Table 1>과 같다.

    <Table 1>

    Available computing resources and selected SLM

    *Video random access memory

    source : https://unsloth.ai; https://huggingface.co/

    Category Model Description
    CPU i7-12700KF -
    GPU NVIDIA GeForce RTX 3090 *VRAM : 24GB
    RAM - 64GB
    SLM Computing resource
    Model Developer Commercial use Parameter scale Multilingual(Korean) Unsloth support VRAM(minimum)
    Gemma-3 Google Available 27B Available Available 22GB
    Gemma-2 Google Available 27B Available Available 16GB
    Gemma-2 Google Available 9B Available Available 8GB
    Phi-4 Microsoft Available 14B Limited Available 15GB
    Qwen-3 Alibaba Available 30B Available Available 17.5GB
    LLaMA-3.3 Meta Limited 8B Available Available 8GB

    2. 파인튜닝 및 RAG 기법 선정

    1) 파인튜닝 기법 선정

    파인튜닝은 사전에 학습된 모델의 파라미터들을 대상으로, 특정 분야에 특화될 수 있도록 추가 학습을 수 행하는 전이학습(transfer learning)의 대표적인 방법이다(Hu et al., 2021). 다만, 전체 파라미터를 학습시키는 풀 파인튜닝(full fine-tuning)은 컴퓨팅 자원과 시간적 비용이 크다는 단점이 있다. 따라서, 최근에는 LoRA와 같은 PEFT 기법이 주목받고 있으며, LoRA는 모델의 내부 파라미터는 고정한 상태에서 일부 계층에 저차원 행렬(adapter)을 삽입해 재학습을 수행한다(Hu et al., 2021). 본 절에서는 2장에서 소개한 파인튜닝 기법들 중, 비용적, 자원 효율적 측면을 고려하여 풀 파인튜닝을 제외한 PEFT 방법들의 장단점과 기법 선정 기준 및 고 려사항을 제시하고자 한다.

    먼저, 프롬프트 튜닝은 모델에 입력되는 컨텍스트의 앞단에 프리픽스(prefix)를 추가하여 파인튜닝의 효과를 얻는 방법이다. 언어모델에 프롬프트를 입력하여 응답 품질을 높이는 프롬프트 기반 학습의 연장선 상에서 개발된 PEFT 기법으로, 프리픽스는 학습 가능한 벡터로 구성되어 있다(Lester et al., 2021). 프롬프트 튜닝은 이용자가 작성한 학습 데이터의 QA쌍에서 정답을 제시할 수 있는 방향으로 학습을 수행하며, 그 과정에서 컨 텍스트 앞단의 고정된 프리픽스를 학습한다. 이때, 학습이 수행되는 언어모델의 파라미터 규모가 클수록, 프리 픽스의 벡터 길이가 길수록 높은 성능을 보인다. 예시로 OpenAI 사의 GPT-3 175B 모델에서는 프롬프트 튜닝과 풀 파인튜닝의 성능 차이가 크지 않는 것으로 나타났다. 다만, 프롬프트 튜닝은 기존 모델의 파라미터를 수정 하지 않고, 입력 앞단에 추가된 프리픽스 벡터만을 학습하기 때문에 특정 분야의 심층적인 내용을 반영하는 데는 한계가 있으며, 파라미터 규모가 작은 모델에서는 효율이 떨어진다는 평가가 있다(Lester et al., 2021).

    어댑터 튜닝은 언어모델의 계층 사이에 추가 모듈을 삽입하고, 그 부분만 학습하는 방법이다(Pfeiffer et al., 2020). 타 PEFT 기법과 동일하게, 언어모델의 파라미터는 고정시키며 학습 데이터의 QA쌍 혹은 문서에서 제 시하는 업무(task)에 적합한 패턴만을 계층별 어댑터가 학습한다. 특히, Pfeiffer et al.(2020)은 동일한 언어모 델을 사용하더라도 분야에 따라 어댑터 모듈을 저장·교체하는 방법을 활용하였으며, 이는 다중 분야 지원과 관리 측면에서 효율적이라는 평가를 받았다. 다만, 어댑터 모듈은 언어모델의 계층별로 연산되기 때문에 응 답의 생성 및 추론 과정에서 모델의 구조가 복잡해지거나 소요시간이 증가할 수 있다는 한계점이 존재한다 (Houlsby et al., 2019).

    마지막으로 LoRA는 언어모델의 특정 계층 사이에 저차원 행렬 곱을 삽입하여 학습할 수 있도록 하는 기 법이다. LoRA는 기존 가중치 행렬에 추가된 저차원 행렬을 더하여 업무에 부합하는 편향을 반영할 수 있다. 특히, LoRA는 전체 파라미터 수 대비 수십~수백배 적은 파라미터만을 학습함에도 불구하고 풀 파인튜닝과 유사한 성능을 낼 수 있다고 보고되었다(Hu et al., 2021). 최근에는 컴퓨팅 자원의 최적화를 목적으로 양자화 된 언어모델에 LoRA를 적용하는 QLoRA(quantized LoRA)가 주목받고 있으며, QLoRA 기법을 적용하는 경우 단일 GPU 환경에서도 언어모델을 파인튜닝 할 수 있을 정도로 자원 효율성이 증대되었다. 타 PEFT 기법들 과 상이하게, LoRA는 내부 가중치 행렬의 덧셈 형태로 응답 생성에 영향을 주기 때문에, 추론 과정에서의 소요시간 증가가 최소화된다. 다만, 행렬 곱의 형태로 가중치를 저장하는 특성상, 랭크(차원의 수)의 조절에 따라 성능이 민감하게 변화한다. 따라서, 다수의 실험과 하이퍼파라미터 튜닝이 필수적이다(Valipour et al., 2023). 본 절에서 제시한 다양한 PEFT 기법들을 비교·분석한 결과는 <Table 2>에 제시하였다.

    <Table 2>

    Comparison of PEFT techniques

    Technique Trainable parameters Inference latency Efficiency (VRAM) Performance vs Full fine-tuning Limitations
    Prompt tuning Very low None Very high Comparable on large LLM
    • Primarily effective on very large LLMs (limited impact on smaller models)

    Adapter tuning Low Medium High Slightly lower
    • May increase latency

    LoRA Low Minimal Very high Comparable
    • Performance is sensitive to rank selection and layers

    • strongly dependent on hyperparameter optimization

    QLoRA Low Minimal Very high Comparable
    • Applicable only to quantized LLM

    • Strongly dependent on hyperparameter optimization

    2) RAG 기법 선정

    RAG는 언어모델이 응답을 생성할 때, 모델 외부에 위치하는 이용자가 사전 정의한 데이터베이스로부터 관련 문서를 검색하고 그 내용을 토대로 답변을 생성할 수 있도록 하는 기법으로, 검색 방식과 단계에 따라 분류할 수 있다. 검색 방식은 키워드 기반의 sparse retrieval과 임베딩 유사도를 활용하는 dense retrieval로 구 분되며, 두 방식을 혼합하여 정확성을 높이는 방법도 존재한다(Lewis et al., 2021). 검색 단계는 단일 검색 방 식인 single-hop retrieval과 다중 검색 방식인 multi-hop retrieval로 구분된다.

    Sparse retrieval은 전통적인 정보 검색 방식을 활용하며, RAG 데이터베이스에 존재하는 문서 중 질의에 해 당하는 토큰(키워드)이 존재하는 지의 여부를 기반으로 문서를 검색한다. 동일한 토큰을 검색하여 문서를 선 택하는 특성상, 구현이 간단하고, 탐색 속도가 빠르며, 대규모 RAG 데이터베이스에서 효과적으로 활용될 수 있다. 다만, 문서의 검색에서 단순한 동일 단어 빈도 등을 기반으로 참고 문서를 선택하기 때문에 의미론적 인 유사도는 고려하지 못한다는 단점이 있다. Dense retrieval은 문서와 질의를 사전 학습된 언어모델을 통해 임베딩 벡터로 변환하여, 의미적 유사성에 기반해 문서를 검색한다. 입력된 쿼리를 벡터화하여 활용하기 때 문에 의미론적 유사성을 고려할 수 있어 대부분의 RAG 파이프라인이 dense retrieval을 활용하고 있다. 다만, 데이터베이스의 구축에서 모델의 학습이 필요하며, 대규모 데이터베이스를 구축하는 경우 검색 소요 시간을 줄이기 위한 추가적인 인덱싱 작업이 필요하다는 한계가 있다. 최근에는 컴퓨팅 자원 효율성을 높이기 위해 dense retrieval과 sparse retrieval을 혼합하여 활용하고 있는데, 코사인 유사도 기반 키워드 필터링을 수행한 후 의미론적 유사도를 확인하는 방법들도 제시되고 있다(Wang et al., 2023).

    검색 단계에 따라 single-hop retrieval과 multi-hop retireval로 구분되는데, single-hop retireval방법은 한 번의 검색으로 응답 생성의 근거가 되는 문서를 찾는 방법이며, multi-hop retrieval은 여러 번의 검색을 수행하여 보다 적합한 문서를 찾을 수 있도록 하는 방법이다. 예를 들어, RAG 데이터베이스가 법규 범주, 사례 범주 등으로 구분되어 구성된다면, multi-hop retrieval은 먼저 질의에서 핵심 키워드를 기반으로 1차로 법규 범주에 서 근거 문서를 검색하고, 유사 사례 범주에서 실제 사례를 검색하여 보다 신뢰도 높은 종합 답변을 제공할 수 있다(Izacard and Grave, 2021). 본 절에서 제시한 RAG 기법들을 비교·분석한 결과는 <Table 3>과 같다.

    <Table 3>

    Comparison of RAG retrieval techniques

    Retrieval type Similarity Method Retrieval speed Limitations
    Sparse Keyword based Very fast
    • Cannot capture semantic similarity

    Dense Semantic similarity Moderate
    • Higher initial setup cost and large vector DB required

    Single-hop Single-stage Fast
    • Limited when answer requires multi-source reasoning

    Multi-hop Multi-stage Slow
    • Increased latency

    • Complex orchestration

    본 연구에서 RAG로 활용하고자 하는 데이터는 사고 잦은 곳 개선사업 업무 편람(2002)의 개선방안별 설치방법이다. 먼저 RAG 데이터베이스의 검색 방식은 법규, 지침, 실무 보고서 등에서 활용하는 용어의 다 양성을 고려하여 단순한 토큰 유사도 기반 검색보다는 의미론적인 유사도까지 고려하는 dense retrieval을 선 택하였다. 또한, 데이터베이스의 구축에 다양한 범주의 데이터가 포함되어 있으므로 문서를 청킹(chunking)하 여 RAG 데이터베이스 내에 존재하는 여러 개의 청크 중 쿼리와 부합하는 것을 선택 및 병합할 수 있는 multi-hop 방법을 선택하였다.

    3. 파인튜닝 및 RAG 데이터 세트 구축

    1) 파인튜닝 학습 데이터 구축

    파인튜닝의 학습 데이터 세트는 대부분이 QA쌍의 형태로 구축되며, 이는 LLM이 채팅 기반의 질의응답 구조로 작동하기 때문에 이와 유사한 패턴으로 학습을 수행시키기 위함이다(OpenAI, 2025). 다만, 대량의 데 이터를 QA쌍으로 구축하는 데는 많은 시간과 비용이 소모되기 때문에 대형 LLM(예, OpenAI 사의 GPT-4o) 를 활용하여 QA쌍을 생성한 뒤, SLM의 학습 데이터로 활용하는 knowledge distillation 기법이 활용되고 있다 (Wang et al., 2023). Knowledge distillation 기법을 효과적으로 적용하기 위해서는 대형 LLM에 QA쌍 구축의 기반이 되는 학습 데이터를 체계적으로 구조화하여 제공해야 한다. 예를 들어, 교통사고 유형 별로 적절한 예방대책을 제시하는 QA쌍을 구축하는 경우, 교통사고의 유형 분류 기준에 따른 교통사고 예방대책을 매핑 한 표를 <Table 4>와 같이 대형 LLM에 제공해야 한다. 이렇게 구조화된 데이터는 대형 LLM이 이용자가 정 의한 로직에 따라 QA쌍을 자동으로 생성할 수 있도록 한다.

    <Table 4>

    Example of fine-tuning training data constructed by applying knowledge distillation

    Road type Object 1st priority 2nd priority 3rd priority 4th fixed 5th fixed
    National Vehicle-to-vehicle Victim child status Victim elderly status Accident cause code Accident situation Law violation
    National Vehicle-to-pedestrian Accident time Victim elderly status Road type code Accident situation Law violation
    National Single vehicle Vehicle use code Age code Drunk driving status Accident situation Law violation
    Local Vehicle-to-vehicle Victim child status Victim elderly status Accident cause code Accident situation Law violation
    Local Vehicle-to-pedestrian Vitim elderly status Accident time Road type code Accident situation Law violation
    Example
    Role content
    user A vehicle-to-pedestrian accident occurred on a national road. The accident situation was a head-on collision and the law violation was speeding. A child was among the victims. What would be appropriate traffic accident prevention measures under these conditions?
    assistant Install pedestrian detection lighting and night-time visibility enhancement facilities.

    본 연구에서는 파인튜닝 학습 데이터 구축을 위해 한국교통안전공단의 COSAS에서 제공하고 있는 위험 지역분석의 사고예방대책 DB를 활용하였다. 해당 DB는 국내 도로망에서 발생하는 교통사고를 경찰청 교통 사고 데이터의 분류 기준에 따라 7개 위계로 분류하고 있으며, 해당 위계별 118개의 교통안전대응책을 매핑 하여 제시하고 있다. 본 연구에서 knowledge distillation 기법을 적용하기 위해 활용한 모델은 OpenAI 사의 GPT-4o 모델로, 교통사고 유형별 예방대책의 매핑 사례마다 QA쌍을 구축하였다. 총 구축된 QA쌍은 63,063 개로, 그 예시는 <Table 4>와 같다.

    2) RAG 학습 데이터 구축

    RAG 학습 데이터의 구축에서 가장 중요한 점은 검색 방법에 부합하며, 검색 결과가 이용자의 질문과 충 분한 연관성을 유지할 수 있도록 설계해야 한다는 점이다. 이를 위해서, RAG의 개별 데이터(청크)는 지나치 게 방대하거나 불필요한 내용은 포함하지 않고, 하나의 목적성을 가진 형태로 세분화·독립화하여 작성하는 것이 바람직하다. 예를 들어, 개별 교통안전 예방대책에 대한 고려사항을 포함한 청크를 작성할 때에는 질문 과 직접 연결될 수 있도록 키워드나 맥락 단어를 포함하여 검색 정확도를 높일 수 있다. 또한, 검색 방법을 multi-hop으로 설정하는 경우, 청크 간 연관성을 연결할 수 있도록 참조 키워드 등과 같이 하나의 청크에서 다른 청크로 연결될 수 있는 구조를 고려해야 한다.

    한국어 기반의 RAG 학습 데이터를 구축하기 위해서는 기본적인 고려사항 외에 한국어의 문서 특성도 고 려해야 한다. 예를 들어, 교통안전 분야에서 RAG 데이터로 활용할 수 있는 대표적인 문서들인 교통안전 관 련 법규, 지침, 편람, 매뉴얼 등은 대부분이 PDF의 형태로 배포되고 있다. 이러한 경우, 한국어에 특화된 광 학 문자 인식(optical character recognition, OCR)을 수행해야 문맥을 유지하고 오류를 낮출 수 있다. 특히, 교 통안전 관련 문서는 계층별로 다단으로 분류된 표가 핵심적인 내용을 포함하고 있는 경우가 많으며, 표의 내 용을 RAG로 활용하기 위해서는 표 내부 행과 열에 대한 개별 인덱싱과 마스킹이 필요하다. 최근에는 표의 구조를 별도 인덱싱 없이도 인식할 수 있는 다양한 OCR 모델과 라이브러리가 개발되고 있으나(Nassar et al., 2022;Lee, 2025), 한글 문서에 실무적으로 활용하기에는 한계가 따른다. 따라서, 본 연구에서는 RAG 데이터 베이스로 활용한 사고 잦은 곳 개선사업 업무편람(MOLIT, 2002)에서 제시하고 있는 개선방안 고려사항들 을 <Table 5>와 같은 형태로 수기로 작성하여 42개의 RAG 학습 데이터를 데이터를 구축하였다.

    <Table 5>

    Sample RAG dataset for improvement measures and considerations

    Counter measure Installation Considerations
    Intersection layout improvement
    • Clearly define the dominant and subordinate traffic flows, and avoid multi-leg intersections with five or more approaches.

    • Ensure that intersection angles are as close to right angles as possible.

    • Avoid skewed or staggered intersections and other irregular forms.

    • Keep the intersection area as small as possible.

    • Separate left-turn/right-turn traffic flows from through traffic.

    • Clearly define the guiding routes for left-turning and right-turning vehicles

    • In the case of right-angle intersections:

      • - Reduce the corner radius to clearly define the dominant traffic flow.

      • - Install exclusive left-turn lanes to separate left-turn/right-turn through traffic.

      • - Widen the right-turn lanes and add guiding markings to adjust stop lines toward the center direction.

      • - Relocate crosswalks closer to intersection considering pedestrian movement paths.

    source : C-Intersection layout improvement
    chunk id: C-Intersection layout improvement
    Median installation
    • Install shoulders within the median; the shoulder width should be at least 0.5 m for design speeds of 80 km/h or higher, and at least 0.25 m for speeds below 80 km/h.

    • If roadside facilities are installed within the median, ensure that the median width secures the required clearance.

    • Select the type and structure of the median based on the curb shape, surface shape, surface treatment, design speed, urbanization level, cost-effectiveness, and road classification.

    ...
    ...

    4. 파인튜닝 및 RAG 기법 적용

    1) 파인튜닝 기법 적용

    본 연구에서는 PEFT의 적용을 위해 저사양의 컴퓨팅 자원에서도 PEFT의 수행이 가능하도록 하는 Unsloth 라이브러리를 활용하였다. 본 연구에서 활용한 모델의 세부사항은 <Table 6>과 같다. LoRA 또는 QLoRA는 특히 저차원 행렬의 차수(r), 스케일 계수(lora alpha) 값이 모델의 성능과 학습 안정성에 큰 영향을 미치기 때 문에 하이퍼파라미터 최적화가 필수적이다.

    <Table 6>

    Computing resources and PEFT hyperparameter settings

    Category Sort/parameter Value Description
    Computing resources CPU i7-12700KF -
    GPU NVIDIA GeForce RTX 3090 VRAM : 24GB
    RAM - 64GB
    Model model name gemma-3-27b-pt-bnb-4bit Pre-trained, 4-bit quantization applied
    max seq length 2048 Maximum sequence token length
    load in 4bit True QLoRA
    LoRA finetune vision layers False Vision layers not fine-tuned
    r 8 LoRA low-rank matrix dimension
    lora alpha 8 Scaling factor, generally same as *r
    lora dropout 0 Dropout rate (generally around ~0.1)

    먼저, 저차원 행렬의 차수는 LoRA 또는 QLoRA에서 모델에 삽입되는 저차원 행렬의 내부 차원 수를 의미 한다. 행렬의 차수가 크면 모델이 학습 가능한 파라미터 수가 많아지며, 학습 데이터의 복잡한 입·출력 관계 를 더욱 세밀하게 학습할 수 있지만, 차원 수가 커질수록 VRAM 사용량과 계산량이 늘어나고, 과적합의 가 능성이 높아진다. 스케일 계수는 PEFT 과정 중에 학습한 가중치를 기존 모델의 가중치에 얼마나 반영할지를 조절하는 계수이다. LoRA 또는 QLoRA의 학습 가중치 업데이트는 수식(1)과 같다. y를 모델의 최종 출력, x 를 모델의 입력값이라고 할 때, W0x는 사전학습된 모델의 출력이며, α 는 스케일 계수, r을 저차원 행렬의 차수, BA 는 LoRA 또는 QLoRA에 의해 학습된 보정행렬이다. 이에 따라, αr를 동일하게 설정하면 ΔWBA 로 단순화되어 학습 안전성과 일관성을 확보할 수 있기에, 대부분의 연구에서 이를 동일하게 설정하 도록 권장하고 있다(Hu et al., 2023;Dettmers et al., 2023).

    y = W 0 x + α r · B A x
    (1)

    따라서, 본 연구에서는 ar 값을 포함한 다양한 하이퍼파라미터들을 시행착오법을 통해 최적화를 수행 하였으며, 최종적으로 구축된 모델의 하이퍼파라미터는 <Table 6>과 같다.

    2) RAG 기법 적용

    본 연구는 파인튜닝을 적용한 모델과 RAG 기법을 적용한 모델의 성능 비교·분석을 위해 파인튜닝을 적용 한 모델과 동일한 환경에서 RAG 기법을 적용하였다. RAG 기법은 의미론적 유사성을 고려하는 dense retrieval 방법을 적용하였으며, 여러 번의 검색을 통해 근거 청크를 찾는 multi-hop retrieval 방법을 적용하였 다. RAG 구현을 위해 활용한 프레임워크는 LangChain으로, RAG 내부에서 질의와 관련된 청크를 찾을 수 있 는 모듈인 ConversationalRetrievalQA를 적용하였다. RAG 데이터베이스의 임베딩은 한국어 임베딩에 특화된 모델인 korean natural language inference(KorNLI)를 활용하였다. KorNLI는 타 다국어 임베딩 모델과 비교하였 을 때, 한국어의 의미론적 유사성을 높은 성능으로 반영할 수 있게 설계되어, 의미 기반 검색의 정확도를 향 상시킬 수 있다(Ham et al., 2020).

    본 연구에서는 RAG 기법이 적용된 모델에 출력 양식(template)을 설정하여 개선대책별 설명, 고려사항, 근 거를 제시할 수 있도록 설정하였다. RAG 기법을 적용할 경우 설정해야 하는 핵심적인 하이퍼파라미터는 검 색할 문서 개수를 설정하는 top_k, 문서를 구분하는 청크의 크기 및 중첩 길이에 해당하는 chunk_size 및 chunk_overlap, 문서의 조합 방식인 chain_type 등이다. 본 연구에서는 RAG 데이터베이스에서 개선대책 별 정 보를 이미 청크로 나누어 구축하였기 때문에 chunk_size 및 chunk_overlap은 제외하고 설정하였다.

    먼저 top_k가 지나치게 크게 설정될 경우, 질문의 토큰들과 유사성이 있는 다수의 청크를 참조하여 답변이 생성되기 때문에 응답의 일관성 및 정확성이 떨어지고, LLM의 context가 지나치게 커질 수 있다는 우려가 존재한다. 따라서, 본 연구에서는 기본값인 3으로 설정하였다. Chain_type은 모든 청크를 합쳐서 이용자의 질 의에 병합한 후 LLM에 전달하는 방식인 ‘stuff’, 검색된 k개의 청크를 병합 후 요약하여 이용자 질의에 추가 하는 방식인 ‘map_reduce’, 검색된 청크의 수 만큼 답변 생성·요약을 수행하여 점진적으로 답변을 개선시키 는 ‘refine’, 개별 문서의 질문 적합도를 언어모델이 판단하도록 한 후, 가장 적합하다고 판단한 청크 기반 답 변을 선택하는 ‘map_rerank’ 방식이 있다. 다만 설정되는 chain_type의 방법에 따라 컴퓨팅 자원의 소모가 변 동되기 때문에, 본 연구에서는 가장 기본적인 ‘stuff’로 설정하여 모델을 구축하였다. 최종적으로 구축된 RAG 기법 적용 모델은 <Table 7>과 같다.

    <Table 7>

    RAG hyperparameter settings

    * The computing resources and model configuration are the same as in <Table 6>

    Category Sort/parameter Value/setting Description
    RAG Prompt tuning Countermeasure:
    Considerations:
    Basis:
    A format provided to the LLM to ensure a fixed output structure
    top_k 3 Selects the top K most relevant documents during retrieval.
    chain_type stuff Determines how retrieved documents are passed to the LLM (e.g., stuff, refine).
    chunk_size - Defines length of each text chunk when splitting long documents.
    chunk_overlap - Sets number of overlapping tokens between chunks to preserve context.

    5. 개별 모델 답변 예시 및 사례 기반 평가

    본 연구에서는 교통안전대응책의 제시를 목적으로 상이한 학습 데이터 기반 SLM 모델을 개발하였다. 첫 번째 모델은 COSAS에서 활용하는 교통사고 유형 및 교통안전대응책 데이터를 기반으로 파인튜닝을 수행하 여 교통사고 유형별로 구조화된 예방대책을 생성할 수 있도록 설계하였다. 두 번째 모델은 사고 잦은 곳 개 선사업 업무편람(MOLIT, 2002)을 기반으로 교통안전대응책 별 고려사항을 RAG 데이터 세트로 구축하고, 데이터 세트를 기반으로 제시된 교통사고 유형에 적합한 교통안전대응책을 제시하고 고려사항을 생성할 수 있도록 설계하였다. 두 모델은 동일한 목적을 가지고 있지만, 첫 번째 모델은 학습 데이터에서 제시된 교통 사고 유형과 대응책 사이 관계를 학습하였으며, 두 번째 모델은 SLM 모델의 사전학습된 데이터에 교통사고 대응책의 고려사항을 추가로 제시받아 적절한 교통사고 대응책을 생성할 수 있도록 구성되었다는 차이점이 있다.

    일반적으로 언어모델의 성능 평가를 위해서는 벤치마크 테스트를 수행한다. 현재 공개되어 있는 벤치마크 데이터는 언어모델의 범용적인 성능을 평가하기 위해서 구축된 경우가 많으며, 특수 분야에서의 성능을 평 가하기 위한 데이터 세트도 활발히 구축되고 있다(Jin et al., 2019;Huang et al., 2025). 다만, 교통안전 분야 특화 모델을 평가할 수 있는 체계적인 벤치마크 데이터 세트는 구축되지 않은 상황이다. 따라서, 본 절에서 는 한국도로교통공단의 서울특별시 교통사고 잦은 곳 기본개선계획(KOROAD, 2016~2022)의 실제 개선사 업 수행 사례를 기반으로 하여, 각 교통안전 분야 특화 SLM의 응답 특성과 실효성을 검토하고 향후 언어모 델의 교통안전 분야에서 활용 가능성을 제시하고자 한다. 실사례 기반 평가는 다양한 실제 사례들을 Gemma-3 27B 원본 모델과 파인튜닝 및 RAG가 적용된 모델에 입력하여 수행되었으며, 그 중 대표적인 사례 를 <Table 8>에 제시하였다. 개발된 모델이 교통안전대응책과 관련이 없거나 옳지 않은 방향으로 응답을 제 시한 사례는 <Table 9>에 제시하였다.

    <Table 8>

    Comparison of example responses by model

    Improvement project for areas prone to traffic accidents actual case
    Please present countermeasures to traffic accidents at the following considerations, and basis.
    The main types of accidents were 6 vehicle-pedestrian accidents, 4 signal violations, 2 motorcycle accidents, 1 bicycle accident, 4 rear-end collisions, and 16 other vehicle-vehicle accidents, for a total of 34 accidents.
    The causes and problems of the accidents are as follows.
    1. Frequent illegal U-turns due to inadequate central dividers
    2. Conflicts between left-turning vehicles and straight-through vehicles
    3. Frequent pedestrian jaywalking and illegal U-turns in safety zones
    4. Inadequate pedestrian safety facilities at crosswalks in the right-turn lane
    What countermeasures can be implemented for these issues?
    Model Response
    Pretrained Model
    1. Prevention of illegal U-turns

      • - Installation of guardrails

      • - Reinforcement of safety zones for safe pedestrian movement

    2. Prevention of collisions between vehicles waiting to turn left

      • - Prevention of collisions by adjusting location of left turn signals

    3. Prevention of illegal crossing of safety zones

      • - Control of pedestrian by installing guardrails in safety zones

      • - Prevention of illegal U-turns by changing signals

    4. Prevention of vehicle-pedestrian accidents at right-turn crosswalks

      • - Installation of additional crosswalk signals to enable vehicles to stop during illegal U-turns and right turns

      • - Installation of guardrails in safety zones within intersections to prevent pedestrians from crossing without using crosswalks, thereby reducing vehicle collisions through prevention of jaywalking and illegal U-turns.

    Fine-tuned Model [Geometric structure]
    • - Widening access road

    • - Removing obstacles that obstruct visibility

    • - Improving drainage


    [Safety facility]
    • - Installation of crosswalk signal

    • - Improving road markings


    [Traffic management]
    • - Set speed limits on access roads

    • - Diverting right turn traffic

    RAG Model [Countermeasures]
    1. Installation of road reflectors and signposts

    2. Intersection channelization

    Example instruction
    • - Countermeasure: Installation of road reflectors

    • - Considerations: The mirror's bottom edge should be 2.5 m above the road surface. Warning signs must be placed to avoid blocking pedestrian movement.

    • - Basis: Reflectors are required where visibility is insufficient due to design speed, or at intersections and railroad crossings with limited sight distance.

    ...
    <Table 9>

    Examples of model’s inappropriate responses

    Improvement project for areas prone to traffic accidents actual case
    Please present countermeasures to traffic accidents at the following considerations, and basis.
    The main types of accidents were 6 vehicle-pedestrian accidents, 4 signal violations, 2 motorcycle accidents, 1 bicycle accident, 4 rear-end collisions, and 16 other vehicle-vehicle accidents, for a total of 34 accidents.
    The causes and problems of the accidents are as follows.
    1. Frequent illegal U-turns due to inadequate central dividers
    2. Conflicts between left-turning vehicles and straight-through vehicles
    3. Frequent pedestrian jaywalking and illegal U-turns in safety zones
    4. Inadequate pedestrian safety facilities at crosswalks in the right-turn lane
    What countermeasures can be implemented for these issues?
    Model Response
    Fine-tuned Model Case 1 Frequent illegal U-turns due to insufficient median barriers: Proposal for installing corner channelization islands.
    Case 2 From a geometric design perspective, extension of safety zones and adjustment of residential land is proposed;
    From a geometric design perspective, installation of protective barriers is proposed;
    From a geometric design perspective, corner treatment is proposed;
    From a geometric design perspective, adjustment of traffic signals is proposed;
    From a geometric design perspective, installation of channelization is proposed;
    From a geometric design perspective, lane adjustment is proposed;
    From a geometric design perspective, installation of median barriers is proposed;
    From a geometric design perspective, improvement of access road alignment is proposed.
    Case 3 From a geometric design perspective, installation of median barriers, channelization of safety zones;
    From a geometric design perspective, from a safety facilities perspective, installation of crosswalks, installation of pedestrian signals;
    From a geometric design perspective, from a traffic operation perspective, intersection channelization, access road speed limits are proposed.
    RAG Model Case 1 ## 1.1.2 GPT-4
    ```python
    from langchain.chat_models import ChatOpenAI
    chat = ChatOpenAI(model_name="gpt-4", temperature=0.0)
    ...
    Case 2 [Countermeasure 1]
    Countermeasure :
    Considerations :
    Basis :
    [Countermeasure 2]
    Countermeasure :
    Considerations :
    Basis :
    ...

    먼저, 개별 모델이 옳은 방향으로 답변한 <Table 8>을 기반으로 모델의 답변을 확인한 결과, 원본 Gemma- 3 27B 모델은 불법 U턴을 방지하기 위한 교통안전대응책으로 가드레일 설치, 안전지대 보강과 좌회전 신호 기 위치 조정, 안전지대 내 가드레일 설치 및 횡단보도 신호기 추가 설치를 제시하였다. 해당 대응책은 제공 된 문맥상 일부 적절한 것으로 보이나, 안전지대 내 가드레일 설치와 같이 실제 적용이 불가능한 대응책을 제시하고 있으며, 대응책의 설치 근거, 고려사항 등을 제시하지 못해 응답의 구체성이 떨어지는 한계가 있 다. 파인튜닝을 수행한 모델은 기하 구조적 측면에서는 접근로 확장, 교차로 도류화, 시야 장애물 제거를, 안 전시설 측면에서는 보행자 신호등 설치, 접근로 조명 개선을, 교통운영 측면에서는 접근로 속도제한, 교통량 우회 유도를 대응책으로 제시하였다. 제시한 대응책은 개별 교통안전대응책이 현 시스템에서 활용하는 내용 을 반영하였기에, 실무적인 측면에서도 일부 효용성을 가질 수 있을 것으로 기대되나, 대응책의 수행 근거 및 가이드라인을 제시하지 않아 사전학습 모델과 유사한 한계점을 보인다. 또한, 복합적인 사고발생 요인을 고려하지는 못했는데, 이는 학습 데이터에서 제시된 정보만을 대상으로 교통안전대응책을 제시했기 때문으 로 보인다. 마지막으로 RAG 모델은 도로 반사경 설치, 표지병 설치, 교차로 도류화를 교통안전대응책으로 제시하였으며, 입력에서 제시한 고려사항 및 근거를 명확하게 제시하고 있다. 다만, 파인튜닝 모델이 제시하 는 것과 같이 측면별 대응책을 제시하고 있지는 않으며, 출력 결과가 RAG 데이터 세트에 제시된 대응책에 한정된다. 실제 사례에서 제시한 교통안전대응책은 중앙분리대 설치, 신호현시 조정, 시선유도봉 설치, 보행 자 방호울타리 설치, 과속방지턱 설치, 노면표시 도색이었으며, 세 모델 모두 일부 실제 수행된 교통안전대 응책을 포함하여 응답하고 있음을 확인할 수 있다.

    개별 모델이 적절하지 않은 방향으로 답변한 사례인 <Table 9>를 확인한 결과, 파인튜닝 모델과 RAG 모 델 모두 다양한 형태의 부적절 답변을 제시하였다. 대표적으로, 파인튜닝 모델의 경우 예방대책의 제시가 하 나의 측면에서만 제시되는 사례, 제시한 예방대책은 적절하나 출력 형태에 오류가 있는 사례, 제시된 사고발 생요인 및 문제점 한 가지에 대해서만 답변한 사례가 존재한다. 이는, 모델의 출력값 생성 과정에서 다양한 학습 데이터를 고려하지 못하였거나 문맥을 기억하지 못하였기 때문으로 사료된다. RAG 모델의 경우, 질문 의 내용과 관련이 없는 코드를 출력하거나 공란으로 답변한 사례가 존재한다. 이는, 모델의 입력 프롬프트에 전달되는 참고 문서의 청크 길이가 지나치게 길어 입력 가능한 토큰 수를 벗어났거나, 무작위적으로 언어모 델이 정상적으로 작동하지 못한 경우로 보인다.

    6. 소결

    본 절에서는 교통안전 분야에 특화된 언어모델을 개발하는 과정을 전반적으로 제시하고, 개발된 모델을 실사례를 통해 평가하였으며 이에 따른 한계점을 제시하였다. 최적화가 수행되지 않은 모델의 출력값을 확 인한 결과, 문맥에는 부합하나 적용이 불가능한 교통안전대응책을 제시하거나, 대응책별 고려사항 및 설치 근거 등을 제시하지 못해 실무적으로 활용하기에는 무리가 있는 것으로 나타났다. 파인튜닝된 모델의 경우, 기존 모델과 유사하게 대응책 별 고려사항 및 설치근거는 제시하지 못하였으나 실무적으로 활용되고 있는 교통안전대응책을 기초로 하여 답변을 생성했기에 효용성을 가질 수 있을 것으로 기대된다. 마지막으로 RAG 모델은 RAG 데이터베이스에 포함되는 교통안전대응책을 대상으로 답변을 생성하며, 대응책별 고려사 항 및 설치 근거도 명확히 제시할 수 있음을 확인하였다. 최적화가 수행된 모델들은 최적화가 수행되지 않은 원본 모델과 비교하였을 때, 답변의 상세성·적합성이 일부 개선된 것으로 확인되며, 실제 교통안전대응책 제 시에 보다 실무적 효용성을 가질 수 있을 것으로 기대된다.

    다만, 개발된 모델들은 대부분의 시도에서 이용자의 목적에 부합하는 형태로 출력값을 생성하였으나, 일 부 사례에서 한계점을 보이기도 하였다. 파인튜닝 모델은 제시된 입력값을 모두 고려하지 못하거나 출력 형 태에 오류가 있는 사례, RAG 모델은 질문과 관련 없는 코드를 출력하거나 공란으로 답변한 사례가 존재한 다. 분석 결과를 종합하였을 때, 현재 개발된 모델을 실무적으로 활용하기에는 무리가 있을 것으로 보인다. 이는 입력된 질문에 대상 구간의 사고발생요인 및 주 사고유형만이 포함된 점, 학습 데이터가 교통안전 전반 의 정보를 포함하지 못하였다는 점, 언어모델의 프롬프트 엔지니어링 및 입출력 양식의 정의가 명확하게 이 루어지지 않았다는 점 등의 한계 때문인 것으로 사료된다. 향후 실제 교통안전 개선사업 사례 전반에 대한 데이터를 수집·구조화하여 학습하는 경우 학습된 데이터의 완성도에 따라 실무적으로 활용 가능한 모델을 구축할 수 있을 것으로 보이며, 입력되는 질문에 대상 구간의 기하구조적 정보, 기설치된 안전시설, 설계속 도 등과 같은 정보를 추가로 제공할 경우, 모델의 응답 구체성을 향상시킬 수 있을 것으로 판단된다.

    Ⅳ. 교통안전 분야 특화 언어모델 구축 프로세스 제시

    1. 교통안전 분야 특화 언어모델 구축 프로세스 제시

    본 절에서는 교통안전 분야에 특화된 프로토타입 SLM 구축을 위한 일련의 절차를 정리하고, 이를 프로세 스로 체계화하여 제시하고자 한다. 특히, 모델의 목적 설정부터 기법 선정, 데이터 세트 구축, 평가 단계까지 의 전체 흐름을 설명하고, 교통안전과 같은 특수 분야에서 고려해야 할 사항을 제시하고자 한다.

    특정 분야에 특화된 SLM을 구축하기 위해서는 가장 먼저 그 목적과 이용 대상을 명확히 설정하는 것이 중요하다. 모델의 구축 목적과 이용 대상은 모델의 선정, 모델의 학습 및 보완 방법, 데이터 세트의 구축과 직결되기 때문이다. 모델의 목적과 이용 대상이 설정되었으면, 작업 환경과 목적에 부합하는 언어모델을 선 정해야 한다. 모델의 선정 시에는 성능, 확장성, 분야 특화 기법 적용 가능성, 라이선스 여부 등을 고려해야 한다. 모델의 선정 이후에는 분야 특화를 수행하기 위한 기법을 선정해야 한다.

    분야 특화를 수행하기 위한 대표적인 방법은 파인튜닝과 RAG 기법이 있으며, 파인튜닝의 경우 저사양의 작업 환경에서 적용할 수 있는 PEFT도 함께 고려할 수 있다. 파인튜닝 기법은 이용자가 입력하는 분야 특화 지식을 추가로 학습시킬 수 있으며, 학습 데이터의 입·출력 양식 및 데이터 세트 내 다양한 관계성을 학습한 다. RAG 기법을 적용한 모델은 사전학습된 언어모델의 사고능력을 기반으로 구축된 RAG 데이터베이스를 참고하여 답변이 생성된다. 즉, 새로운 정보를 언어모델에 학습시키기 위해서는 파인튜닝 기법을, 이용자가 제공한 근거를 기반으로 언어모델의 답변을 생성하기 위해서는 RAG 기법을 적용할 수 있다.

    언어모델의 분야 특화 기법의 선정 후에는 기법별로 활용될 데이터 세트를 구축해야 한다. 파인튜닝의 데 이터 세트는 일반적으로 QA쌍의 형태로 작성하는 것이 권장되며, 이용자가 모델에 입력할 질문의 형태 및 기대하는 답변의 형태로 작성하여야 한다. RAG 학습 데이터는 언어모델의 답변에 활용될 수 있는 근거 문 서들을 적절한 길이로 나누어 청크로 구축하며, 청크와 이용자의 질문이 연결될 수 있도록 키워드, 출처 등 을 작성하는 것이 도움이 될 수 있다.

    마지막으로, 모델에 분야 특화 기법을 적용하고 그 결과를 평가해야 한다. 모델의 일반적인 성능 평가는 다양한 벤치마크 데이터 세트를 통해 가능하나, 특수 분야의 심층적인 벤치마크 데이터 세트가 구축되지 않 은 경우가 존재한다. 이러한 경우에는 관련 업계 종사자 및 전문가들의 정성적인 평가를 통해 모델의 성능을 평가하는 방법도 함께 고려할 수 있다. 이러한 일련의 과정을 도식화하여 제시한 결과는 <Fig. 1>과 같다.

    KITS-24-5-54_F1.jpg
    <Fig. 1>

    Conceptual process for SLM-based decision-support model to derive traffic-safety countermeasures

    2. 교통안전 분야 특화 언어모델 구축 고려사항

    본 연구의 모델 구축 과정에서 마주한 한계점을 기반으로 도출한 언어모델 구축 고려사항은 다음과 같다. 먼저, 교통안전 분야에 특화된 모델을 개발하기 위해서는 학습 데이터의 구조화 및 체계화가 필수적이다. 분 야 특화 과정에서 수행되는 파인튜닝은 대량의 학습 데이터를 기반으로 새로운 지식을 학습하는 동시에 그 입출력 형태와 관계성도 함께 학습하기 때문에, 이용자가 입력하는 데이터의 형태와 정보에 크게 영향을 받 는다. 따라서 활용 목적, 이용자의 예상되는 입력 형태 그리고 이용자가 원하는 답변의 형태를 고려한 학습 데이터의 구축이 필요하다. 또한, 보다 범용성을 가질 수 있는 모델의 구축을 위해 QA쌍 작성 시 동일한 답 변에 여러 가지 형태의 질문을 입력하는 방법도 고려할 수 있다.

    두 번째로, 학습 데이터의 구축에 있어 다양한 맥락 정보를 포함하여야 한다. 본 연구에서 개발한 모델은 국내에서 활용 중인 일부 편람과 시스템을 기반으로 학습 데이터를 구축하였으며, 이로 인해 모델이 제시할 수 있는 교통안전대응책의 범위는 제한적이고 다양성 측면에서도 한계가 존재한다. 실제 분석 결과, 모델의 응답은 주어진 맥락 정보만을 고려했을 때는 적절해 보일 수 있으나, 실제 사례와 비교하면 일부 차이를 보 였다. 이는 입력된 맥락 정보가 사고 유형 및 원인에 국한되어 있기 때문으로, 실제 교통안전대응책의 선정 은 교통사고 위험요인뿐 아니라 도로의 기하구조, 교통류 특성, 기존 안전시설물 등의 교통 공학적 요소를 종합적으로 고려한다. 따라서 향후에는 다양한 교통안전대응책 사례와 관련 법령뿐 아니라, 멀티모달다양한 형태의 입력 정보(예, 교차로 도면, 현장 이미지, 안전시설물 배치 도면 등)를 포함하는 학습 데이터를 구축 하여 보다 정밀하고 실무 적용성이 높은 모델의 개발이 가능할 것이다.

    마지막으로, 교통안전 분야에서 교통안전대응책의 선정은 사고 피해의 저감과 직결되는 만큼, 언어모델이 부적절한 답변을 생성하거나 이용자의 의도에 부합하지 않는 답변을 생성하는지 여부를 확인하는 과정이 필 수적이다. 이 과정을 효율적으로 수행하기 위해서는 표준화된 벤치마크 데이터 세트의 구축이 필요하다. 따 라서 교통안전 정책 및 개선사업의 의사결정 과정을 반영한 평가 항목의 설정이 선행되어야 하며, 단순한 정 답 일치 여부뿐만이 아닌 대상 구간의 기하구조적 특성, 응답 적합성, 실행 가능성, 시행 효과 등을 종합적으 로 판단할 수 있는 기준 선정이 필요하다.

    Ⅴ. 결론 및 향후 연구과제

    본 연구는 교통안전 분야에 특화된 언어모델의 구축 가능성과 활용성을 검토하고 프로토타입 모델을 개 발하여 모델 구축 프로세스를 제시하는 것을 목적으로 수행되었으며, 모델 개발 과정에서 교통안전 분야 특 화 고려사항을 도출하고 실무 적용 가능성을 고찰하였다. 이를 위해 COSAS 내 교통사고 유형별 교통안전대 응책, 사고 잦은 곳 개선사업 업무편람(MOLIT, 2002) 등의 데이터를 기반으로 학습 데이터를 구축하고, 파 인튜닝과 RAG 기법을 적용한 프로토타입 모델을 각각 개발하였다. 모델별 성능은 동일 질의에 대한 응답 비교와 함께, 한국도로교통공단의 서울특별시 교통사고 잦은 곳 기본개선계획(KOROAD, 2016~2022) 개선 사업 수행 사례를 근거로 평가하였다.

    먼저, 모델별 특성을 확인하였을 때, 파인튜닝을 수행한 모델은 교통사고 유형 별 교통안전대응책을 학습 데이터로 활용하였으며, 기하구조적 측면, 안전시설 측면, 교통운영 측면에서의 교통안전대응책을 적합하게 제시하였다. 다만, 대응책의 수행 근거 및 가이드라인을 제시하지 않는다는 한계점을 보였다. 이는 학습 데 이터의 QA쌍 형태를 학습하였기 때문으로 판단된다. RAG 기법을 적용한 모델의 경우, 제공된 교통사고 유 형에 적합한 교통안전대응책을 제시하였으며, 그 근거, 대응책의 시행 시 고려사항을 사고 잦은 곳 개선사 업 업무 편람과 동일하게 제시하였다. 다만, 파인튜닝 모델과 달리 제시하는 교통안전대응책의 다양성은 부 족하였으며, 이는 RAG의 구축 과정에서 선택한 multi-hop retrieval 검색 방법이 가장 연관성이 높은 대응책을 선택하여 제시했기 때문으로 판단된다.

    최종적으로 본 연구에서는 교통안전 분야에 특화된 SLM의 구축, 실제 개선사업 사례 기반 모델별 응답 분석 결과를 통합하여 교통안전 분야 특화 SLM의 구축 프로세스를 제시하였다. 또한, 실제 모델을 구현하고 다양한 기법을 적용하는 과정을 통해, 교통안전 분야 특화 SLM 개발 시 모델 활용 목적 및 이용 대상 설정 의 필요성, 학습 데이터 구조화 및 체계화의 중요성, 특화 평가체계의 필요성 등을 고려해야 할 사항으로 제 시하였다. 본 연구는 명확한 근거와 실제 사례를 기반으로 대응책을 제시해야 하는 교통안전 분야에서 언어 모델의 활용 가능성을 실증적으로 검토하였다는 점에서 의의가 있다. 또한, 그 개발 과정을 기반으로 교통안 전 분야에 특화된 SLM 구축 시 고려사항을 제시하여 실무 환경에서 보다 신뢰성 있는 지원 도구로 기능할 수 있는 기반을 마련하였다. 나아가, 교통안전 분야를 넘어 교통 전반의 다양한 분야에서도 맞춤형 SLM의 활용 가능성을 보였다.

    다만, 본 연구는 다음과 같은 한계점을 가진다. 첫 번째로, 개발된 모델에서 다양한 교통사고 상황의 맥락을 반영하지 못하며, 대응책의 다양성이 확보되지 못하였다. 이는, 근본적으로 학습 데이터에 사고 상황과 관련된 데이터가 부족했기 때문으로 판단된다. 이러한 한계를 극복하기 위해서는 학습 데이터 구축 시, 도로의 기하구조적 특성, 시간대, 교통류 특성과 같은 교통안전대응책의 선정에 고려해야할 데이터를 포함해야 한다. 더불어, 멀티모 달 데이터를 포함하는 등 모델에 제공되는 데이터의 폭을 넓히는 경우, 모델 응답의 유연성을 향상시킬 수 있을 것으로 기대된다. 두 번째로, 개별 개발된 파인튜닝 모델과 RAG 모델의 한계점은 서로 상보적으로 보완할 수 있을 가능성이 있음에도 불구하고, 컴퓨팅 자원의 제약으로 인해 두 기법을 모두 적용한 모델을 개발하지 못하였다. 이를 위해서는 더욱 비용·효율적인 기법의 적용 및 경량 모델의 활용을 고려할 수 있다. 마지막으로, 본 연구에서 개발된 모델은 교통안전 분야에 언어모델의 활용 가능성을 확인하기 위해 개발된 프로토타입의 모델이기 때문에, 실제 적용에 있어서는 명확한 한계점을 가진다. 따라서, 향후에는 모델의 고도화를 통해 실무적 인 활용성을 확보하고, 다양한 기존 교통안전 모델과의 비교·분석을 통한 성능 검증이 필요하다. 종합하면, 학습 데이터의 구축의 체계성, 최적화 기법의 고도화 등을 통해 언어모델을 개발하는 경우, 보다 교통안전 맥락에 적합하고 실무 적용 가능성이 높은 교통안전 분야 특화 언어모델을 구현할 수 있을 것으로 기대한다.

    ACKNOWLEDGMENTS

    이 논문은 2025년도 정부(경찰청)의 재원으로 과학치안진흥센터의 지원을 받아 수행된 연구임 (No.092021 C29S01000, 네트워크 제어를 위한 교통정체 및 혼잡 운영관리 기술 개발)

    Figure

    KITS-24-5-54_F1.jpg

    Conceptual process for SLM-based decision-support model to derive traffic-safety countermeasures

    Table

    Available computing resources and selected SLM

    *Video random access memory
    source : https://unsloth.ai; https://huggingface.co/

    Comparison of PEFT techniques

    Comparison of RAG retrieval techniques

    Example of fine-tuning training data constructed by applying knowledge distillation

    Sample RAG dataset for improvement measures and considerations

    Computing resources and PEFT hyperparameter settings

    RAG hyperparameter settings

    * The computing resources and model configuration are the same as in <Table 6>

    Comparison of example responses by model

    Examples of model’s inappropriate responses

    Reference

    1. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I. and Amodei, D. ( 2020), “Language Models are Few-Shot Learners”, arXiv.
    2. Dettmers, T., Pagononi, A., Holtzman, A. and Zettlemoyer, L. ( 2023), “QLoRA: Efficient Finetuning of Quantized LLMs”, arXiv.
    3. Gaber, F., Shaik, M., Allega, F., Bilecz, A. J., Busch, F., Goon, K., Franke, V. and Akalin, A. ( 2025), “Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis”, NPJ Digital Medicine, vol. 8, no. 263.
    4. Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M. and Wang, H. ( 2024), “Retrieval-Augmented Generation for Large Language Models: A Survey”, arXiv.
    5. Gemini Team Google, ( 2025), “Gemini: A Family of Highly Capable Multimodal Models”, arXiv.
    6. Google Deepmind ( 2025), Adaptive ML trains Gemma 3 for exceptional multilingual results. Accessed on July 9, 2025, https://deepmind.google/models/gemma/gemmaverse/?utm_source=chatgpt.com
    7. Ham, J., Choe, Y., Park, K., Choi, L. and Soh, H. ( 2020), “KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding”, arXiv,
    8. Han, Z., Gao, C., Liu, J., Zhang, J. and Zhang, S., ( 2025), “Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey”, arXiv.
    9. Houlsby, N., Giurgiu, A., Jastrzebski, S., Morrone, B., Laroussilhe, Q., Gesmundo, A., Attariyan, M. and Gelly, S. ( 2019), “Parameter-Efficient Transfer Learning for NLP”, arXiv.
    10. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L. and Chen, W. ( 2021), “LoRA: Low-Rank Adaptation of Large Language Models”, arXiv.
    11. Hu, Z., Wang, L., Lan, Y., Xu, W., Lim, E., Bing, L., Xu, X., Poria, S. and Lee, R. K. ( 2023), “LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models”, arXiv.
    12. Huang, C., Mu, P., Zhang, J., Chan, S., Zhang, S., Yan, H., Chen, S. and Bai, C. ( 2025), “Benchmark dataset and deep learning method for global tropical cyclone forecasting”, Nature Communications, vol. 16.
    13. Huggig Face ( 2025), Optimizing LLMs for Speed and Memory. Accessed on July 9, 2025, https://huggingface.co/docs/transformers/v4.53.2/en/llm_tutorial_optimization
    14. Ian, L. A., Lorenzo, M., Thomas, P., George, P., Kuangyu, S., Axel, R. and Ali, A. ( 2023), “Large language models (LLM) and ChatGPT: What will the impact on nuclear medicine be?”, European Journal of Nuclear Medicine and Molecular Imaging, vol. 50, pp.1549-1552.
    15. Izacard, G. and Grave, E. ( 2021), “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering”, Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics(EACL), pp.874-880.
    16. Jeong, C. ( 2024), “Domain-specialized LLM: Financial fine-tuning and utilization method using Mistral 7B”, Journal of Intelligence Information Systems, vol. 30, no. 1, pp.93-120.
    17. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. and Lu, X. ( 2019), “PubMedQA: A Dataset for Biomedical Research Question Answering”, arXiv.
    18. Kim, E. and Shin, Y. ( 2025), “A Study on the Direction of Large Language Model(LLM) Utilization in the Domestic Power Industry”, The Journal of Korean Institute of Communications and Information Science, vol. 50, no. 2, pp.217-223.
    19. Korea Road Traffic Authority ( 2016-2022) , Basic Improvement Plan & Effect Analysis on Traffic Accident Black Spots in Seoul Metropolitan City.
    20. Korea Road Traffic Authority ( 2025), Improvement of road traffic environment such as places prone to traffic accidents. Accessed on July 9, 2025, https://www.koroad.or.kr/main/content/view/MN03010700.do
    21. Lee, H. ( 2025), “Comparative Analysis of OCR Architectures for Low-Quality Korean Public Documents”, The Journal of Korea Institute of Information, vol. 18, no. 1, pp.40-48.
    22. Lee, J., Kim, H., Lee, S., Kim, Y., Lee, K. and Kim, S. ( 2025), “Instruction Tuning for Developing Large Language Models Specialized in Chemical Domain”, Journal of the Korean Institute of Industrial Engineers, vol. 51, no. 2, pp.150-160.
    23. Lester, B., Al-Rfou, R. and Constant, N. ( 2021), “The Power of Scale for Parameter-Efficient Prompt Tuning”, arXiv.
    24. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Kuttler, H., Lewis, M., Yih, W., Rocktaschel, T., Riedel, S. and Kiela, D. ( 2021), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, arXiv.
    25. Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F. and Liang, P. ( 2024), “Lost in the Middle: How Language Models Use Long Contexts”, Transactions of the Association for Computational Linguistics, vol. 12, pp.157-173.
    26. Martine, P. ( 2025.04.12), “ChatGPT Hits 1 Billion Users? ‘Doubled In Just Weeks’ Says OpenAI CEO”, Forbes.
    27. Melton, C., Sorokine, A. and Peterson, S. ( 2025), “Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety”, arXiv.
    28. Ministry of Land, Infrastructure and Transport ( 2002), Manual for Improvement of road traffic environment such as places prone to traffic accidents. Accessed July 9, 2025, https://www.molit.go.kr/USR/BORD0201/m_34879/DTL.jsp?mode=view&idx=24568
    29. Nassar, A., Livathinos, N., Lysak, M. and Staar, P. ( 2022), “TableFormer: Table Structure Understanding with Transformers”, arXiv.
    30. OpenAI ( 2024), GPT-4 Technical Report.
    31. OpenAI ( 2025), Fine-tuning How it works. Accessed July 9, 2025, https://platform.openai.com/docs/guides/fine-tuning#how-it-works
    32. Pfeiffer, J., Ruckle, A., Poth, C., Kamath, A., Vulic, I., Ruder, S., Cho, K. and Gurevych, I. ( 2020), “AdapterHub: A Framework for Adapting Transformers”, arXiv.
    33. Subramanian, S., Elango, V. and Gungor, M. ( 2025), “Small Language Models (SLMs) Can Still Pack a Punch: A survey”, arXiv.
    34. Valipour, M., Rezagholizadeh, M., Kobyzev, I. and Ghodsi, A. ( 2023), “DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic Search-Free Low-Rank Adaptation”, arXiv.
    35. Wang, H., Zhang, F. and Mu, C. ( 2025), “One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level”, arXiv.
    36. Wang, X., MacDonald, C., Tonellotto, N. and Ounis, I. ( 2023), “ColBERT-PRF: Semantic Pseudo-Relevance Feedback for Dense Passage and Document Retrieval”, ACM Transactions on the Web, Vol. 17, no. 3, pp.1-39.
    37. Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N. A., Khashabi, D. and Hajishirzi, H. ( 2023), “Self-Instruct: Aligning Language Models with Self-Generated Instructions”, arXiv.
    38. Xu, Z., Jain, S. and Kankanhalli, M. ( 2025), “Hallucination is Inevitable: An Innate Limitation of Large Language Models”, arXiv.
    39. Zheng, O., Abdel-Aty, M., Wang, D., Wang, C. and Ding, S. ( 2023), “TrafficSafetyGPT: Tuning a Pre-trained Large Language Model to a Domain-Specific Expert in Transportation Safety”, arXiv.

    저자소개

    Footnote

    • https://kotsa.or.kr/cosas/
    • https://huggingface.co/
    • https://unsloth.ai/