Ⅰ. 서 론
1. 연구의 배경 및 목적
국내 대표적인 교통안전 사업인 한국도로교통공단의 ‘교통사고 잦은 곳 개선사업’은 1988년부터 23,245개 소의 교통사고 잦은 곳을 개선하며 교통사고 발생 건수는 28.9%, 사망자 수는 45.3%, 부상자 수는 29.2% 감 소하였다(KOROAD, 2025). 다만, 교통사고 잦은 곳은 매년 1,700개소가 선정되는 반면, 실제로 개선사업이 수행되는 지점은 연평균 400개소 수준에 머물러있다(KOROAD, 2025). 이는, 교통사고 잦은 곳 개선사업이 물리적 기하구조 및 시설 개선을 포함하고 있어 비용적 측면의 부담이 클 뿐만 아니라, 조사·설계 단계에서 1년 이상이 소요되는 만큼(MOLIT, 2002) 시간적 비용 및 체계적이고 합리적인 교통안전 대안을 수립할 전문 인력의 부족 역시 큰 요인으로 작용할 것으로 사료된다.
한편, 대규모 언어모델(large language model, LLM)은 인간의 언어를 이해하고 문맥을 생성할 수 있도록 훈 련된 인공지능(artificial intelligence, AI) 모델로(Ian et al., 2023), 다양한 산업군과 학술 연구 분야에서 데이터 분석, 정보 생성, 의사결정 지원시스템 등으로 활용되고 있다(Jeong, 2024;Gaber et al., 2025;Kim and Shin, 2025;Lee et al., 2025). 다만, LLM은 사실과 다른 정보를 산출하는 환각(hallucination) 현상, 긴 문맥을 기억하 지 못하는 구조적 한계, 그리고 특정 분야의 심층적 질문에는 취약하다는 제약을 지닌다(Xu et al., 2025;Liu et al., 2024). 이에 따라 최근에는 상대적으로 파라미터 수가 적은 소규모 언어모델(small language model, SLM)을 재학습하여 활용 분야에 최적화하는 접근이 주목받고 있다.
SLM은 다양한 기업 및 커뮤니티에서 특정 목적에 특화하여 개발되고 있다. 대부분이 오픈소스로 배포되 고 있어 접근성이 높으며, 작업 환경 구축 편의성 및 비용 효율성이 높기 때문에 실무적 활용 가치가 높다. SLM의 재학습을 위해 최신 정보·지식을 추가로 학습하는 파인튜닝(fine-tuning), 데이터베이스에 있는 전문 지식 자료를 참고하여 응답을 생성하는 검색 증강 생성(retrieval augmented generation, RAG)과 같은 기법을 적용할 수 있다. 이러한 과정을 통해 SLM은 파라미터 수가 상대적으로 적음에도 특정 분야의 심층적 정보 반영 및 사실성 유지가 가능해지며, 실제 응용 환경에서는 상용 LLM과 비교해 유사하거나 더욱 높은 성능 을 보이기도 한다(Subramanian et al., 2025).
교통안전 분야에서의 의사결정은 본질적으로 사고 피해를 줄이는 데 목적이 있으며, 그 의사결정은 다양 한 관련 법령 및 기준, 실제 교통안전 개선사업 실례를 기반으로 수행되어야 한다. 그렇기에 의사결정을 수 행하는 데 있어 상당한 시간적 비용이 소요되며, 관련 자료를 검토하고 분석하는 과정에서도 많은 노력이 필 요하다. 따라서, 교통안전 개선사업에서 기수행된 의사결정 과정 및 근거가 되는 관련 법령 ·기준을 체계적 으로 분석하고, 이를 신속하게 탐색·활용할 수 있는 지원 시스템이 존재한다면 의사결정 과정의 효율성이 증 대될 것으로 사료된다. 이러한 맥락에서 언어모델은 방대한 텍스트를 학습하여 이용자의 요구에 부합하는 정보를 신속히 제시할 수 있으므로, 의사결정 지원에 적합한 대안이 될 수 있다.
따라서, 본 연구에서는 교통안전 분야에서 의사결정을 지원하는 언어모델을 개발하기 위해 활용 분야에 맞도록 모델을 최적화하는 다양한 방법들을 검토하고, 이를 비용·효율적으로 적용하는 방안을 모색한다. 특 히, 교통안전 관련 기준과 법령, 그리고 실제 교통사고 개선사업 수행 이력 등을 기반으로 파인튜닝과 RAG 기법을 적용한 교통안전 분야 특화 언어모델을 각각 구축하고, 두 모델의 성능을 비교·분석하고자 한다. 또 한, 실제 사례 기반 평가를 통해 그 실효성을 검증하고자 한다. 이를 통해 구축된 언어모델은 교통안전 분야 에서 보다 신뢰성 높은 지원 도구로 활용될 수 있으며, 이러한 언어모델 구축의 과정을 통합하여 하나의 프 로세스로 제안함으로써, 교통안전 분야를 넘어 교통 전반에서 맞춤형 언어모델의 구축 및 활용 가능성을 확 인하고자 한다.
2. 연구의 범위 및 절차
본 연구는 국내 교통안전 분야에 특화된 언어모델 구축을 위해 파인튜닝과 RAG 기법의 적용 가능성을 검토하고 이를 실증적으로 평가하며, 이러한 일련의 과정을 프로세스로 제시하고자 한다. 본 연구에서 언어 모델의 재학습 및 보완을 위해 활용되는 데이터는 한국교통안전공단의운수안전컨설팅 지원시스템(consulting oriented safety assistance system, COSAS)1) 내 사고예방대책 데이터베이스(database, DB), 한국도로교통공단의 「서울특별시 교통사고 잦은 곳 기본개선계획」(KOROAD, 2016~2022), 「사고 잦은 곳 개선사업 업무편람」 (MOLIT, 2002)이다. 본 연구는 교통안전 분야에 특화된 언어모델의 구축 프로세스 제시를 목적으로 하므로, 파인튜닝 및 RAG 기법 적용이 용이한 언어모델을 우선적으로 선정하도록 한다. 이어 언어모델의 재학습 및 보완에 적용될 학습 데이터 구축, 개별 언어모델의 파인튜닝 및 RAG 적용 및 평가를 수행하며, 일련의 과정 을 프로세스로 통합하여 제시하도록 한다.
Ⅱ. 관련 이론 및 연구 고찰
1. 관련 이론 고찰
1) 언어모델
LLM은 대량의 텍스트 데이터를 사전 훈련하여 텍스트의 문맥을 파악하고, 다양한 문법 구조와 의미적 관 계를 이해하는 데에 우수한 성과를 보여주고 있다(Jeong, 2024). 대부분의 LLM은 기존 자연어 처리(natural language processing, NLP) 방법이 가진 장기 의존성 문제를 해결하기 위해 트랜스포머 구조, 특히 텍스트 생 성에 특화된 디코더 구조를 활용한다. 또한, 셀프 어텐션(self-attention) 메커니즘을 통해 문장 내 모든 단어 간 관계를 병렬적으로 계산함으로써 긴 문맥 정보를 효과적으로 학습·생성할 수 있도록 설계되었다. 최근에 는 다양한 형태의 입력을 처리할 수 있는 멀티모달(multi-modal) LLM이 개발되었으며, 이에 따라 이미지, 영 상 등 다양한 형태의 데이터를 함께 처리할 수 있게 되었다(OpenAI, 2024;Gemini Team Google, 2025).
LLM은 일반적으로 파라미터의 규모, 학습 데이터의 크기, 연산량이 클수록 높은 성능을 보인다(Kaplan et al., 2020). 이를 검증하기 위해 다양한 성능 평가 방법이 존재하나, 대표적인 방법은 벤치마크 테스트이다. 벤치마크 테스트는 근거 및 사실성, 과학·기술·공학·수학(science, technology, engineering, mathematics, STEM), 코드 작성 등 다양한 분야의 질문 쌍을 구축하여 이를 옳게 대답하는 정도를 척도로 점수화하는 방법이다. 하지만 고성능 LLM은 고사양의 그래픽 처리 장치(graphic processing unit, GPU) 및 전용 서버를 필요로 하므 로, 적절한 인프라가 구축되지 않은 환경에서는 비용과 자원 측면에서 실무적으로 활용하기 어렵다. 이러한 한계로 인해, 최근에는 파라미터 수는 상대적으로 적지만 고성능 LLM과 유사한 성능을 보이는 SLM이 주목 받고 있다. 또한, 최근에는 양자화 기술(quantization)의 개발로 모델의 연산 및 메모리 소모를 줄일 수 있어 보다 적은 컴퓨팅 자원으로 언어모델을 활용할 수 있게 되었다. 이들 SLM 중 멀티모달 기능을 지원하는 모 델도 존재한다.
다만, 대부분의 언어모델은 사전에 웹 크롤링 데이터 등 범용 데이터를 기반으로 학습되었기 때문에, 교통 안전과 같은 특정 분야에 대한 심층적인 답변 생성에는 한계가 존재한다(Xu et al., 2025). 이러한 한계를 보 완하기 위해 GPT-4와 같은 초거대 모델을 재학습하기도 하나, 여기에는 막대한 연산 자원이 요구되어 실무 적용에는 제약이 따른다. 이에 따라, 최근에는 SLM을 기반으로 파인튜닝이나 RAG 기법을 적용함으로써 활 용 분야에 특화하여 성능을 향상시키는 접근이 주목받고 있다(Wang et al., 2025;Gaber et al., 2025).
2) 언어모델의 재학습 및 보완 기법
언어모델을 특정 분야에 최적화시키는 가장 효과적인 방법은 모델 내에 있는 파라미터 전체를 해당 분야 의 정보들을 기반으로 추가 학습시키는 풀 파인튜닝이다. 다만, 재학습해야 하는 파라미터의 규모가 클수록 막대한 자원이 소모되기 때문에, 전체 파라미터 중 일부만 조정하는 매개변수 효율적 파인튜닝(parameter efficient fine-tuning, PEFT) 기법이 주목받고 있다(Han et al., 2025). PEFT는 모델의 전체 파라미터를 재학습하 는 대신, 일부 계층(layer) 혹은 모델 외부의 어댑터(adapter)를 선택적으로 재학습하여 메모리 효율성을 높이 고 자원 소모량을 줄이는 파인튜닝 기법이다. 대표적으로 어댑터 튜닝(adapter tuning), 프롬프트 튜닝(prompt tuning), 저차원 어댑테이션(low-rank adaptation, LoRA) 등이 널리 활용되고 있다(Han et al., 2024).
한편, 언어모델의 환각 현상을 줄이기 위해서 고안된 방법으로는 RAG 기법이 활발히 적용되고 있다 (Lewis et al., 2020; Goa et al., 2023). RAG는 언어모델의 이용자가 모델의 외부에 벡터 데이터베이스를 생성 하여 언어모델의 답변 생성에 근거가 될 수 있는 문서들을 정의하면, 언어모델이 답변 생성 시 관련 내용을 검색(retrieval)한 후, 그 문서를 근거로 답변을 생성(generation)하도록 하는 기법이다(Lewis et al., 2021). RAG 는 사전학습 및 파인튜닝에 활용되지 않은 정보들을 반영하여 언어모델이 답변할 수 있도록 하며, 근거가 되 는 문서를 기반으로 답변을 생성하기 때문에 환각 현상을 줄이기 위한 방안으로 활용되고 있다.
2. 관련 연구 고찰
1) 언어모델을 활용한 분야 특화 모델 개발
Gaber et al.(2025)는 의료 분야에서 SLM과 RAG 기법을 활용하여 임상 의사결정 지원 모델을 구축하였다. 해당 모델은 입력된 환자 증상 정보를 기반으로 환자의 응급도 분류, 진료과 선정, 진단 등을 수행할 수 있 도록 최적화되었으며, RAG에 입력된 데이터는 medical information mart for intensive care(MIMIC-IV)에서 제 공하는 2,000여 건의 의료 사례를 기반으로 구축되었다. 모델의 구축에 활용된 SLM은 Anthropic 사의 Claude 모델들(3.5 Sonnet, 3 Sonnet, 3Haiku)이며, Claude 3.5 Sonnet 모델에 RAG를 적용한 최적 모델과 RAG를 적용 하지 않은 모델의 사례 기반 정답률을 통해 평가하였다. 모델들의 비교 결과, RAG를 적용하지 않은 모델들 은 60% 이내의 정확도를 보이는 것에 비해, RAG를 적용한 모델은 70% 내외의 정확도를 보이는 것으로 나 타났다. 또한, RAG를 적용한 모델의 응답 결과를 실제 임상의 4인의 평가를 통해 검증하였으며, RAG를 적 용한 모델은 개인 평가결과 94.91%의 정확도, 두 임상의 이상 모두가 정답으로 판단하는 협력 평가결과 69.86%로, RAG를 적용한 언어모델이 의사결정 지원 도구로서 적합하다는 평가를 내렸다.
Jeong(2024)는 금융 특화 언어모델을 구축하기 위해 Mistral 사 Mistral 7B 모델에 손해보험금융 FAQ 및 금 융용어 데이터 기반 파인튜닝을 수행하였다. 또한, 파인튜닝이 적용된 모델의 실무적 활용 가능성 및 기대효 과를 제시하였다. 해당 연구는 금융 분야 특화 언어모델의 구축을 위해서 데이터 수집 및 전처리 절차부터 파인튜닝 방법, 하이퍼파라미터 조정, 성능평가지표의 선정 및 모델 생성 방법에 대하여 단계별로 상세하게 제시하였다. 특히, 금융 분야에서 언어모델의 구축을 위해 고려해야 하는 사항을 고찰하였다. 연구 결과, 금 융 분야에 적합하게 파인튜닝된 언어모델은 고객 응대, 금융 예측 및 트레이딩, 금융 리서치 등 다양한 방면 에서 활용될 수 있을 것이며, 금융 분야를 대표하는 데이터 세트의 확보가 가능할 경우 실무적으로 활용 가 능하다고 주장하였다.
Lee et al.(2025)는 화학 분야에 특화된 언어모델 구축을 위한 지시어 튜닝 연구를 통해 Meta 사의 Llama2 7B, 13B 모델에 프롬프트 튜닝을 적용하였다. 데이터 세트는 LG 화학 내부의 친환경 그린 수소 관련 연구 분야 데이터, Hugging face에서 공개된 Chemrxic 논문 데이터, 국내 소재 관련 과학 분야 자격증 시험 기출 데이터가 활용되었다. 학습 데이터는 한국어와 영어로 분류하였으며, 언어별로 분류한 데이터를 학습한 모 델, 모든 언어를 동시에 학습한 모델로 나누어 구축하였다. 모델의 평가는 학습 데이터 중 일부를 QA 형태 로 구축하여 F1- score를 기반으로 수행하였다. 프롬프트 튜닝을 적용한 모델과 적용하지 않은 모델을 비교 하였을 때, 프롬프트 튜닝을 적용하였을 때 모델의 성능이 향상됨을 확인하였다. 이를 기반으로, 해당 연구 는 화학 분야에서 언어모델의 프롬프트 튜닝이 효과적임을 입증하고, 다양한 산업군에서도 업무 보조에 활 용 가능할 것으로 판단하였다.
2) 교통 분야 LLM 활용 연구
Zheng et al.(2023)은 Meta 사의 Llama 7B 모델을 교통안전 분야 특화 모델로 구축하기 위해 파인튜닝을 수 행하였다. 파인튜닝을 위해 미국 연방/주 정부의 교통안전 지침서 기반 지식을 OpenAI 사의 ChatGPT를 활용 하여 2,000개의 QA쌍 형태로 구축하였으며 PEFT가 아닌 풀 파인튜닝을 적용하였다. 모델의 파인튜닝 결과, 비교적 작은 학습 데이터로 모델을 학습했음에도 불구하고, 파인튜닝을 적용하지 않은 모델과 비교하였을 때, 정확성, 문제 이해력, 전문 용어 사용 적절성 등에서 의미 있는 개선을 보이는 것으로 나타났다. 해당 연 구는 언어모델을 활용한 교통안전 분야 특화 모델 구축의 가능성을 확인했다는 점에서 의의를 가진다. 다만, 학습에 활용된 QA쌍이 교통 분야의 전문적인 지식이 아닌 교통 분야 용어 정의 및 일반적 교통 지식 수준 으로 구성되었으며, 모델의 평가에 있어 기계번역의 품질 평가에 활용되는 의미적 유사성을 평가하는 평가 지표를 활용했다는 점에서 한계를 가진다.
Melton et al.(2025)은 상용화된 여러 LLM과 Meta 사의 Llama 2, 3 모델을 기반으로 RAG를 적용한 모델과 미적용한 대규모 파라미터 LLM의 위험물 운송과 관련된 연방 및 주 규제문서 기반 질의응답 성능을 비교· 분석 하였다. RAG에 입력된 데이터는 경로 계획 및 교통안전 관련 법규 등 실제 현장에서 발생할 수 있는 100개의 질의 시나리오를 기반으로 구축되었다. 모델의 평가를 위해 교통안전 및 규제 관련 전문가 3인이 참 여하여 정확성, 구체성, 연관성, 환각 현상 여부, 전반적 평가 등을 5점 척도로 정성 평가하였다. 그 결과 RAG를 적용한 Llama 모델들이 OpenAI 사의 ChatGPT, Google 사의 Vertex AI와 비교하였을 때 구체성 측면 에서 높은 점수를 보였다. 이를 통해 교통안전 분야에서 RAG를 활용한 모델이 활용하지 않은 모델보다 구 체적이고 신뢰성 있는 응답을 제공할 수 있다는 점을 확인하였다. 다만, 환각 현상은 모든 모델에서 공통적 으로 발생하였으며, 실제 현장에서 언어모델을 활용하기 위해서는 분야별 관련 데이터의 선정 및 구축의 필 요성과 평가체계 구축이 필요함을 강조하였다.
3. 연구의 차별성
관련 이론 및 연구 고찰 결과, 다양한 산업군에서 언어모델을 활용한 분야 특화 모델을 구축하는 연구들 이 수행되고 있다. 대부분의 분야 특화 모델 구축 연구에서 파인튜닝과 RAG와 같은 기법을 적용하여 해당 분야에 대한 정보를 재학습시키고 모델을 보완하는 연구들이 활발히 이루어지고 있다. 특히, Jeong(2024)은 언어모델의 금융 분야 특화 모델을 개발할 수 있도록 학습 데이터 구축의 고려사항, 기대효과, 모델 구축 프 로세스 등을 상세히 제시하고 있다. Gaber et al.(2025)은 의료 사례를 기반으로 SLM에 RAG 기법을 적용하였 으며, 실제 임상의들의 평가를 통해 RAG를 적용한 SLM이 의사결정 지원 도구로써 활용하기에 적합하다는 평가를 내렸다. 특정 분야 특화 모델 개발 연구의 고찰 결과, 대부분의 연구들이 다양한 산업군으로의 확장 이 가능할 것으로 기대하고 있으며, 실무적인 활용 가능성이 있음을 시사하고 있다.
다만, 교통안전 분야에서 언어모델의 활용 가능성은 분명하나, 분야 특화 모델 개발 프로세스 및 실제 사 례 기반 모델 구축 사례가 부족한 실정이다. 대부분의 연구에서는 용어 정의, 일반적 교통 분야 지식의 학습 을 수행하고 있으며, 모델의 개발 절차 및 데이터 구축 고려사항, 프로세스 등에 대한 제시는 부족한 것으로 보인다. 이는, 교통안전 분야에 특화된 언어모델을 구축하기 위한 실질적 프로세스와 학습 데이터의 성격 및 처리 방식, 고려사항 등에 대한 체계적 논의가 부족하기 때문으로 사료된다.
따라서, 본 연구는 이러한 한계점들을 보완하기 위해 교통안전 분야에서 가장 핵심적인 과제 중 하나인 교통안전대응책 도출 및 의사결정 지원을 위한 프로토타입(prototype) 모델을 구축하며, 교통안전 분야에서의 활용 가능성을 고찰하고자 한다. 이상적으로는 파인튜닝과 RAG 기법을 통합 적용한 모델 개발이 바람직하 나, 컴퓨팅 자원의 제약으로 인해 두 기법을 각각 적용한 개별 모델을 개발하였다. 모델의 학습 데이터는 한 국교통안전공단의 COSAS 내 사고 예방대책 DB, 「서울특별시 교통사고 잦은 곳 기본개선계획」(KOROAD, 2016~2022), 「사고 잦은 곳 개선사업 업무편람(2002)」을 활용하여 구축하며, 실제 개선사업 수행 사례를 기반 으로 평가하였다. 또한, 이러한 일련의 과정을 프로세스로 제시하여 교통안전 분야에서의 언어모델 적용 가 능성을 학술적·실무적으로 입증하고자 한다.
Ⅲ. 교통안전 분야 특화 SLM 개발 및 평가
본 장에서는 프로세스 및 고려사항을 제시하기 이전에 이를 도출하기 위한 프로토타입 모델 구축 과정을 기술한다. 모델 구축 절차는 목적과 작업 환경에 따른 언어모델 선정, 분야 최적화를 위한 파인튜닝 및 RAG 기법 선정, 파인튜닝 학습 데이터 및 RAG DB 구축, 파인튜닝 및 RAG 기법 적용, 성능 및 신뢰성 평가의 다 섯 단계로 구성된다. 본 연구에서 개발하는 모델은 교통사고 잦은 곳의 개선사업 수행 이력을 학습하여 입력 된 교통사고 데이터 및 교통사고 잦은 곳의 정보를 기반으로 교통안전대응책을 도출할 수 있는 모델이다.
1. 언어모델의 선정
언어모델은 개발하고자 하는 모델의 목적 및 이용 대상에 부합하게 선정되어야 한다. 본 연구의 목적은 교통안전 분야에서 의사결정을 지원할 수 있도록 교통사고 잦은 곳의 개선사업 수행 이력을 학습하여 입력 된 교통사고 데이터 및 정보를 기반으로 교통안전대응책을 도출하는 모델을 개발함에 있다. 이에 부합하는 언어모델의 선정을 위해 다음과 같은 기준을 활용하였다. 첫째, 본 연구에서 활용할 수 있는 컴퓨팅 자원에 부합하는 규모의 모델일 것, 둘째, 공개중인 언어모델 중 상업적 이용이 허가되어 자유로이 활용할 수 있을 것, 셋째, 한국어를 지원하는 다국어(multilingual) 모델일 것, 마지막으로 파인튜닝 및 RAG와 같은 최적화 기 법의 적용에 무리가 없을 것이다.
본 연구에서는 다양한 언어모델의 선정에 있어 언어모델 개발자 및 이용자들의 커뮤니티인 Hugging face2) 를 활용하였다. Hugging face는 다양한 언어모델들을 대상으로 성능, 필요 자원, 지원 언어, 최적화 기법의 적 용 가능 여부 등을 확인할 수 있도록 제시하고 있다. Hugging face를 기반으로 본 연구의 선정 기준에 부합하 는 모델들을 검토한 결과, 우선 가용한 컴퓨팅 자원의 한계로 대규모 파라미터 LLM의 활용에는 제약이 있 었다. 따라서, 공개중인 SLM을 대상으로 검토를 수행하였으며, 상업적 이용이 허가되며 한국어를 지원하는 모델들을 대상으로 한정하였다. 마지막으로, 파인튜닝 및 RAG의 적용 가능성은 대표적인 최적화 라이브러 리인 Unsloth3)의 지원 여부를 기반으로 판단하였다. Unsloth는 Hugging face에 공개된 다양한 SLM에 대해 양 자화 및 효율적인 파인튜닝을 지원하고 있으며, 그 모델별 권장 컴퓨팅 자원을 제시하고 있다. 최종적으로 본 연구에서 선정된 SLM은 Google사의 Gemma-3 27B 모델로, 선정 대상 모델들 중 두 번째로 파라미터 규 모가 크며 적은 샘플의 학습만으로 한국어와 영어의 표현력에 있어 OpenAI사의 GPT-4o 모델보다 높은 성능 을 보인다고 평가를 받은 모델이다(Google, 2025). 본 연구에서 활용한 컴퓨팅 자원 및 선정 대상 모델들의 상세는 <Table 1>과 같다.
<Table 1>
Available computing resources and selected SLM
*Video random access memory
| Category | Model | Description | ||||
| CPU | i7-12700KF | - | ||||
| GPU | NVIDIA GeForce RTX 3090 | *VRAM : 24GB | ||||
| RAM | - | 64GB | ||||
| SLM | Computing resource | |||||
| Model | Developer | Commercial use | Parameter scale | Multilingual(Korean) | Unsloth support | VRAM(minimum) |
| Gemma-3 | Available | 27B | Available | Available | 22GB | |
| Gemma-2 | Available | 27B | Available | Available | 16GB | |
| Gemma-2 | Available | 9B | Available | Available | 8GB | |
| Phi-4 | Microsoft | Available | 14B | Limited | Available | 15GB |
| Qwen-3 | Alibaba | Available | 30B | Available | Available | 17.5GB |
| LLaMA-3.3 | Meta | Limited | 8B | Available | Available | 8GB |
2. 파인튜닝 및 RAG 기법 선정
1) 파인튜닝 기법 선정
파인튜닝은 사전에 학습된 모델의 파라미터들을 대상으로, 특정 분야에 특화될 수 있도록 추가 학습을 수 행하는 전이학습(transfer learning)의 대표적인 방법이다(Hu et al., 2021). 다만, 전체 파라미터를 학습시키는 풀 파인튜닝(full fine-tuning)은 컴퓨팅 자원과 시간적 비용이 크다는 단점이 있다. 따라서, 최근에는 LoRA와 같은 PEFT 기법이 주목받고 있으며, LoRA는 모델의 내부 파라미터는 고정한 상태에서 일부 계층에 저차원 행렬(adapter)을 삽입해 재학습을 수행한다(Hu et al., 2021). 본 절에서는 2장에서 소개한 파인튜닝 기법들 중, 비용적, 자원 효율적 측면을 고려하여 풀 파인튜닝을 제외한 PEFT 방법들의 장단점과 기법 선정 기준 및 고 려사항을 제시하고자 한다.
먼저, 프롬프트 튜닝은 모델에 입력되는 컨텍스트의 앞단에 프리픽스(prefix)를 추가하여 파인튜닝의 효과를 얻는 방법이다. 언어모델에 프롬프트를 입력하여 응답 품질을 높이는 프롬프트 기반 학습의 연장선 상에서 개발된 PEFT 기법으로, 프리픽스는 학습 가능한 벡터로 구성되어 있다(Lester et al., 2021). 프롬프트 튜닝은 이용자가 작성한 학습 데이터의 QA쌍에서 정답을 제시할 수 있는 방향으로 학습을 수행하며, 그 과정에서 컨 텍스트 앞단의 고정된 프리픽스를 학습한다. 이때, 학습이 수행되는 언어모델의 파라미터 규모가 클수록, 프리 픽스의 벡터 길이가 길수록 높은 성능을 보인다. 예시로 OpenAI 사의 GPT-3 175B 모델에서는 프롬프트 튜닝과 풀 파인튜닝의 성능 차이가 크지 않는 것으로 나타났다. 다만, 프롬프트 튜닝은 기존 모델의 파라미터를 수정 하지 않고, 입력 앞단에 추가된 프리픽스 벡터만을 학습하기 때문에 특정 분야의 심층적인 내용을 반영하는 데는 한계가 있으며, 파라미터 규모가 작은 모델에서는 효율이 떨어진다는 평가가 있다(Lester et al., 2021).
어댑터 튜닝은 언어모델의 계층 사이에 추가 모듈을 삽입하고, 그 부분만 학습하는 방법이다(Pfeiffer et al., 2020). 타 PEFT 기법과 동일하게, 언어모델의 파라미터는 고정시키며 학습 데이터의 QA쌍 혹은 문서에서 제 시하는 업무(task)에 적합한 패턴만을 계층별 어댑터가 학습한다. 특히, Pfeiffer et al.(2020)은 동일한 언어모 델을 사용하더라도 분야에 따라 어댑터 모듈을 저장·교체하는 방법을 활용하였으며, 이는 다중 분야 지원과 관리 측면에서 효율적이라는 평가를 받았다. 다만, 어댑터 모듈은 언어모델의 계층별로 연산되기 때문에 응 답의 생성 및 추론 과정에서 모델의 구조가 복잡해지거나 소요시간이 증가할 수 있다는 한계점이 존재한다 (Houlsby et al., 2019).
마지막으로 LoRA는 언어모델의 특정 계층 사이에 저차원 행렬 곱을 삽입하여 학습할 수 있도록 하는 기 법이다. LoRA는 기존 가중치 행렬에 추가된 저차원 행렬을 더하여 업무에 부합하는 편향을 반영할 수 있다. 특히, LoRA는 전체 파라미터 수 대비 수십~수백배 적은 파라미터만을 학습함에도 불구하고 풀 파인튜닝과 유사한 성능을 낼 수 있다고 보고되었다(Hu et al., 2021). 최근에는 컴퓨팅 자원의 최적화를 목적으로 양자화 된 언어모델에 LoRA를 적용하는 QLoRA(quantized LoRA)가 주목받고 있으며, QLoRA 기법을 적용하는 경우 단일 GPU 환경에서도 언어모델을 파인튜닝 할 수 있을 정도로 자원 효율성이 증대되었다. 타 PEFT 기법들 과 상이하게, LoRA는 내부 가중치 행렬의 덧셈 형태로 응답 생성에 영향을 주기 때문에, 추론 과정에서의 소요시간 증가가 최소화된다. 다만, 행렬 곱의 형태로 가중치를 저장하는 특성상, 랭크(차원의 수)의 조절에 따라 성능이 민감하게 변화한다. 따라서, 다수의 실험과 하이퍼파라미터 튜닝이 필수적이다(Valipour et al., 2023). 본 절에서 제시한 다양한 PEFT 기법들을 비교·분석한 결과는 <Table 2>에 제시하였다.
<Table 2>
Comparison of PEFT techniques
| Technique | Trainable parameters | Inference latency | Efficiency (VRAM) | Performance vs Full fine-tuning | Limitations |
|---|---|---|---|---|---|
| Prompt tuning | Very low | None | Very high | Comparable on large LLM | |
| Adapter tuning | Low | Medium | High | Slightly lower | |
| LoRA | Low | Minimal | Very high | Comparable | |
| QLoRA | Low | Minimal | Very high | Comparable |
2) RAG 기법 선정
RAG는 언어모델이 응답을 생성할 때, 모델 외부에 위치하는 이용자가 사전 정의한 데이터베이스로부터 관련 문서를 검색하고 그 내용을 토대로 답변을 생성할 수 있도록 하는 기법으로, 검색 방식과 단계에 따라 분류할 수 있다. 검색 방식은 키워드 기반의 sparse retrieval과 임베딩 유사도를 활용하는 dense retrieval로 구 분되며, 두 방식을 혼합하여 정확성을 높이는 방법도 존재한다(Lewis et al., 2021). 검색 단계는 단일 검색 방 식인 single-hop retrieval과 다중 검색 방식인 multi-hop retrieval로 구분된다.
Sparse retrieval은 전통적인 정보 검색 방식을 활용하며, RAG 데이터베이스에 존재하는 문서 중 질의에 해 당하는 토큰(키워드)이 존재하는 지의 여부를 기반으로 문서를 검색한다. 동일한 토큰을 검색하여 문서를 선 택하는 특성상, 구현이 간단하고, 탐색 속도가 빠르며, 대규모 RAG 데이터베이스에서 효과적으로 활용될 수 있다. 다만, 문서의 검색에서 단순한 동일 단어 빈도 등을 기반으로 참고 문서를 선택하기 때문에 의미론적 인 유사도는 고려하지 못한다는 단점이 있다. Dense retrieval은 문서와 질의를 사전 학습된 언어모델을 통해 임베딩 벡터로 변환하여, 의미적 유사성에 기반해 문서를 검색한다. 입력된 쿼리를 벡터화하여 활용하기 때 문에 의미론적 유사성을 고려할 수 있어 대부분의 RAG 파이프라인이 dense retrieval을 활용하고 있다. 다만, 데이터베이스의 구축에서 모델의 학습이 필요하며, 대규모 데이터베이스를 구축하는 경우 검색 소요 시간을 줄이기 위한 추가적인 인덱싱 작업이 필요하다는 한계가 있다. 최근에는 컴퓨팅 자원 효율성을 높이기 위해 dense retrieval과 sparse retrieval을 혼합하여 활용하고 있는데, 코사인 유사도 기반 키워드 필터링을 수행한 후 의미론적 유사도를 확인하는 방법들도 제시되고 있다(Wang et al., 2023).
검색 단계에 따라 single-hop retrieval과 multi-hop retireval로 구분되는데, single-hop retireval방법은 한 번의 검색으로 응답 생성의 근거가 되는 문서를 찾는 방법이며, multi-hop retrieval은 여러 번의 검색을 수행하여 보다 적합한 문서를 찾을 수 있도록 하는 방법이다. 예를 들어, RAG 데이터베이스가 법규 범주, 사례 범주 등으로 구분되어 구성된다면, multi-hop retrieval은 먼저 질의에서 핵심 키워드를 기반으로 1차로 법규 범주에 서 근거 문서를 검색하고, 유사 사례 범주에서 실제 사례를 검색하여 보다 신뢰도 높은 종합 답변을 제공할 수 있다(Izacard and Grave, 2021). 본 절에서 제시한 RAG 기법들을 비교·분석한 결과는 <Table 3>과 같다.
<Table 3>
Comparison of RAG retrieval techniques
| Retrieval type | Similarity Method | Retrieval speed | Limitations |
|---|---|---|---|
| Sparse | Keyword based | Very fast | |
| Dense | Semantic similarity | Moderate | |
| Single-hop | Single-stage | Fast | |
| Multi-hop | Multi-stage | Slow |
본 연구에서 RAG로 활용하고자 하는 데이터는 「사고 잦은 곳 개선사업 업무 편람(2002)」의 개선방안별 설치방법이다. 먼저 RAG 데이터베이스의 검색 방식은 법규, 지침, 실무 보고서 등에서 활용하는 용어의 다 양성을 고려하여 단순한 토큰 유사도 기반 검색보다는 의미론적인 유사도까지 고려하는 dense retrieval을 선 택하였다. 또한, 데이터베이스의 구축에 다양한 범주의 데이터가 포함되어 있으므로 문서를 청킹(chunking)하 여 RAG 데이터베이스 내에 존재하는 여러 개의 청크 중 쿼리와 부합하는 것을 선택 및 병합할 수 있는 multi-hop 방법을 선택하였다.
3. 파인튜닝 및 RAG 데이터 세트 구축
1) 파인튜닝 학습 데이터 구축
파인튜닝의 학습 데이터 세트는 대부분이 QA쌍의 형태로 구축되며, 이는 LLM이 채팅 기반의 질의응답 구조로 작동하기 때문에 이와 유사한 패턴으로 학습을 수행시키기 위함이다(OpenAI, 2025). 다만, 대량의 데 이터를 QA쌍으로 구축하는 데는 많은 시간과 비용이 소모되기 때문에 대형 LLM(예, OpenAI 사의 GPT-4o) 를 활용하여 QA쌍을 생성한 뒤, SLM의 학습 데이터로 활용하는 knowledge distillation 기법이 활용되고 있다 (Wang et al., 2023). Knowledge distillation 기법을 효과적으로 적용하기 위해서는 대형 LLM에 QA쌍 구축의 기반이 되는 학습 데이터를 체계적으로 구조화하여 제공해야 한다. 예를 들어, 교통사고 유형 별로 적절한 예방대책을 제시하는 QA쌍을 구축하는 경우, 교통사고의 유형 분류 기준에 따른 교통사고 예방대책을 매핑 한 표를 <Table 4>와 같이 대형 LLM에 제공해야 한다. 이렇게 구조화된 데이터는 대형 LLM이 이용자가 정 의한 로직에 따라 QA쌍을 자동으로 생성할 수 있도록 한다.
<Table 4>
Example of fine-tuning training data constructed by applying knowledge distillation
| Road type | Object | 1st priority | 2nd priority | 3rd priority | 4th fixed | 5th fixed |
|---|---|---|---|---|---|---|
| National | Vehicle-to-vehicle | Victim child status | Victim elderly status | Accident cause code | Accident situation | Law violation |
| National | Vehicle-to-pedestrian | Accident time | Victim elderly status | Road type code | Accident situation | Law violation |
| National | Single vehicle | Vehicle use code | Age code | Drunk driving status | Accident situation | Law violation |
| Local | Vehicle-to-vehicle | Victim child status | Victim elderly status | Accident cause code | Accident situation | Law violation |
| Local | Vehicle-to-pedestrian | Vitim elderly status | Accident time | Road type code | Accident situation | Law violation |
| … | ||||||
| ↓ | ||||||
| Example | ||||||
| Role | content | |||||
| user | A vehicle-to-pedestrian accident occurred on a national road. The accident situation was a head-on collision and the law violation was speeding. A child was among the victims. What would be appropriate traffic accident prevention measures under these conditions? | |||||
| assistant | Install pedestrian detection lighting and night-time visibility enhancement facilities. | |||||
본 연구에서는 파인튜닝 학습 데이터 구축을 위해 한국교통안전공단의 COSAS에서 제공하고 있는 위험 지역분석의 사고예방대책 DB를 활용하였다. 해당 DB는 국내 도로망에서 발생하는 교통사고를 경찰청 교통 사고 데이터의 분류 기준에 따라 7개 위계로 분류하고 있으며, 해당 위계별 118개의 교통안전대응책을 매핑 하여 제시하고 있다. 본 연구에서 knowledge distillation 기법을 적용하기 위해 활용한 모델은 OpenAI 사의 GPT-4o 모델로, 교통사고 유형별 예방대책의 매핑 사례마다 QA쌍을 구축하였다. 총 구축된 QA쌍은 63,063 개로, 그 예시는 <Table 4>와 같다.
2) RAG 학습 데이터 구축
RAG 학습 데이터의 구축에서 가장 중요한 점은 검색 방법에 부합하며, 검색 결과가 이용자의 질문과 충 분한 연관성을 유지할 수 있도록 설계해야 한다는 점이다. 이를 위해서, RAG의 개별 데이터(청크)는 지나치 게 방대하거나 불필요한 내용은 포함하지 않고, 하나의 목적성을 가진 형태로 세분화·독립화하여 작성하는 것이 바람직하다. 예를 들어, 개별 교통안전 예방대책에 대한 고려사항을 포함한 청크를 작성할 때에는 질문 과 직접 연결될 수 있도록 키워드나 맥락 단어를 포함하여 검색 정확도를 높일 수 있다. 또한, 검색 방법을 multi-hop으로 설정하는 경우, 청크 간 연관성을 연결할 수 있도록 참조 키워드 등과 같이 하나의 청크에서 다른 청크로 연결될 수 있는 구조를 고려해야 한다.
한국어 기반의 RAG 학습 데이터를 구축하기 위해서는 기본적인 고려사항 외에 한국어의 문서 특성도 고 려해야 한다. 예를 들어, 교통안전 분야에서 RAG 데이터로 활용할 수 있는 대표적인 문서들인 교통안전 관 련 법규, 지침, 편람, 매뉴얼 등은 대부분이 PDF의 형태로 배포되고 있다. 이러한 경우, 한국어에 특화된 광 학 문자 인식(optical character recognition, OCR)을 수행해야 문맥을 유지하고 오류를 낮출 수 있다. 특히, 교 통안전 관련 문서는 계층별로 다단으로 분류된 표가 핵심적인 내용을 포함하고 있는 경우가 많으며, 표의 내 용을 RAG로 활용하기 위해서는 표 내부 행과 열에 대한 개별 인덱싱과 마스킹이 필요하다. 최근에는 표의 구조를 별도 인덱싱 없이도 인식할 수 있는 다양한 OCR 모델과 라이브러리가 개발되고 있으나(Nassar et al., 2022;Lee, 2025), 한글 문서에 실무적으로 활용하기에는 한계가 따른다. 따라서, 본 연구에서는 RAG 데이터 베이스로 활용한 「사고 잦은 곳 개선사업 업무편람」(MOLIT, 2002)에서 제시하고 있는 개선방안 고려사항들 을 <Table 5>와 같은 형태로 수기로 작성하여 42개의 RAG 학습 데이터를 데이터를 구축하였다.
<Table 5>
Sample RAG dataset for improvement measures and considerations
4. 파인튜닝 및 RAG 기법 적용
1) 파인튜닝 기법 적용
본 연구에서는 PEFT의 적용을 위해 저사양의 컴퓨팅 자원에서도 PEFT의 수행이 가능하도록 하는 Unsloth 라이브러리를 활용하였다. 본 연구에서 활용한 모델의 세부사항은 <Table 6>과 같다. LoRA 또는 QLoRA는 특히 저차원 행렬의 차수(r), 스케일 계수(lora alpha) 값이 모델의 성능과 학습 안정성에 큰 영향을 미치기 때 문에 하이퍼파라미터 최적화가 필수적이다.
<Table 6>
Computing resources and PEFT hyperparameter settings
| Category | Sort/parameter | Value | Description |
|---|---|---|---|
| Computing resources | CPU | i7-12700KF | - |
| GPU | NVIDIA GeForce RTX 3090 | VRAM : 24GB | |
| RAM | - | 64GB | |
| Model | model name | gemma-3-27b-pt-bnb-4bit | Pre-trained, 4-bit quantization applied |
| max seq length | 2048 | Maximum sequence token length | |
| load in 4bit | True | QLoRA | |
| LoRA | finetune vision layers | False | Vision layers not fine-tuned |
| r | 8 | LoRA low-rank matrix dimension | |
| lora alpha | 8 | Scaling factor, generally same as *r | |
| lora dropout | 0 | Dropout rate (generally around ~0.1) |
먼저, 저차원 행렬의 차수는 LoRA 또는 QLoRA에서 모델에 삽입되는 저차원 행렬의 내부 차원 수를 의미 한다. 행렬의 차수가 크면 모델이 학습 가능한 파라미터 수가 많아지며, 학습 데이터의 복잡한 입·출력 관계 를 더욱 세밀하게 학습할 수 있지만, 차원 수가 커질수록 VRAM 사용량과 계산량이 늘어나고, 과적합의 가 능성이 높아진다. 스케일 계수는 PEFT 과정 중에 학습한 가중치를 기존 모델의 가중치에 얼마나 반영할지를 조절하는 계수이다. LoRA 또는 QLoRA의 학습 가중치 업데이트는 수식(1)과 같다. y를 모델의 최종 출력, x 를 모델의 입력값이라고 할 때, W0x는 사전학습된 모델의 출력이며, α 는 스케일 계수, r을 저차원 행렬의 차수, BA 는 LoRA 또는 QLoRA에 의해 학습된 보정행렬이다. 이에 따라, α와 r를 동일하게 설정하면 ΔW 가 BA 로 단순화되어 학습 안전성과 일관성을 확보할 수 있기에, 대부분의 연구에서 이를 동일하게 설정하 도록 권장하고 있다(Hu et al., 2023;Dettmers et al., 2023).
따라서, 본 연구에서는 a와 r 값을 포함한 다양한 하이퍼파라미터들을 시행착오법을 통해 최적화를 수행 하였으며, 최종적으로 구축된 모델의 하이퍼파라미터는 <Table 6>과 같다.
2) RAG 기법 적용
본 연구는 파인튜닝을 적용한 모델과 RAG 기법을 적용한 모델의 성능 비교·분석을 위해 파인튜닝을 적용 한 모델과 동일한 환경에서 RAG 기법을 적용하였다. RAG 기법은 의미론적 유사성을 고려하는 dense retrieval 방법을 적용하였으며, 여러 번의 검색을 통해 근거 청크를 찾는 multi-hop retrieval 방법을 적용하였 다. RAG 구현을 위해 활용한 프레임워크는 LangChain으로, RAG 내부에서 질의와 관련된 청크를 찾을 수 있 는 모듈인 ConversationalRetrievalQA를 적용하였다. RAG 데이터베이스의 임베딩은 한국어 임베딩에 특화된 모델인 korean natural language inference(KorNLI)를 활용하였다. KorNLI는 타 다국어 임베딩 모델과 비교하였 을 때, 한국어의 의미론적 유사성을 높은 성능으로 반영할 수 있게 설계되어, 의미 기반 검색의 정확도를 향 상시킬 수 있다(Ham et al., 2020).
본 연구에서는 RAG 기법이 적용된 모델에 출력 양식(template)을 설정하여 개선대책별 설명, 고려사항, 근 거를 제시할 수 있도록 설정하였다. RAG 기법을 적용할 경우 설정해야 하는 핵심적인 하이퍼파라미터는 검 색할 문서 개수를 설정하는 top_k, 문서를 구분하는 청크의 크기 및 중첩 길이에 해당하는 chunk_size 및 chunk_overlap, 문서의 조합 방식인 chain_type 등이다. 본 연구에서는 RAG 데이터베이스에서 개선대책 별 정 보를 이미 청크로 나누어 구축하였기 때문에 chunk_size 및 chunk_overlap은 제외하고 설정하였다.
먼저 top_k가 지나치게 크게 설정될 경우, 질문의 토큰들과 유사성이 있는 다수의 청크를 참조하여 답변이 생성되기 때문에 응답의 일관성 및 정확성이 떨어지고, LLM의 context가 지나치게 커질 수 있다는 우려가 존재한다. 따라서, 본 연구에서는 기본값인 3으로 설정하였다. Chain_type은 모든 청크를 합쳐서 이용자의 질 의에 병합한 후 LLM에 전달하는 방식인 ‘stuff’, 검색된 k개의 청크를 병합 후 요약하여 이용자 질의에 추가 하는 방식인 ‘map_reduce’, 검색된 청크의 수 만큼 답변 생성·요약을 수행하여 점진적으로 답변을 개선시키 는 ‘refine’, 개별 문서의 질문 적합도를 언어모델이 판단하도록 한 후, 가장 적합하다고 판단한 청크 기반 답 변을 선택하는 ‘map_rerank’ 방식이 있다. 다만 설정되는 chain_type의 방법에 따라 컴퓨팅 자원의 소모가 변 동되기 때문에, 본 연구에서는 가장 기본적인 ‘stuff’로 설정하여 모델을 구축하였다. 최종적으로 구축된 RAG 기법 적용 모델은 <Table 7>과 같다.
<Table 7>
RAG hyperparameter settings
* The computing resources and model configuration are the same as in <Table 6>
| Category | Sort/parameter | Value/setting | Description |
|---|---|---|---|
| RAG | Prompt tuning | Countermeasure: Considerations: Basis: |
A format provided to the LLM to ensure a fixed output structure |
| top_k | 3 | Selects the top K most relevant documents during retrieval. | |
| chain_type | stuff | Determines how retrieved documents are passed to the LLM (e.g., stuff, refine). | |
| chunk_size | - | Defines length of each text chunk when splitting long documents. | |
| chunk_overlap | - | Sets number of overlapping tokens between chunks to preserve context. |
5. 개별 모델 답변 예시 및 사례 기반 평가
본 연구에서는 교통안전대응책의 제시를 목적으로 상이한 학습 데이터 기반 SLM 모델을 개발하였다. 첫 번째 모델은 COSAS에서 활용하는 교통사고 유형 및 교통안전대응책 데이터를 기반으로 파인튜닝을 수행하 여 교통사고 유형별로 구조화된 예방대책을 생성할 수 있도록 설계하였다. 두 번째 모델은 「사고 잦은 곳 개 선사업 업무편람」(MOLIT, 2002)을 기반으로 교통안전대응책 별 고려사항을 RAG 데이터 세트로 구축하고, 데이터 세트를 기반으로 제시된 교통사고 유형에 적합한 교통안전대응책을 제시하고 고려사항을 생성할 수 있도록 설계하였다. 두 모델은 동일한 목적을 가지고 있지만, 첫 번째 모델은 학습 데이터에서 제시된 교통 사고 유형과 대응책 사이 관계를 학습하였으며, 두 번째 모델은 SLM 모델의 사전학습된 데이터에 교통사고 대응책의 고려사항을 추가로 제시받아 적절한 교통사고 대응책을 생성할 수 있도록 구성되었다는 차이점이 있다.
일반적으로 언어모델의 성능 평가를 위해서는 벤치마크 테스트를 수행한다. 현재 공개되어 있는 벤치마크 데이터는 언어모델의 범용적인 성능을 평가하기 위해서 구축된 경우가 많으며, 특수 분야에서의 성능을 평 가하기 위한 데이터 세트도 활발히 구축되고 있다(Jin et al., 2019;Huang et al., 2025). 다만, 교통안전 분야 특화 모델을 평가할 수 있는 체계적인 벤치마크 데이터 세트는 구축되지 않은 상황이다. 따라서, 본 절에서 는 한국도로교통공단의 「서울특별시 교통사고 잦은 곳 기본개선계획」(KOROAD, 2016~2022)의 실제 개선사 업 수행 사례를 기반으로 하여, 각 교통안전 분야 특화 SLM의 응답 특성과 실효성을 검토하고 향후 언어모 델의 교통안전 분야에서 활용 가능성을 제시하고자 한다. 실사례 기반 평가는 다양한 실제 사례들을 Gemma-3 27B 원본 모델과 파인튜닝 및 RAG가 적용된 모델에 입력하여 수행되었으며, 그 중 대표적인 사례 를 <Table 8>에 제시하였다. 개발된 모델이 교통안전대응책과 관련이 없거나 옳지 않은 방향으로 응답을 제 시한 사례는 <Table 9>에 제시하였다.
<Table 8>
Comparison of example responses by model
<Table 9>
Examples of model’s inappropriate responses
| Improvement project for areas prone to traffic accidents actual case | ||
| Please present countermeasures to traffic accidents at the following considerations, and basis. The main types of accidents were 6 vehicle-pedestrian accidents, 4 signal violations, 2 motorcycle accidents, 1 bicycle accident, 4 rear-end collisions, and 16 other vehicle-vehicle accidents, for a total of 34 accidents. The causes and problems of the accidents are as follows. 1. Frequent illegal U-turns due to inadequate central dividers 2. Conflicts between left-turning vehicles and straight-through vehicles 3. Frequent pedestrian jaywalking and illegal U-turns in safety zones 4. Inadequate pedestrian safety facilities at crosswalks in the right-turn lane What countermeasures can be implemented for these issues? |
||
| Model | Response | |
| Fine-tuned Model | Case 1 | Frequent illegal U-turns due to insufficient median barriers: Proposal for installing corner channelization islands. |
| Case 2 | From a geometric design perspective, extension of safety zones and adjustment of residential land is proposed; From a geometric design perspective, installation of protective barriers is proposed; From a geometric design perspective, corner treatment is proposed; From a geometric design perspective, adjustment of traffic signals is proposed; From a geometric design perspective, installation of channelization is proposed; From a geometric design perspective, lane adjustment is proposed; From a geometric design perspective, installation of median barriers is proposed; From a geometric design perspective, improvement of access road alignment is proposed. |
|
| Case 3 | From a geometric design perspective, installation of median barriers, channelization of safety zones; From a geometric design perspective, from a safety facilities perspective, installation of crosswalks, installation of pedestrian signals; From a geometric design perspective, from a traffic operation perspective, intersection channelization, access road speed limits are proposed. |
|
| RAG Model | Case 1 | ## 1.1.2 GPT-4 ```python from langchain.chat_models import ChatOpenAI chat = ChatOpenAI(model_name="gpt-4", temperature=0.0) ... |
| Case 2 | [Countermeasure 1] Countermeasure : Considerations : Basis : [Countermeasure 2] Countermeasure : Considerations : Basis : ... |
|
먼저, 개별 모델이 옳은 방향으로 답변한 <Table 8>을 기반으로 모델의 답변을 확인한 결과, 원본 Gemma- 3 27B 모델은 불법 U턴을 방지하기 위한 교통안전대응책으로 가드레일 설치, 안전지대 보강과 좌회전 신호 기 위치 조정, 안전지대 내 가드레일 설치 및 횡단보도 신호기 추가 설치를 제시하였다. 해당 대응책은 제공 된 문맥상 일부 적절한 것으로 보이나, 안전지대 내 가드레일 설치와 같이 실제 적용이 불가능한 대응책을 제시하고 있으며, 대응책의 설치 근거, 고려사항 등을 제시하지 못해 응답의 구체성이 떨어지는 한계가 있 다. 파인튜닝을 수행한 모델은 기하 구조적 측면에서는 접근로 확장, 교차로 도류화, 시야 장애물 제거를, 안 전시설 측면에서는 보행자 신호등 설치, 접근로 조명 개선을, 교통운영 측면에서는 접근로 속도제한, 교통량 우회 유도를 대응책으로 제시하였다. 제시한 대응책은 개별 교통안전대응책이 현 시스템에서 활용하는 내용 을 반영하였기에, 실무적인 측면에서도 일부 효용성을 가질 수 있을 것으로 기대되나, 대응책의 수행 근거 및 가이드라인을 제시하지 않아 사전학습 모델과 유사한 한계점을 보인다. 또한, 복합적인 사고발생 요인을 고려하지는 못했는데, 이는 학습 데이터에서 제시된 정보만을 대상으로 교통안전대응책을 제시했기 때문으 로 보인다. 마지막으로 RAG 모델은 도로 반사경 설치, 표지병 설치, 교차로 도류화를 교통안전대응책으로 제시하였으며, 입력에서 제시한 고려사항 및 근거를 명확하게 제시하고 있다. 다만, 파인튜닝 모델이 제시하 는 것과 같이 측면별 대응책을 제시하고 있지는 않으며, 출력 결과가 RAG 데이터 세트에 제시된 대응책에 한정된다. 실제 사례에서 제시한 교통안전대응책은 중앙분리대 설치, 신호현시 조정, 시선유도봉 설치, 보행 자 방호울타리 설치, 과속방지턱 설치, 노면표시 도색이었으며, 세 모델 모두 일부 실제 수행된 교통안전대 응책을 포함하여 응답하고 있음을 확인할 수 있다.
개별 모델이 적절하지 않은 방향으로 답변한 사례인 <Table 9>를 확인한 결과, 파인튜닝 모델과 RAG 모 델 모두 다양한 형태의 부적절 답변을 제시하였다. 대표적으로, 파인튜닝 모델의 경우 예방대책의 제시가 하 나의 측면에서만 제시되는 사례, 제시한 예방대책은 적절하나 출력 형태에 오류가 있는 사례, 제시된 사고발 생요인 및 문제점 한 가지에 대해서만 답변한 사례가 존재한다. 이는, 모델의 출력값 생성 과정에서 다양한 학습 데이터를 고려하지 못하였거나 문맥을 기억하지 못하였기 때문으로 사료된다. RAG 모델의 경우, 질문 의 내용과 관련이 없는 코드를 출력하거나 공란으로 답변한 사례가 존재한다. 이는, 모델의 입력 프롬프트에 전달되는 참고 문서의 청크 길이가 지나치게 길어 입력 가능한 토큰 수를 벗어났거나, 무작위적으로 언어모 델이 정상적으로 작동하지 못한 경우로 보인다.
6. 소결
본 절에서는 교통안전 분야에 특화된 언어모델을 개발하는 과정을 전반적으로 제시하고, 개발된 모델을 실사례를 통해 평가하였으며 이에 따른 한계점을 제시하였다. 최적화가 수행되지 않은 모델의 출력값을 확 인한 결과, 문맥에는 부합하나 적용이 불가능한 교통안전대응책을 제시하거나, 대응책별 고려사항 및 설치 근거 등을 제시하지 못해 실무적으로 활용하기에는 무리가 있는 것으로 나타났다. 파인튜닝된 모델의 경우, 기존 모델과 유사하게 대응책 별 고려사항 및 설치근거는 제시하지 못하였으나 실무적으로 활용되고 있는 교통안전대응책을 기초로 하여 답변을 생성했기에 효용성을 가질 수 있을 것으로 기대된다. 마지막으로 RAG 모델은 RAG 데이터베이스에 포함되는 교통안전대응책을 대상으로 답변을 생성하며, 대응책별 고려사 항 및 설치 근거도 명확히 제시할 수 있음을 확인하였다. 최적화가 수행된 모델들은 최적화가 수행되지 않은 원본 모델과 비교하였을 때, 답변의 상세성·적합성이 일부 개선된 것으로 확인되며, 실제 교통안전대응책 제 시에 보다 실무적 효용성을 가질 수 있을 것으로 기대된다.
다만, 개발된 모델들은 대부분의 시도에서 이용자의 목적에 부합하는 형태로 출력값을 생성하였으나, 일 부 사례에서 한계점을 보이기도 하였다. 파인튜닝 모델은 제시된 입력값을 모두 고려하지 못하거나 출력 형 태에 오류가 있는 사례, RAG 모델은 질문과 관련 없는 코드를 출력하거나 공란으로 답변한 사례가 존재한 다. 분석 결과를 종합하였을 때, 현재 개발된 모델을 실무적으로 활용하기에는 무리가 있을 것으로 보인다. 이는 입력된 질문에 대상 구간의 사고발생요인 및 주 사고유형만이 포함된 점, 학습 데이터가 교통안전 전반 의 정보를 포함하지 못하였다는 점, 언어모델의 프롬프트 엔지니어링 및 입출력 양식의 정의가 명확하게 이 루어지지 않았다는 점 등의 한계 때문인 것으로 사료된다. 향후 실제 교통안전 개선사업 사례 전반에 대한 데이터를 수집·구조화하여 학습하는 경우 학습된 데이터의 완성도에 따라 실무적으로 활용 가능한 모델을 구축할 수 있을 것으로 보이며, 입력되는 질문에 대상 구간의 기하구조적 정보, 기설치된 안전시설, 설계속 도 등과 같은 정보를 추가로 제공할 경우, 모델의 응답 구체성을 향상시킬 수 있을 것으로 판단된다.
Ⅳ. 교통안전 분야 특화 언어모델 구축 프로세스 제시
1. 교통안전 분야 특화 언어모델 구축 프로세스 제시
본 절에서는 교통안전 분야에 특화된 프로토타입 SLM 구축을 위한 일련의 절차를 정리하고, 이를 프로세 스로 체계화하여 제시하고자 한다. 특히, 모델의 목적 설정부터 기법 선정, 데이터 세트 구축, 평가 단계까지 의 전체 흐름을 설명하고, 교통안전과 같은 특수 분야에서 고려해야 할 사항을 제시하고자 한다.
특정 분야에 특화된 SLM을 구축하기 위해서는 가장 먼저 그 목적과 이용 대상을 명확히 설정하는 것이 중요하다. 모델의 구축 목적과 이용 대상은 모델의 선정, 모델의 학습 및 보완 방법, 데이터 세트의 구축과 직결되기 때문이다. 모델의 목적과 이용 대상이 설정되었으면, 작업 환경과 목적에 부합하는 언어모델을 선 정해야 한다. 모델의 선정 시에는 성능, 확장성, 분야 특화 기법 적용 가능성, 라이선스 여부 등을 고려해야 한다. 모델의 선정 이후에는 분야 특화를 수행하기 위한 기법을 선정해야 한다.
분야 특화를 수행하기 위한 대표적인 방법은 파인튜닝과 RAG 기법이 있으며, 파인튜닝의 경우 저사양의 작업 환경에서 적용할 수 있는 PEFT도 함께 고려할 수 있다. 파인튜닝 기법은 이용자가 입력하는 분야 특화 지식을 추가로 학습시킬 수 있으며, 학습 데이터의 입·출력 양식 및 데이터 세트 내 다양한 관계성을 학습한 다. RAG 기법을 적용한 모델은 사전학습된 언어모델의 사고능력을 기반으로 구축된 RAG 데이터베이스를 참고하여 답변이 생성된다. 즉, 새로운 정보를 언어모델에 학습시키기 위해서는 파인튜닝 기법을, 이용자가 제공한 근거를 기반으로 언어모델의 답변을 생성하기 위해서는 RAG 기법을 적용할 수 있다.
언어모델의 분야 특화 기법의 선정 후에는 기법별로 활용될 데이터 세트를 구축해야 한다. 파인튜닝의 데 이터 세트는 일반적으로 QA쌍의 형태로 작성하는 것이 권장되며, 이용자가 모델에 입력할 질문의 형태 및 기대하는 답변의 형태로 작성하여야 한다. RAG 학습 데이터는 언어모델의 답변에 활용될 수 있는 근거 문 서들을 적절한 길이로 나누어 청크로 구축하며, 청크와 이용자의 질문이 연결될 수 있도록 키워드, 출처 등 을 작성하는 것이 도움이 될 수 있다.
마지막으로, 모델에 분야 특화 기법을 적용하고 그 결과를 평가해야 한다. 모델의 일반적인 성능 평가는 다양한 벤치마크 데이터 세트를 통해 가능하나, 특수 분야의 심층적인 벤치마크 데이터 세트가 구축되지 않 은 경우가 존재한다. 이러한 경우에는 관련 업계 종사자 및 전문가들의 정성적인 평가를 통해 모델의 성능을 평가하는 방법도 함께 고려할 수 있다. 이러한 일련의 과정을 도식화하여 제시한 결과는 <Fig. 1>과 같다.

<Fig. 1>
Conceptual process for SLM-based decision-support model to derive traffic-safety countermeasures
2. 교통안전 분야 특화 언어모델 구축 고려사항
본 연구의 모델 구축 과정에서 마주한 한계점을 기반으로 도출한 언어모델 구축 고려사항은 다음과 같다. 먼저, 교통안전 분야에 특화된 모델을 개발하기 위해서는 학습 데이터의 구조화 및 체계화가 필수적이다. 분 야 특화 과정에서 수행되는 파인튜닝은 대량의 학습 데이터를 기반으로 새로운 지식을 학습하는 동시에 그 입출력 형태와 관계성도 함께 학습하기 때문에, 이용자가 입력하는 데이터의 형태와 정보에 크게 영향을 받 는다. 따라서 활용 목적, 이용자의 예상되는 입력 형태 그리고 이용자가 원하는 답변의 형태를 고려한 학습 데이터의 구축이 필요하다. 또한, 보다 범용성을 가질 수 있는 모델의 구축을 위해 QA쌍 작성 시 동일한 답 변에 여러 가지 형태의 질문을 입력하는 방법도 고려할 수 있다.
두 번째로, 학습 데이터의 구축에 있어 다양한 맥락 정보를 포함하여야 한다. 본 연구에서 개발한 모델은 국내에서 활용 중인 일부 편람과 시스템을 기반으로 학습 데이터를 구축하였으며, 이로 인해 모델이 제시할 수 있는 교통안전대응책의 범위는 제한적이고 다양성 측면에서도 한계가 존재한다. 실제 분석 결과, 모델의 응답은 주어진 맥락 정보만을 고려했을 때는 적절해 보일 수 있으나, 실제 사례와 비교하면 일부 차이를 보 였다. 이는 입력된 맥락 정보가 사고 유형 및 원인에 국한되어 있기 때문으로, 실제 교통안전대응책의 선정 은 교통사고 위험요인뿐 아니라 도로의 기하구조, 교통류 특성, 기존 안전시설물 등의 교통 공학적 요소를 종합적으로 고려한다. 따라서 향후에는 다양한 교통안전대응책 사례와 관련 법령뿐 아니라, 멀티모달다양한 형태의 입력 정보(예, 교차로 도면, 현장 이미지, 안전시설물 배치 도면 등)를 포함하는 학습 데이터를 구축 하여 보다 정밀하고 실무 적용성이 높은 모델의 개발이 가능할 것이다.
마지막으로, 교통안전 분야에서 교통안전대응책의 선정은 사고 피해의 저감과 직결되는 만큼, 언어모델이 부적절한 답변을 생성하거나 이용자의 의도에 부합하지 않는 답변을 생성하는지 여부를 확인하는 과정이 필 수적이다. 이 과정을 효율적으로 수행하기 위해서는 표준화된 벤치마크 데이터 세트의 구축이 필요하다. 따 라서 교통안전 정책 및 개선사업의 의사결정 과정을 반영한 평가 항목의 설정이 선행되어야 하며, 단순한 정 답 일치 여부뿐만이 아닌 대상 구간의 기하구조적 특성, 응답 적합성, 실행 가능성, 시행 효과 등을 종합적으 로 판단할 수 있는 기준 선정이 필요하다.
Ⅴ. 결론 및 향후 연구과제
본 연구는 교통안전 분야에 특화된 언어모델의 구축 가능성과 활용성을 검토하고 프로토타입 모델을 개 발하여 모델 구축 프로세스를 제시하는 것을 목적으로 수행되었으며, 모델 개발 과정에서 교통안전 분야 특 화 고려사항을 도출하고 실무 적용 가능성을 고찰하였다. 이를 위해 COSAS 내 교통사고 유형별 교통안전대 응책, 「사고 잦은 곳 개선사업 업무편람」(MOLIT, 2002) 등의 데이터를 기반으로 학습 데이터를 구축하고, 파 인튜닝과 RAG 기법을 적용한 프로토타입 모델을 각각 개발하였다. 모델별 성능은 동일 질의에 대한 응답 비교와 함께, 한국도로교통공단의 「서울특별시 교통사고 잦은 곳 기본개선계획」(KOROAD, 2016~2022) 개선 사업 수행 사례를 근거로 평가하였다.
먼저, 모델별 특성을 확인하였을 때, 파인튜닝을 수행한 모델은 교통사고 유형 별 교통안전대응책을 학습 데이터로 활용하였으며, 기하구조적 측면, 안전시설 측면, 교통운영 측면에서의 교통안전대응책을 적합하게 제시하였다. 다만, 대응책의 수행 근거 및 가이드라인을 제시하지 않는다는 한계점을 보였다. 이는 학습 데 이터의 QA쌍 형태를 학습하였기 때문으로 판단된다. RAG 기법을 적용한 모델의 경우, 제공된 교통사고 유 형에 적합한 교통안전대응책을 제시하였으며, 그 근거, 대응책의 시행 시 고려사항을 「사고 잦은 곳 개선사 업 업무 편람」과 동일하게 제시하였다. 다만, 파인튜닝 모델과 달리 제시하는 교통안전대응책의 다양성은 부 족하였으며, 이는 RAG의 구축 과정에서 선택한 multi-hop retrieval 검색 방법이 가장 연관성이 높은 대응책을 선택하여 제시했기 때문으로 판단된다.
최종적으로 본 연구에서는 교통안전 분야에 특화된 SLM의 구축, 실제 개선사업 사례 기반 모델별 응답 분석 결과를 통합하여 교통안전 분야 특화 SLM의 구축 프로세스를 제시하였다. 또한, 실제 모델을 구현하고 다양한 기법을 적용하는 과정을 통해, 교통안전 분야 특화 SLM 개발 시 모델 활용 목적 및 이용 대상 설정 의 필요성, 학습 데이터 구조화 및 체계화의 중요성, 특화 평가체계의 필요성 등을 고려해야 할 사항으로 제 시하였다. 본 연구는 명확한 근거와 실제 사례를 기반으로 대응책을 제시해야 하는 교통안전 분야에서 언어 모델의 활용 가능성을 실증적으로 검토하였다는 점에서 의의가 있다. 또한, 그 개발 과정을 기반으로 교통안 전 분야에 특화된 SLM 구축 시 고려사항을 제시하여 실무 환경에서 보다 신뢰성 있는 지원 도구로 기능할 수 있는 기반을 마련하였다. 나아가, 교통안전 분야를 넘어 교통 전반의 다양한 분야에서도 맞춤형 SLM의 활용 가능성을 보였다.
다만, 본 연구는 다음과 같은 한계점을 가진다. 첫 번째로, 개발된 모델에서 다양한 교통사고 상황의 맥락을 반영하지 못하며, 대응책의 다양성이 확보되지 못하였다. 이는, 근본적으로 학습 데이터에 사고 상황과 관련된 데이터가 부족했기 때문으로 판단된다. 이러한 한계를 극복하기 위해서는 학습 데이터 구축 시, 도로의 기하구조적 특성, 시간대, 교통류 특성과 같은 교통안전대응책의 선정에 고려해야할 데이터를 포함해야 한다. 더불어, 멀티모 달 데이터를 포함하는 등 모델에 제공되는 데이터의 폭을 넓히는 경우, 모델 응답의 유연성을 향상시킬 수 있을 것으로 기대된다. 두 번째로, 개별 개발된 파인튜닝 모델과 RAG 모델의 한계점은 서로 상보적으로 보완할 수 있을 가능성이 있음에도 불구하고, 컴퓨팅 자원의 제약으로 인해 두 기법을 모두 적용한 모델을 개발하지 못하였다. 이를 위해서는 더욱 비용·효율적인 기법의 적용 및 경량 모델의 활용을 고려할 수 있다. 마지막으로, 본 연구에서 개발된 모델은 교통안전 분야에 언어모델의 활용 가능성을 확인하기 위해 개발된 프로토타입의 모델이기 때문에, 실제 적용에 있어서는 명확한 한계점을 가진다. 따라서, 향후에는 모델의 고도화를 통해 실무적 인 활용성을 확보하고, 다양한 기존 교통안전 모델과의 비교·분석을 통한 성능 검증이 필요하다. 종합하면, 학습 데이터의 구축의 체계성, 최적화 기법의 고도화 등을 통해 언어모델을 개발하는 경우, 보다 교통안전 맥락에 적합하고 실무 적용 가능성이 높은 교통안전 분야 특화 언어모델을 구현할 수 있을 것으로 기대한다.




