Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.6 pp.102-120
DOI : https://doi.org/10.12815/kits.2025.24.6.102

Prediction of Traffic Crash Types Using Multimodal Artificial Intelligence

Heontak Han^*, Justin S Chang^**

^*Transportation Studies Group, Graduate School of Environmental Studies, Seoul National University
^**Corresponding author: Professor of Transportation Studies, Graduate School of Environmental Studies, Seoul National University

^† Corresponding author: Chang, Justin S., jsc@snu.ac.kr

Received 29 September 2025 │ Revised 23 October 2025 │ Accepted 25 November 2025

Abstract

The severity of injuries to traffic crash victims varies depending on the type of traffic crash. Therefore, it is necessary to tailor the geometric design of roads and install road features according to the specific type of traffic crash. This study presents a multimodal AI model that can learn structured and image data to classify traffic crash types based on the geometric design of roads. The multimodal model used a custom neural network based on the ReLU function to process structured data, and EfficientNet to process image data. Training results showed that the accuracy of the multimodal model was 60.3% and the F1 Score was 0.604. This is 13.5%p higher than the accuracy of the structured data single-modal model (46.8%) and 12.8%p higher than that of the image data single-modal model (47.5%). It indicates that it is possible to improve the accuracy of the type of traffic crash classification using AI by learning two modalities together. However, three issues are pointed out as limitations of the study. First, Due to the lack of structured data elements input into the model, explanatory power for predicting traffic crash types is insufficient. Second, Despite the theoretical validity of the multimodal model, its performance improvement is not up to par. Third, it is challenging to interpret the functioning of multimodal AI models in the context of transportation studies.

Key Words : Multimodal AI , Traffic Crash Type , Geometric Design of Roads , Image Data Analysis , Traffic Safety

멀티모달 인공지능을 이용한 교통사고 유형 예측

한 헌 탁^*, 장 수 은^**

^*주저자 : 서울대학교 환경대학원 교통학전공 석사과정
^**교신저자 : 서울대학교 환경대학원 교통학전공 교수

초록

교통사고 유형에 따라 사고 당사자의 피해 정도에는 큰 차이를 보이므로 사고유형에 적합 한 도로 기하구조의 설계 및 설치가 고려되어야 한다. 본 연구는 도로 기하구조에 따른 교통사 고 유형의 분류를 위해 정형 데이터와 이미지 데이터를 함께 학습할 수 있는 멀티모달 인공지 능 모델을 제시하였다. 멀티모달 모델은 정형 데이터 처리를 위해 ReLU 함수 기반의 맞춤 신 경망을 사용하였고, 이미지 데이터 처리를 위해 EfficientNet을 사용하였다. 학습 결과 멀티모달 모델의 정확도는 60.3%, F1 Score는 0.604로 나타나 정형 데이터 싱글모달 모델의 정확도 46.8%, 이미지 데이터 싱글모달 모델의 정확도 47.5%보다 각각 13.5%p, 12.8%p 높은 것으로 나타났다. 이를 통해 두 가지 모달리티를 함께 학습하여 인공지능을 이용한 교통사고 유형 분 류의 정확도를 높일 수 있다는 것을 보였다. 연구의 한계로 모델에 투입되는 데이터 요소의 부족으로 인해 교통사고 유형 예측을 위한 설명력의 부족, 멀티모달 모델의 이론적 타당성에 도 불구하고 성능개선이 이에 미치지 못하는 점, 멀티모달 인공지능 모델의 작동 방식을 교통 학적으로 해석하기 위해 추가적인 분석의 필요성이 지적된다.

키워드 : 멀티모달 인공지능 , 교통사고 유형 , 도로 기하구조 , 이미지 데이터 분석 , 교통안전

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

교통사고 발생의 3요소는 인적요인, 차량요인, 그리고 도로환경요인으로 구분되고, 3가지 요소가 복합적으 로 작용하여 교통사고라는 결과를 낳게 된다. 하지만 많은 연구에도 불구하고 인적요인, 차량요인과 함께 도 로환경요인을 함께 고려하기는 어려운 실정이다. 인적요인과 차량요인은 정형 데이터로 이루어져 있는 데 반해, 도로환경요인은 연속적인 도형과 같은 비정형 데이터로 이루어져 있어 도로 기하구조와 같은 요소를 회귀분석, 의사결정나무 등 기존 분석 방법의 틀에 직접 적용하기 어렵다. 이를 극복하기 위해 도로 경사, 곡 선반경 등 기하구조의 일부 선택된 주요 특성을 수치형, 명목형으로 가공하여 분석이 이루어진다.

이러한 분석 방식은 크게 세 가지 점에서 한계가 나타난다. 첫째로 도로환경요인(기하구조)의 분석 시 누 락되는 정보가 발생하고, 둘째로 연구 과정에서 선택된 요소가 수치형 혹은 명목형으로 간략화되어 연속적 인 기하구조의 특성을 불연속적으로만 해석할 수 있다는 점이다. 따라서 교통사고의 도로환경요인 특성 분 석 시 누락되는 정보를 줄이고, 데이터를 연속적으로 분석할 수 있는 분석 방법이 필요하다. 마지막으로 도 로환경요인의 가공 시 연구자가 비정형 데이터를 직접 코딩하여 정형 데이터로 변환해야 한다는 점이다. 이 과정에 많은 노력과 시간을 소모함과 동시에 개별 연구자의 주관이 개입될 가능성이 있다.

현실의 도로 기하구조를 가장 유사하게 표현하는 데이터는 지도나 도면과 같은 이미지 데이터이다. 지도 데이터는 수치형, 명목형으로 나타낸 도로 기하구조와 달리 인간이 직관으로 이해하기 쉽고, 비교적 많은 정 보를 담고 있다. 또한 분석 대상 지역을 연속적으로 분석할 수 있다. 따라서, 수치형, 명목형으로 이루어진 인적요인, 차량요인 등 기존 분석 시 이용되던 정형 데이터와 함께 이미지 형태의 지도 데이터를 분석에 이 용하면 도로 기하구조의 많은 요소를 고려할 수 있다.

교통사고의 유형에 따라 사고의 치명도와 발생 원인이 달라지므로, 유형에 따른 구분은 사고 예방 정책의 정밀화에 중요한 역할을 한다. 예를 들어, ‘차대사람’ 사고는 보행자 안전시설의 강화, ‘차량단독’ 사고는 도 로 기하구조의 개선 및 운전 문화 변화 등 유형별로 개선 방안이 달라지지만, 기존 연구는 사고 빈도 예측 혹은 사고 발생 여부 자체를 각 사고유형을 개별적으로 연구하는데 국한되는 경우가 많아 사고유형에 따른 개선 방안을 탐색하기 어려운 실정이다. 이에 따라 사고유형을 구분하고 예측하는 정밀한 분석 체계가 필요 한 상황이다. 본 연구는 이러한 문제의식에서 출발하여, 기존 분석 방식에서 누락되거나 간략화되기 쉬운 도 로환경요인의 특성을 반영하여 교통사고 유형을 분류하는 모형을 제시하는 것을 목표로 한다.

이에 이미지 형태의 데이터와 수치형, 명목형 데이터를 직접적으로 연결하여 분석할 수 있는 틀로서 멀티 모달 인공지능(Multimodal Artificial Intelligence) 모형을 적용하고자 한다. 적용 사례로는 ‘차대차’, ‘차대사람’, ‘차량단독’의 3가지 교통사고 유형을 분류하는 멀티모달 인공지능 모형을 구축하는 것이다. 연구는 크게 3단 계로 이루어진다. 첫째, 수치형, 명목형 자료를 포함한 정형 데이터와 지도 이미지와 같은 비정형 데이터를 함께 학습할 수 있는 멀티모달 인공지능 모형을 제시한다. 둘째, 제시된 멀티모달 인공지능 모형에 교통사고 와 관련된 정형/이미지 데이터를 투입하여 ‘차대차’, ‘차대사람’, ‘차량단독’의 3가지로 구분된 교통사고 유형 을 분류할 수 있도록 학습한다. 셋째, 학습된 멀티모달 인공지능 모형을 바탕으로 라벨링(labeling) 되지 않은 교통사고 데이터가 입력되었을 때 교통사고 유형을 예측하고, 싱글모달 모형과 비교를 통해 멀티모달 인공 지능 모형의 성능을 평가한다.

Ⅱ. 선행연구 고찰

교통사고에 영향을 미치는 도로환경요인을 분석하기 위해 다양한 도로 기하구조 요소 등이 선행연구에서 분석되었다. <Table 1>과 같이 수평곡선과 수직곡선의 정도가 많은 연구(Kang and Lee, 2002;Zhang and Ivan, 2005;Hong et al., 2012;Mohamed and Radwan, 2000;Kim et al., 2011)에서 분석 대상으로 채택되었다. 이외에 수평곡선과 수직곡선의 개수(Hong et al., 2012;Kim et al., 2011;Park et al., 2014)와 구간 길이(Mohamed and Radwan, 2000;Kim et al., 2011;Caliendo et al., 2007;Park et al., 2014), 차로 수(Hong et al., 2012;Mohamed and Radwan, 2000;Park et al., 2014) 등의 요소가 다수 채택되었다. 연평균일교통량(AADT)과 연간 교통사고 발생 수의 두 가지 항목은 도로 기하구조 요소가 아님에도 대부분의 연구에서 분석에 사용되었다. 선행연구 고찰 결과 많은 선행연구가 수평곡선 및 수직곡선의 정도와 개수, 구간 길이 등 곡선부와 관련된 요소를 다 수 채택한 것으로 나타났다. 이는 직선부보다 곡선부에서 사고 발생 확률이 높을 것이라는 일반적 관념과 일 치한다. 차로 수, 차도 폭과 같은 물리적 도로 기하구조 요소 또한 일부 연구에서 채택되었다. 이외에 연평균 일교통량, 연간 교통사고 발생 수 등 다양한 도로환경요인이 많은 연구에서 분석되었다.

<Table 1>

Road Environmental Factors Adopted in Previous Studies

Road Environment FactorsPrevious Studies	Kang and Lee(2002)	Zhang and Ivan(2005)	Hong et al. (2012)	Mohamed and Radwan(2000)	Kim et al. (2011)	Caliendo et al. (2007)	Park et al. (2014)
AADT	○	○	○	○	○	○	○
Number of Traffic Crashper Year	○	○	○		○		○
Degree of Horizontal Curves	○	○	○	○	○
Number of Horizontal Curves			○		○		○
Degree of Vertical Curves	○	○	○	○	○
Number of Vertical Curves			○		○		○
Section Length				○	○	○	○
Number of Lanes			○	○			○
Width of Lanes		○		○
Width of the Shoulder		○		○			○
Pavement on the Shoulder		○		○
Speed Limit		○		○	○
Type of Curve			○		○
Type of Merge			○
Number of Merge			○		○
Bridge/Tunnel			○		○
Urban/Provincial Road			○	○
Wet Road						○
Rate by Vehicle Type			○
Sunrise/Sunset			○

인공지능을 통해 도로 기하구조를 분석한 연구로서 일본 내 통행자 이동 데이터와 교통사고 데이터를 바 탕으로 딥러닝 학습모형을 개발한 연구(Chen et al., 2016)와 UAE에서 교통사고 데이터와 운전자 요인 및 도 로환경요인을 인공신경망으로 학습시킨 연구(Alkheder et al., 2016) 등이 있다. 국내 연구로는 사고다발지점 의 교통소통현황, 날씨 등 데이터를 인공신경망으로 학습시킨 연구(Han, 2019) 가 있다. 인공지능을 이용하여 도로 기하구조를 분석한 대다수의 선행연구는 대량의 정형 데이터를 기반으로 데이터의 특성을 추출하였다. 특히 다양한 데이터 요소를 투입하여 모형의 설명력을 높이는 연구가 다수 진행되었다.

멀티모달 인공지능은 그 특성상 두 개 이상의 데이터 모달리티(Data Modality)를 사용하므로 다양한 조합 의 모달리티를 사용한 선행연구가 진행되었다. 선행연구는 교통사고 확률 예측, 위험물 탐지와 같은 교통안 전 분야와 교통혼잡 예측, 신호제어와 같은 교통계획 분야에 멀티모달 인공지능을 적용하였고, 이미지 데이 터, 정형 데이터, 텍스트 데이터가 주로 사용되었다. 많은 선행연구에서 이미지 데이터를 중심이 되는 모달 리티로 설정하였다. 즉, 이미지 데이터를 바탕으로 텍스트 데이터 혹은 고정된 환경을 설명하는 정형 데이터 를 조합하여 결과를 도출하는 연구(Dao, 2022;Torii et al., 2022;Charoenpitaks et al., 2024)가 다수를 차지한 다. 가속도계와 같은 특수한 모달리티를 적용한 연구(Clemson University, 2023) 도 존재한다.

멀티모달 인공지능을 교통에 적용한 선행연구가 <Table 2>와 같이 존재하지만, 많은 연구가(Dao, 2022;Charoenpitaks et al., 2024) 차량 주행 시 차량 내에서 촬영한 이미지를 입력 데이터로 사용하였다. 이러한 유 형의 이미지는 차량 주행 시 주변 환경과 객체를 해석할 수 있는 정보를 제공하고, 향후 자율주행차 등의 개 발에 중요하게 사용될 수 있다. 하지만, 이는 개별 차량의 상태만을 반영하고, 차량 주변의 기하구조와 같은 요소를 반영하기 어렵다. 이를 극복하기 위해 지도 이미지를 활용한 연구(Torii et al., 2022)가 존재하지만, 특 정 영역을 시계열적으로 분석하여 도로 기하구조의 차이가 교통사고에 미치는 영향을 알 수 없다는 한계가 존재한다. 본 연구는 사고가 발생한 지점들의 다양한 기하구조를 인공지능 모델에 투입하여 기하구조와 교 통사고 간 상관관계를 분석한 점에서 차별성을 가진다.

<Table 2>

Multimodal AI related previous studies

ModalitiesStudies	Dao(2022)	Torii et al. (2022)	Charoenpitaks et al. (2024)	Clemson University(2023)
Image	○	○	○
Structured	○	○		○
Text	○		○
Others				○

도로 기하구조를 포함한 데이터 수집을 위해 Google Earth(Abdollahi and Pradhan, 2021), Yahoo Maps (Halaoui, 2009)와 같은 상용 지도 서비스를 이용한 연구가 있지만, 많은 연구는 OpenStreetMap(이하 OSM)을 이용하였다. 이는 상용 지도 서비스와 달리 OSM이 맞춤형 GIS 쿼리, 일반 사용자가 접근 가능한 높은 시공 간적 해상도를 갖춘 데이터 베이스(Feldmeyer et al., 2020), 사용자 기반 실시간 업데이트(Zhang et al., 2018), 데이터 다운로드 등의 기능에서 이점이 있기 때문이다. 방대한 데이터베이스를 이용하여 한국(Jeong et al., 2017) 뿐만 아니라 북한(Hong, 2024), 국가 간 비교(Bartzokas-Tsiompras, 2022) 등 다양한 영역의 도로 네트워 크와 기하구조에 대한 연구가 이루어지고 있다.

Ⅲ. 분석 자료

멀티모달 인공지능 모형 생성을 위해 본 연구는 정형 데이터와 이미지 데이터를 사용한다. 자료의 범위로 서 대한민국 전역을 공간적 범위로 설정하고, 2012년부터 2022년까지의 11년간 발생한 교통사고 데이터를 시간적 범위로 설정하였다. 연구 대상은 시간, 공간적 범위에서 발생한 교통사고 중 사망자가 발생한 사례로 한정한다. 이는 교통사고 발생 시 사망자가 있는 경우에 한해 사고사례 데이터를 공개하기 때문에 부상자만 발생한 사고사례를 제외하였다. 자료 범위 내의 TAAS 교통사고 데이터, GIS 데이터, 교통량 데이터, 지도 데 이터를 조합하여 모형에 투입될 데이터를 생성한다.

데이터셋의 기초는 교통사고분석시스템(Transport Accident Analysis System, 이하 TAAS)에서 제공되는 교 통사고 데이터이다. 교통사고 데이터에는 개별 사고사례별로 사고 자체의 속성(사고유형, 법규위반 등, 이하 사고 속성 데이터)과 사고가 발생한 위치정보(이하 좌표 데이터)가 경위도 형식으로 저장되어 있다. TAAS의 개별 사고사례는 데이터셋의 기준으로 사고정보 데이터, 이미지 데이터 등 다양한 데이터 모달리티가 사고 사례를 바탕으로 정렬된다.

정형 데이터는 TAAS 사고사례와 지리정보(이하 GIS) 데이터, 교통량 데이터를 결합하여 생성한다. TAAS 의 개별 사고사례의 위치정보를 기준으로 GIS 데이터가 추출되고, 교통량 데이터와 결합한다. GIS 데이터는 국가교통데이터베이스(Korea Transport DataBase, 이하 KTDB)에서 제공하는 데이터로, 각 도로 링크의 위치정 보와 속성을 포함하고 있다. GIS 데이터는 shp파일의 형태로 저장되어 있다. 교통량 데이터는 ViewT에서 제공 하는 연평균일통행량(AADT) 추정 데이터이다. 교통량 데이터는 GIS 데이터의 링크 ID별로 저장되어 있다.

이미지 데이터는 OSM 데이터를 바탕으로 전처리를 거쳐 생성된다. OSM은 오픈소스 지도 데이터베이스로 상용 지도에 비해 갱신이 느리지만, 도로 기하구조의 개별 요소 데이터가 공개되어 분석에 이용하기 쉽다.

데이터의 추출 및 전처리, 모형 투입의 흐름은 <Fig. 1>과 같다. 그림의 왼쪽은 교통사고 데이터, 교통량 데이터, GIS 데이터, 좌표 데이터, 지도 데이터의 5가지 원본 데이터가 사용되는 것을 표현한다. 각 원본 데 이터는 그림 중간의 교통사고 속성 데이터 추출, GIS 데이터 처리, 이미지 데이터 생성 등 3가지 전처리 과 정에 투입된다. 모형에 투입되는 정형 데이터는 사고 속성 데이터와 기하구조 정형 데이터의 결합으로 생성 된다. 생성된 정형 데이터는 그림 오른쪽의 정형 데이터 싱글모달 모형과 멀티모달 모형으로 투입된다. 이미 지 데이터 생성 과정에서 추출된 이미지 데이터는 이미지 데이터 싱글모달 모형과 멀티모달 모형으로 각각 투입된다.

<Fig. 1>

Data Extraction and Preprocessing

본 연구에서 인공지능 모형에 투입되는 요소는 총 20개이다. <Fig. 2>의 위쪽은 정형 싱글모달 모형에 투 입되는 요소를, 아래쪽은 멀티모달 모형에 투입되는 요소를 도식화하였다. 이때 1~16번으로 표시된 요소는 연구자의 코딩 없이 모형에 투입할 수 있는 요소로 <Table 3>과 같다. 이와 달리 <Table 4>에 나타낸 17~20 번 요소는 비정형 데이터로 정형 싱글모달 모형에 직접 투입할 수 없다. 따라서 비정형 데이터를 코딩하여 정형 데이터로 변환하여야 17~20번 요소를 정형 싱글모달 모형에 투입할 수 있다. 이를 위해 기존 연구에서 는 연구자가 비정형 데이터를 코딩하여 모형에 투입하였다.

<Fig. 2>

Unstructured Data Coding

<Table 3>

Statistic of Structured data

Category (Number)	Factors		Percentage	Category (Number)		Factors			Percentage
Level of Road (1)	National Expressways		7.5%	Violation of Law(5)		Crossing Median Line			8.5%
	Urban Highway		0.8%			Violation of Signal			7.7%
	National Highway		26.8%			Neglecting to Drive Safely			72.5%
	Metropolitan City road		21.6%			Tailgating			1.4%
	State-funded Local Highway		4.4%			Neglecting to Protecting Pedestrians			3.9%
	Local Highway		9.6%			Violation of Passing Intersection Laws			0.9%
	Si Road, Gun Road		27.9%			Speeding			2.0%
	Highway Lamp		1.4%	Day/Night (6)		Day			45.4%
Number of Crosswalks in the Link (2)	0		92.7%			Night			54.6%
	1		6.3%	Crash Type (7)		Car and Car			36.9%
	2		0.8%			Car and Pedestrian			42.8%
	3		0.1%			Single Vehicle			20.2%
	4		0.1%	Road Type (8)		Road			74.4%
Number of Lanes (3)	1		5.0%			Intersection			23.8%
	2		27.0%			Railroad Crossing			0.1%
	3		4.2%			Others			3.1%
	4		30.7%			N/A			1.7%
	5		3.4%	One-Way Traffic Link (9)		○			18.1%
	6		18.9%			×			81.9%
	7		2.0%	Bus-Only Lane in Link (10)		○			4.1%
	8		6.5%			×			95.9%
	9		0.3%	Part-Time Bus-Only Lane in Link (11)		○			4.3%
	10		2.0%			×			95.7%
Speed Limit (4)	Not Coded		10.1%	Motorway(12)		○			9.9%
	30		3.4%			×			90.1%
	40		4.4%	Median Type(13)		No Physical Facilities			67.0%
	50		5.8%			Wall			0.5%
	60		43.7%			Pole			4.1%
	70		9.2%			Flower Bed			7.2%
	80		15.6%			Metal			13.6%
	90		0.2%			Others			7.6%
	100		6.6%
	110		1.0%
Category (Number)		Minimum			Maximum		Average	Variance
AADT (Vehicle per day) (14)		566			126,052		16167.2	2.18E+08
Intersection Density of Link (No. per km) (15)		0			41.67		2.394187	13.79904
Link Length (km) (16)		0.01			13.01		0.55936	0.926562

<Table 4>

List of Unstructured Data

Category (Number)
Degree of Horizontal Curves (17)
Number of Horizontal Curves (18)
Radius of Curve(19)
Urban/Provincial Road (20)

본 연구에서 제시하는 멀티모달 모형은 비정형 데이터를 이미지 데이터의 형태로 인공지능 모형에 투입 하여 코딩 과정이 필요하지 않다. 다만, 정형 싱글모달 모형과의 동등한 조건에서 성능 비교를 위해 비정형 데이터에 대한 코딩을 진행하였다.

Ⅳ. 데이터 코딩

1. 정형 데이터

정형 데이터는 고정된 데이터 모형에 따라 구조화된 형태를 가진 데이터를 의미한다. 각 열에 특정한 유 형의 데이터를 나타내고, 각 행에 개별 항목 혹은 관측값을 나타내는 스프레드시트 형태의 데이터가 대표적 이다. 본 연구는 도로교통공단의 TAAS에서 제공하는 사고 속성 데이터와 KTDB에서 제공하는 GIS 데이터 에서 추출한 링크별 속성 데이터, ViewT에서 제공하는 추정 교통량 데이터를 정형 데이터로 이용한다.

1) 교통량 데이터 결합

교통량 데이터를 학습에 투입하기 위해 ViewT를 기반으로 링크별 추정 교통량 데이터를 추출하였다. ViewT의 데이터는 KTDB의 링크ID를 기반으로 제공되어, 경위도 형태로 제공되는 TAAS 교통사고 데이터와 연결이 필요하다. 이를 위해 QGIS를 이용하여 <Fig. 3>과 같이 각 사고사례 발생 좌표를 가장 인접한 링크와 연결하여 교통사고 데이터와 교통량 데이터를 결합하였다. <Fig. 3>에서 주황색 점은 사고사례 발생 좌표를, 노란색 선은 개별 도로 링크를, 파란색 화살표는 사고사례 발생 좌표에서 가장 가까운 링크로 연결된 것을 의미한다. 따라서 화살표 끝단 링크의 교통량 정보가 정형 데이터로 결합하였다.

<Fig. 3>

Combining of Traffic Crash Data and Traffic Data Example

KTDB의 GIS 데이터와 ViewT 추정 교통량 데이터 사이 서로 상이한 링크 ID 체계를 가지고 있어 이를 보 정하는 과정이 필요하다. 이를 위해 ViewT의 링크ID 데이터를 분해하여 KTDB에서 제공하는 ITS 표준 링크 ID로 변환 후 KTDB 데이터와 결합하였다.

2) 싱글모달 모형 성능 비교를 위한 데이터 코딩

정형 싱글모달 모형과 멀티모달 모형 간 동등한 조건에서 성능을 비교하기 위해서는 동일한 데이터셋이 각 모형에 투입되어야 한다. 이를 위해 기존 연구 방법과 유사하게(Kim et al., 2011) 비정형 데이터로 이루어 진 도로 기하구조의 코딩이 필요하다. 본 연구는 5,000개 사고사례를 임의로 추출한 뒤, 사고 발생지점의 지 도를 바탕으로 도로 기하구조 요소를 코딩하였다.

선행연구들에서 채택된 주요한 정형 데이터 요소는 ‘연평균일교통량’, ‘교통사고 발생 건수’, ‘수평/수직곡 선 정도’, ‘수평/수직곡선 개수’, ‘도시/지방부 여부’ 등이다. 이 중 ‘연평균일교통량’, ‘교통사고 발생 건수’는 원본 데이터가 정형으로 이루어져 있다. 이와 달리 ‘수평/수직곡선 정도’, ‘수평/수직곡선 개수’는 비정형 데 이터로 이루어져 있어 코딩이 필요할 것으로 판단하였다. 이 중 평면 지도 이미지에서 추출 가능한 ‘수평곡 선 정도’, ‘수평곡선 개수’ 요소를 코딩할 요소로 선택하고, ‘수평곡선 정도’와 관계가 깊은 ‘곡선반경’ 요소 를 추가하였다. ‘도시/지방부 여부’ 요소는 원본 데이터가 정형으로 이루어져 있지만 행정구역만을 기준으로 하여 실제 도로 기하구조와 차이가 있는 경우가 존재한다. 따라서 도로의 실질적인 속성을 판단하기 위해 코 딩을 진행하였다. 코딩에 대한 기준은 <Table 5>, 코딩 예시는 <Table 6>과 같다.

<Table 5>

Structured Data Coding Criteria

Note: ‘θ’ indicates degrees of horizontal curve and ‘r’ indicates radius of curve.

Data	Criteria	Code
Number of Horizontal Curves	-	Number of Horizontal Curves
Degree of Horizontal Curve	Straight Road	0
	0° ＜ θ ≤ 30°	1
	30° ＜ θ ≤ 45°	2
	45° ＜ θ	3
Radius of Curve	Straight Road	0
	0m ＜ r ≤ 100m	1
	100m ＜ r ≤ 300m	2
	300m ＜ r	3
Urban/Provincial Road	Provincial Road	0
Urban/Provincial Road	Urban Road	1

<Table 6>

Structured Data Coding Example

Note: Black dots marked on figures indicate the center of analyzed zone.

	Data	Code
	Number of Horizontal Curves	2
	Degree of Horizontal Curve	1
	Radius of Curve	2
	Urban/Provincial Road	0
	Data	Code
	Number of Horizontal Curves	0
	Degree of Horizontal Curve	0
	Radius of Curve	0
	Urban/Provincial Road	1

2. 이미지 데이터

비정형 데이터는 정형 데이터와 달리 구조화된 형태와 규칙이 없는 데이터를 의미한다. 이미지 데이터는 가장 대표적인 비정형 데이터이다. 비정형 데이터는 맥락을 고려하여 해석되어야 하므로 컴퓨터가 해석하기 비교적 어렵다. 하지만, 비정형 데이터는 정형으로 구분하기 어려운 대량의 정보를 담고 있다. 도로 기하구 조의 경우 정형 데이터로 구분하기 어려운 평면곡선, 종단경사 등 다양한 요소를 포함하고 있으므로 비정형 데이터를 통한 분석의 필요성이 대두된다.

이미지 데이터는 1절에서 추출된 사고발생 좌표 인근을 1km x 1km 격자로 분할한 뒤 해당 지점이 속한 격자를 영역으로 하여 OSM 지도 이미지 데이터를 추출 및 가공하였다. 사고 사례별 좌표와 연결되는 지도 이미지를 생성하여 공간적 상관성을 가지는 이미지 데이터를 구득하였다. 따라서 각 사고 사례가 발생한 좌 표를 기반으로 이미지와 정형 데이터를 결합하였다. OSM에서 추출된 이미지 데이터는 이미지 처리를 위한 모형인 EfficientNet에 투입하여 분석이 이루어졌다. 이미지는 사고 발생지점을 중심으로 하는 정사각형 형태 로 가공하였다. 연구에 사용된 모형의 특성상 이미지를 사각형의 행렬로 인식하기 때문에 학습 효율, 전처리 의 용이성을 위해 정사각형의 이미지를 모형에 투입하였다.

본 연구는 좌표 데이터를 바탕으로 지도 이미지를 추출하기 위해 OSM을 이용하였다. TAAS에서 제공된 교통사고 좌표 데이터를 OSMnX 패키지에 투입한 후, 반환된 지도 데이터를 SVG 포맷 벡터 이미지로 추출 하였다.

OSM API를 통해 추출된 이미지는 벡터 이미지로 추출된다. 하지만 인공신경망은 비트맵 이미지를 입력 받아 개별 픽셀을 바탕으로 신경망 학습이 이루어진다. 따라서 SVG 포맷의 벡터 이미지가 포함된 HTML 파 일을 신경망에 투입할 수 있는 JPG/PNG 포맷 비트맵 이미지로 변환한 후, 연산 효율을 높이기 위해 흑백조 로 변환하였다. 이미지 데이터의 처리 과정의 예시로 양재역 인근의 데이터를 바탕으로 한 도식을 <Fig. 4> 에 나타냈다.

<Fig. 4>

Image Data Process Flowchart

Ⅴ. 멀티모달 인공지능 구성

1. 개요

인공지능 모형은 한 가지 모달리티만을 이용한 기존 싱글모달 인공지능 모형과 달리 정형 데이터와 이미 지 데이터의 두 가지 데이터 모달리티를 함께 학습하도록 구성하였다. 따라서 본 연구에서 제시한 멀티모달 인공지능 모형은 정형 데이터와 이미지 데이터가 동시에 투입되므로 각 데이터 유형에 알맞은 신경망을 통 해 학습이 이루어진 뒤, 각 신경망을 결합하는 과정이 필요하다.

멀티모달 모형은 크게 3가지 버전으로 나누어 개발되었다. v1.0은 연구 초기 개발한 모형으로 Keras 딥러 닝 프레임워크를 사용하였다. v2.x 모형은 딥러닝 프레임워크를 PyTorch로 변경하고 정형 데이터 처리를 위 해 TabNet을, 이미지 데이터 처리를 위해 EfficientNet을 이용하였다. v3.x 모형은 정형 데이터 처리 모형을 맞 춤 인공신경망으로 직접 구축하고, 이미지 데이터 처리를 위해 EfficientNet을 이용한 모형이다. 각 모형의 구 성과 변경 사항은 <Table 7>에 나타내었으며, 버전별 정확도(전체 예측 중 정답을 맞힌 예측의 비율, Accuracy)의 변화는 <Fig. 5>와 같다. v1.0 모형은 초기 모형으로 데이터셋의 크기가 100개에 불과하여 <Fig. 4>에서 생략했다. 이러한 모형 탐색 및 구성을 통해 결정된 인공신경망 모형은 2절과 같다.

<Table 7>

Model Change History

Version	Accuracy	Changes
v1.0	0.658	Initial Model
v2.0	0.384	v2.x Initial Model
v2.1	0.394	Dataset Added (Total 1,000 Data) Merge image resizing process to preprocessing
v2.2	0.226	Loss Function change (RMSE -> CrossEntropy)
v3.0	0.552	v3.x Initial Model
v3.1	0.500	Dataset divide method change (Divide by Time -> Random Seed)
v3.2	0.505	Dataset Added (Total 2,000 Data) Change batches (16->120)
v3.3	0.545	Dataset Added (Total 5,000 Data)
v3.4	0.603	Neural Network layer modify Final Model

<Fig. 5>

Accuracy by Multimodal Model Version

2. 모형 구성

1) 개요

본 연구에서 사용된 멀티모달 인공지능 모형은 싱글모달 모형의 한계를 보완하기 위한 수단으로 사용되 었다. 특히 정형 데이터로는 도로의 기하학적 구조를 반영하기 어려운 한계를 이미지 정보로 보완하고자 하 였다. 모형은 정형 데이터와 이미지 데이터를 각각 입력받아 데이터 유형별로 특징 추출기를 거친 뒤, 신경 망 결합을 통해 최종 결과물을 도출한다. 신경망 결합으로 두 가지 모달리티를 함께 학습하고 예측할 수 있 는 멀티모달 모형을 생성하였다. 정형 데이터 처리는 LeakyReLU 함수와 Softmax 함수를 이용한 맞춤 인공신 경망을 구축하여 사용하였다. 이미지 데이터 처리는 연산자원 소모가 적은 EfficientNet-B0를 이용하였다. 멀 티모달 모형은 싱글모달 모형에 비해 연산자원 소모가 크기 때문에 효율적인 이미지 데이터 처리 모형이 필 요하다. EfficientNet은 연산 성능에 대비하여 연산자원 소모가 적어 이미지 데이터 처리 모형으로 적합하다 판단하고, 가장 가벼운 모형인 B0를 채택하였다. 데이터 유형별로 구축된 신경망을 통합하고 최종 예측 결과 도출 등 학습 전반을 관리하는 프레임워크로 PyTorch를 사용하였다.

멀티모달 인공지능 모형의 구성의 도식은 <Fig. 6>과 같다. 그림의 왼쪽에서 정형 데이터와 이미지 데이터 가 각각 정형 특성 추출기와 이미지 특성 추출기로 투입된다. 그림 중앙에서 입력층을 통해 특성 추출기로 투입된 데이터는 신경망을 통과하여 512개 뉴런을 가진 출력층으로 값을 출력한다. 각 특성 추출기에 대한 자세한 내용은 후술한다. 마지막으로 두 특성 추출기의 출력층이 신경망 결합 클래스의 입력층으로 작동하 여 두 신경망을 결합한다. 신경망 결합 클래스는 최종적으로 3개의 뉴런을 가진 출력층을 통해 사고유형을 분류한다.

<Fig. 6>

Multimodal Model Configuration

2) 정형 데이터 처리

정형 데이터에서 특징을 추출하는 클래스(이하 정형 특징 추출기)는 정형 데이터를 입력받아 신경망을 통 해 데이터의 특성을 밝히고, 이를 다음 단계 학습에 이용할 수 있도록 한다. 전처리 된 각 사고사례 데이터 는 (1, 16) 차원의 정형 데이터를 가진다. 즉, 1개 행과 16개 열을 가진 데이터를 의미한다. 따라서 정형 특징 추출기는 한 개의 사고사례 데이터마다 16개의 값을 입력받는다.

정형 특징 추출기는 총 16개의 입력 뉴런을 가진 입력층(input layer)과 각각 128개, 512개의 노드를 가지는 2개의 은닉층(hidden layer)을 거쳐 최종적으로 512개의 뉴런을 가진 출력층(output layer)으로 연결된다. 각 레 이어는 완전 연결 신경망(Fully-connected Neural Network)으로 연결되어 있으며, 레이어마다 정규화를 통해 출력값을 0-1 사이로 고정한다. 출력층의 뉴런 개수는 이미지 데이터에서 특징을 추출하는 클래스(이하 이미 지 특징 추출기)와 동일하게 설정하였다.

본 연구에서 사용한 신경망은 활성화 함수로 LeakyReLU를 사용한다. LeakyReLU 함수는 ReLU 함수와 유 사하지만, 음수 입력값에 대해서도 작은 기울기를 유지하도록 설계되었다. LeakyReLU는 음수 입력값에 대해 해당 값의 작은 배수(일반적으로 0.01)를 출력함으로써 활성함수의 기울기(gradient flow)가 유지되도록 한다. 이를 통해 특정 레이어에서 모든 값이 0으로 나타나 학습이 정지되는 녹아웃(knockout) 문제를 줄일 수 있다 는 장점이 있지만(Maas et al., 2013) 각 뉴런의 값 출력 시 곱연산이 추가로 필요하여 ReLU 함수에 비해 연 산 비용이 상대적으로 높다. 정형 데이터의 특성상 요구되는 연산량이 적으므로 LeakyReLU 함수를 적용해 도 연산 비용의 소모가 크게 증가하지 않을 것으로 판단하였다.

이를 종합하면, 정형 특징 추출기는 한 개의 사고사례 데이터마다 16개 값을 입력받아 512개 차원을 가진 텐서의 형태로 출력값을 얻는다. 다만, 정형 싱글모달 모형으로 작동 시에는 비정형 데이터가 코딩된 정형 데이터의 형태로 입력된다. 따라서 입력층의 뉴런이 20개로 증가하고, 한 개의 사고사례 데이터마다 20개 값 을 입력받아 연산하게 된다.

3) 이미지 데이터 처리

이미지 특징 추출기는 전처리 된 이미지를 입력받아 신경망을 거쳐 정형 데이터와 함께 학습할 수 있도록 사전학습 된 EfficientNet-B0를 이용하여 신경망을 구축하였다. 투입된 이미지 데이터는 일반적인 이미지 분 류에서 사용되는 이미지(일반 사진, CCTV, 위성사진 등)에 비해 객체 간 대비가 명확하므로 이미지 분류 모 형이 성능을 발휘하기 유리하다. 따라서 모형의 정확도 부족을 이미지의 특성으로 상쇄 가능하다고 판단하 여 분류 정확도가 비교적 낮지만 연산횟수를 줄일 수 있는 B0 모형을 채택하였다.

EfficientNet-B0를 통과한 이미지는 1,000개의 뉴런을 가진 레이어로 출력된다. 이는 정형 특징 추출기와 동 일하게 512개 뉴런을 가진 출력층으로 보내진다. 따라서 한 개의 이미지는 512개 차원을 가진 텐서의 형태로 출력값을 얻는다.

4) 신경망 결합

정형 특징 추출기와 이미지 특징 추출기를 통과해 나온 값은 신경망 결합 클래스에서 합쳐진다. 각 추출 기가 512개 뉴런의 출력층을 가지므로 신경망 결합 시 1,024개의 뉴런을 갖게 되고, 이것이 신경망 결합 클 래스의 입력층으로 작동한다.

본 모형은 한 개의 사고사례 데이터가 3개의 사고유형 중 한 가지로 분류되게 구성되어 있다. 따라서 신 경망 결합 클래스의 출력층은 3개 뉴런을 가진다. 3개의 뉴런은 각각 ‘차대차’, ‘차대사람’, ‘차량단독’의 사 고유형을 대표한다.

레이어 간 연결은 완전 연결 신경망으로 이루어져 있으며, 입력층과 출력층 사이 활성화 함수로 Softmax 함수를 이용하였다. Softmax 함수는 출력값이 정규화되며, 출력값의 총합은 항상 1이 되는 특성을 가진다. 이 런 특성으로 AI를 통한 분류 문제 해결에 적합한 것으로 판단하였다.

신경망 결합 클래스를 통과한 데이터는 출력층 3개 뉴런을 활성화한다. Softmax 함수의 특성에 따라 각 뉴런의 활성화 값은 해당 뉴런이 대표하는 사고유형의 확률을 백분율로 표현한 것과 같다. 예를 들어 어떤 입력 데이터가 신경망을 통과한 결과 ‘차대차’ 뉴런이 0.7의 활성화 값을 보인다면, 본 모형은 입력 데이터가 70% 확률로 ‘차대차’ 사고로 판단했다는 것을 의미한다. 따라서 가장 높은 활성화 값을 가진 사고유형을 예 측값으로 반환하도록 설정하였다.

Ⅵ. 결과 및 성능 비교

1. 평가지표

인공지능 모형들의 성능을 평가할 지표로 정확도와 F1 Score는 채택하였다. 정확도는 AI 모형의 예측 중 실제값을 정확히 맞힌 횟수를 전체 예측 횟수로 나눈 비율을 의미한다. 클래스별 비율이 비슷할 경우 정확도 는 비교적 간단하고 직관적으로 모형의 성능을 나타낸다(Kohavi, 1995). F1 Score는 클래스별 비율이 불균형 하여 정확도의 왜곡이 발생할 때 사용한다. F1 Score는 정밀도(Precision)와 재현율(recall)의 조화평균 값으로 정밀도와 재현율의 차이가 클 경우를 반영한다. 따라서 불균형 데이터셋의 성능평가에 적합한 것으로 알려 져 있다(Sebastiani, 2002).

2. 멀티모달 모형

멀티모달 인공지능 모형의 정확도는 0.603으로 나타났다. 사고유형별 정확도는 ‘차대사람’이 0.759로 가장 높고 ‘차량단독’이 0.550, ‘차대차’가 0.522로 나타났다. ‘차대사람’ 사고는 76%에 가까운 정확도로 다른 사고 유형에 비해 높은 정확도를 보였다. ‘차대차’ 유형은 전체 사고사례 중 가장 높은 비중을 차지함에도 불구하 고 정확도가 낮게 나타나 성능 개선이 필요한 영역으로 판단된다.

‘차대사람’ 유형의 경우 정밀도(0.765)가 재현율(0.553)에 비해 높게 나타났다. 이에 반해 ‘차대차’ 유형의 경우 정밀도(0.514)에 비해 재현율(0.813)이 높게 나타났다. 이는 인공지능 모형이 ‘차대사람’에 비해 ‘차대차’ 유형을 적극적으로 채택하는 것을 시사한다. 특히 ‘차대차’ 유형의 정확도가 낮으면서 재현율이 높게 나타난 점이 이를 뒷받침한다. 그럼에도 불구하고 두 유형의 F1 Score는 각각 0.642와 0.630으로 나타나 유사한 수준 을 보여 두 유형 모두 분류 성능을 유지하고 있음을 보인다. ‘차량단독’ 유형은 정밀도(0.558), 재현율(0.472), F1 Score(0.511)가 모두 상대적으로 낮게 나타났으며, 이는 전체 사고 사례 중 해당 유형의 비중이 20%로 적 어 다른 유형에 비해 학습 효과가 제한적이었기 때문으로 판단된다.

전체 유형의 가중 F1 Score는 0.604로, 세 가지 사고 유형의 실제 비중을 반영한 모형의 종합적인 분류 성 능을 나타낸다. 상대적으로 개별 F1 Score가 우수하고 비중이 큰 ‘차대사람’ 유형(0.642, 34%)과 ‘차대차’ 유 형(0.630, 45%)이 전체 성능을 견인하고 있는 반면, ‘차량단독’ 유형은 F1 Score와 비중 모두 낮아(0.511, 20%) 종합 성능에 미치는 영향은 제한적이었다. 멀티모달 모형의 성능과 관련된 내용은 <Table 8>에 정리하였다.

<Table 8>

Accuracy, Weight, Precision, Recall and F1 Score of Multimodal Model

Type	Accuracy	Weight	Precision	Recall	F1 Score
Car-Pedestrian	0.759	34%	0.765	0.553	0.642
Car-Car	0.522	45%	0.514	0.813	0.630
Caronly	0.550	20%	0.558	0.472	0.511
All	0.603		Weighted F1 Score		0.604

3. 싱글모달 모형

정형 데이터 싱글모달 모형 학습 결과 정확도는 0.468로 나타났다. F1 Score도 0.477로 나타나 멀티모달 모 형보다 낮은 값을 보였다. 데이터셋의 클래스 간 불균형이 크지 않음에도 F1 Score가 낮은 것은 정형 데이터 싱글모달 모형이 특정 클래스를 편향적으로 예측할 가능성이 높다는 것을 시사한다.

이미지 데이터의 싱글모달 성능을 확인하기 위해 분석 영역별로 학습을 진행하였다. 정확도를 기준으로 했을 때 분석 영역이 300m인 경우 0.504로 가장 높은 값을 보였고, F1 Score 기준으로는 분석 영역이 1,000m 일 때 0.442로 가장 높은 값을 보이는 것으로 나타났다. 이는 <Table 9>에 표시하였다.

<Table 9>

Accuracy and F1 Score of Single-modal Model (Image)

Range	Accuracy	F1 Score
100m	0.488	0.423
300m	0.504	0.437
500m	0.492	0.402
1000m	0.475	0.442
1500m	0.479	0.441

4. 모형 간 성능 비교

멀티모달 인공지능 모형의 정확도와 F1 Score가 정형 데이터 모형과 이미지 데이터 모형보다 좋은 성능을 보이는 것으로 나타났다. 이는 <Table 10>에 표시하였다. 정확도의 경우 멀티모달 인공지능 모형이 60.3%의 값을 보여 정형 데이터 모형의 46.8%와 이미지 데이터 모형의 47.5%보다 각각 13.5%p, 12.8%p 좋은 값을 보 였다. 또한 F1 Score의 경우 멀티모달 인공지능 모형은 0.604로 나타나 정형 데이터 모형의 0.477과 이미지 데이터 모형의 0.442보다 우수한 값을 보였다.

<Table 10>

Performance Comparison by Model

Model	Accuracy	F1 Score
Multimodal Model	0.603	0.604
Single-modal (Structured Data) Model	0.468	0.477
Single-modal (Image Data) Model (Image Analysis Area)	0.504 (300m)	0.442 (1000m)

일반적으로 F1 Score와 모형의 편향은 반비례 관계가 있다고 알려져 있다. 또한 신경망의 과적합이 발생 할 때 정확도는 상승하지만, F1 Score는 낮아지는 경향을 보인다. 따라서 멀티모달 인공지능 모형의 정확도 와 F1 Score 모두 싱글모달 모형보다 높게 나타난 것은 멀티모달 인공지능 모형의 정확도가 높은 동시에 적 은 편향을 보이는 것을 의미한다.

이와 더불어 정형 싱글모달 모형은 연구자에 의한 코딩이 이루어진 데 반해, 멀티모달 인공지능 모형은 미리 프로그래밍 된 코드를 통해 데이터 처리가 자동화되었다. 따라서 멀티모달 모형을 사용 시 적은 시간과 노력으로 상대적으로 좋은 성능을 보이는 것으로 나타났다.

Ⅶ. 결 론

본 연구는 정형 데이터와 이미지 데이터를 동시에 학습하는 멀티모달 인공지능 모형을 통해 기존 분석에 이용되던 정형 데이터와 더불어, 비정형 데이터인 지도 이미지를 활용하여 도로 기하구조의 세부적 요소까 지 고려한 교통사고 유형 분류 모형을 개발하였다.

모형 학습 결과 정형 데이터와 비정형 데이터를 동시에 사용한 멀티모달 인공지능 모형이 싱글모달 모형 보다 우수한 결과를 보였다. 멀티모달 모형의 정확도는 60.3%로 정형 싱글모달 모형의 46.8% 대비 13.5%p, 이미지 싱글모달 모형의 47.5% 대비 12.8%p 높았으며, F1 score는 0.604로 정형 싱글모달 모형의 0.477, 이미 지 싱글모달 모형의 0.442보다 높은 결과를 보였다.

본 연구는 다음과 같은 의의가 있다. 첫째, 비교적 설명력이 낮은 두 모달리티를 멀티모달로 학습하여 각 모달리티를 개별적으로 학습한 싱글모달 모형보다 높은 성능을 보였다는 점이다. 멀티모달 모형의 정확도는 임의로 교통사고 유형을 분류했을 때의 1.8배이며, 싱글모달 모형 대비 12%p 이상 높다. 멀티모달 모형과 인 공지능을 사용하지 않은 모형과의 비교는 컴퓨터를 통해 빠른 속도로 교통사고 유형을 판단하려는 목적을 고려할 때 연구의 범위에서 벗어날 것으로 판단하여 멀티모달 인공지능과 싱글모달 인공지능 간 비교를 중 점적으로 진행하였다. 둘째, 기존의 교통사고 유형분석은 제한된 정형 데이터와 전문가의 직관에 의존한 경 우가 많았으며, 좁은 범위의 구간에 대한 분석에 머무는 경우가 많다. 반면, 멀티모달 모형은 정형 데이터와 이미지 데이터를 통합하여 학습함으로써, 기존 분석방식의 한계였던 데이터의 시공간적 범위를 개선할 수 있는 가능성을 제시하였다. 또한, 연구자의 코딩이 필수적인 기존 모형에 대비하여, 멀티모달 모형은 분석 난이도가 낮으면서도 동시에 더 우수한 성능을 보인다는 점을 확인하였다. 마지막으로 멀티모달 인공지능에 관한 관심이 비교적 낮은 교통학 분야에 새로운 방법론을 적용했다는 점이다. 정보화 사회의 고도화로 교통 분야에서는 기존에 구득 가능하던 정형 데이터뿐 아니라 이미지, 소리 등 다양한 형태의 비정형 데이터가 생 성되고 있으며, 이를 효과적으로 처리하고 활용할 수 있는 모형의 개발이 필요하다. 이러한 사회적 요구를 고려할 때, 멀티모달 인공지능 모형은 핵심적인 임베딩 구조의 변경 없이 새로운 형태의 비정형 데이터를 유 연하게 수용할 수 있는 확장성을 가진다는 점에서 의의가 있다. 이를 통해 정형 데이터만을 투입한 기존 연 구와 더불어, 새로운 모달리티를 투입하여 기존보다 대량의 데이터와 사고사례에 관한 연구가 가능할 것으 로 기대된다.

다만, 연구의 한계로서 세 가지가 지적된다. 첫 번째는 모델에 투입되는 정형 데이터 요소의 부족이다. 교 통사고는 도로 기하구조뿐 아니라 운전자 특성, 차량 특성 등 다양한 요소가 복합적으로 작용하여 발생한다. 특히 차량단독 사고의 경우 운전자 특성이 사고 발생에 큰 영향을 미치지만, 본 연구에서 제시한 정형 데이 터 요소는 운전자 특성을 반영하지 않는다. 따라서 향후 정형 데이터에 운전자 특성과 같은 요소가 추가된다 면 모형의 정확도가 개선될 것으로 기대된다. 두 번째는 멀티모달 모델의 이론적 타당성에도 불구하고 성능 개선이 이에 미치지 못하는 점이다. 제안된 모형의 정확도는 60%로 나타나 멀티모달 인공지능을 교통 분야 에 적용한 선행연구의 정확도가 72%(Torii et al., 2022)에서 76%(Clemson University, 2023)로 나타난 것을 고 려했을 때, 멀티모달 인공지능의 탐색적 적용 측면의 이론적 타당성이 있는 것으로 보인다. 다만, 투입 변수 가 한정되어 모형의 성능개선에 제약을 가하고 있는 실정이다. 세 번째는 AI 모델의 결과 해석 문제이다. 인 간이 직관적 판단과 유사한 AI의 학습 방식 특성상 AI 모델은 Blackbox의 성질을 가진다. 이는 멀티모달 인 공지능 모델이 결과 판단을 위해 부여한 가중치가 어떤 과정을 통해 설정되었는지 알기 어렵게 만든다. 이러 한 한계의 개선을 위해 Attention Score 분석, Feature Extraction 고도화 등의 추가 연구를 통해 개선이 이루어 지길 기대한다. 또한, 본 모델로 도출한 교통사고 유형을 현실의 도로에 적용 및 개선하기 위해서는 교통전 문가의 해석과 함께 FGI 조사 등을 통해 모델의 강건함에 대한 분석이 필요할 것으로 보인다.

본 연구는 수치형 및 명목형 데이터에 의존하는 싱글모달 모형의 구조적 한계를 완화하기 위해 멀티모달 모형을 탐색적으로 적용하였다. 이를 위해 비정형 데이터를 포함한 다양한 유형의 데이터를 투입하여 변수 와 교통사고 유형 간 상관관계를 탐색하고, 분류할 수 있는 모형을 제시하였다. 또한 핵심적 구조의 변경 없 이 새로운 정형 데이터와 비정형 데이터를 투입할 수 있는 확장성을 가진다. 이러한 확장성을 바탕으로 향후 비정형 데이터를 기반으로 하는 서비스에 응용할 수 있다. 일례로, 드론/CCTV에서 생성되는 이미지와 사고 신고 정보/SNS의 텍스트 데이터를 연계하여 위험구간 혹은 사고발생을 실시간으로 판단하는 서비스(이미지- 텍스트), 블랙박스에 저장된 영상과 녹음된 소리(타이어 미끄러짐, 경적, 충돌음 등)를 결합하여 사고 당시 차량의 움직임을 추정하는 모델 개발(이미지-사운드)과 같은 사례에 적용 가능할 것으로 기대된다.

연구의 결과를 토대로 후속 연구로 세 가지를 제안한다. 첫째, 선행연구(Han, 2019)와 같이 기상 등 추가 변수를 모형에 적용. 둘째, Attention Score 분석과 Feature Extraction을 통한 구조의 고도화. 셋째, 비인공지능 모형과의 비교 및 전문가에 의한 평가이다. 향후 멀티모달 모형과 관련된 후속 연구가 이루어진다면 교통안 전뿐만 아니라 교통학 전반에 더욱 폭넓게 활용될 가능성이 높아질 것으로 기대된다.

ACKNOWLEDGEMENTS

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 RS-2023-00243873) 본 논문은 주저자의 석사학위논문을 수정·보완하여 작성하였습니다.

Figure

<Fig. 1>.