Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.25 No.1 pp.117-130
DOI : https://doi.org/10.12815/kits.2026.25.1.117

An Analysis of Autonomous Vehicle Crash Risk Prediction Models Using Structured and Unstructured Data Fusion

Hyun woo Jo^*, Ji ho Kim^**, Su Jeong Hong^***, Soo Beom Lee^****

^*Dept. of Transportation Eng., Univ. of Seoul
^**Co-author: Ph.D. Candidate, Department of Transportation Engineering, Seoul National University
^***Co-author: Research Professor, Department of Transportation Engineering, Seoul National University
^****Corresponding author: Professor, Department of Transportation Engineering, Seoul National University

^† Corresponding author : Soo Beom Lee, medota@uos.ac.kr

Received 26 January 2026 │ Revised 2 February 2026 │ Accepted 3 February 2026

Abstract

This study developed an analytical framework for predicting the crash risk using autonomousvehicle crash data by examining the roles of structured data and unstructured crash descriptions in explaining the crash risk. Structured data representing crash environments, roadway conditions, and vehicle states were first analyzed to identify the structural characteristics associated with the crash risk. In addition, unstructured crash descriptions were examined to capture contextual information describing crash scenarios and crash progression. Based on these analyses, the characteristics and limitations of each data type in explaining the crash risk were reviewed. A combined prediction framework integrating information derived from structured and unstructured data was then constructed, and the performance of the combined model was evaluated using regression-based metrics. These results showed that the combined model explains a substantial portion of the crash risk variability and provides more stable risk estimates than analyses relying on a single data type. These findings highlight the importance of integrating heterogeneous data sources for crash risk prediction and demonstrate the applicability of a structured–unstructured data fusion approach in autonomous vehicle crash analysis.

Key Words : Autonomous vehicle crashes , Crash risk prediction , Structured data , Unstructured data , Data fusion model

정형 및 비정형 데이터 결합을 활용한 자율주행차 사고 위험도 예측 모델 분석

조 현 우^*, 김 지 호^**, 홍 수 정^***, 이 수 범^****

^*주저자 : 서울시립대학교 교통공학과 석사
^**공저자 : 서울시립대학교 교통공학과 박사수료
^***공저자 : 서울시립대학교 교통공학과 연구교수
^****교신저자 : 서울시립대학교 교통공학과 교수

초록

본 연구는 자율주행차 사고 데이터를 활용하여 사고 위험 예측을 위한 분석 구조를 구성하 고, 정형 데이터와 비정형 사고 설명문이 사고 위험 설명에 기여하는 역할을 단계적으로 검토 하였다. 먼저 사고 발생 환경, 도로 및 차량 상태와 같은 정형 데이터를 기반으로 사고 위험과 관련된 구조적 특성을 분석하고, 사고 발생 과정이 서술된 비정형 사고 설명문을 통해 사고 상황의 맥락적 특성을 정리하였다. 이를 통해 각 데이터 유형이 사고 위험을 설명하는 데 제공 하는 정보의 성격과 한계를 비교하였다. 이후 정형·비정형 데이터에서 도출된 정보를 결합한 예측 구조를 구성하고, 회귀 기반 성능 지표를 활용하여 결합 모델의 사고 위험 예측 결과를 분석하였다. 분석 결과, 결합 모델은 사고 위험 분산의 상당 부분을 설명하며, 단일 데이터 기 반 분석에서 포착하기 어려운 사고 위험 특성을 보다 안정적으로 반영하는 경향을 보였다. 본 연구는 자율주행차 사고 위험 분석에서 정형·비정형 데이터의 역할을 구분하여 정리하고, 이 를 결합한 예측 구조의 적용 가능성을 제시하였다는 점에서 의의를 가진다.

키워드 : 자율주행차 사고 , 사고 위험 예측 , 정형 데이터 , 비정형 데이터 , 데이터 결합 모델

This article has been cited by 0 article in crossref

Cited-By

Funding:

UNIVERSITY OF SEOUL

Ⅰ. 서 론

자율주행차 기술의 발전과 함께 실제 도로 환경에서의 자율주행차 운행 사례가 증가함에 따라, 자율주행 차와 관련된 교통사고에 대한 분석과 안전성 평가의 중요성도 함께 증대되고 있다. 특히 자율주행차 사고는 기존의 일반 차량 사고와 달리, 주행 제어 방식, 운전자 개입 여부, 시스템 작동 상태 등 다양한 요인이 복합 적으로 작용한다는 점에서 사고 위험을 평가하고 해석하는 데 있어 새로운 접근이 요구된다.

그동안 교통사고 분석 연구에서는 사고 발생 환경, 도로 조건, 기상 상태, 차량 정보와 같은 정형 데이터 를 중심으로 사고 특성이나 사고 심각도를 분석하는 연구가 주로 수행되어 왔다(Koopman and Wagner, 2017;Boggs et al., 2020). 이러한 정형 데이터는 사고 발생 시점의 객관적인 조건을 체계적으로 정리할 수 있다는 장점을 가지며, 사고 위험과 관련된 구조적 특성을 파악하는 데 유용하게 활용되어 왔다. 그러나 정형 데이 터만으로는 사고 발생 과정에서 나타나는 주행 상황의 변화나 충돌 직전의 맥락적 정보를 충분히 반영하는 데 한계가 존재한다.

이에, 최근에는 사고 보고서에 포함된 사고 설명문과 같은 비정형 사고 설명문을 활용하여 사고 상황을 보다 세밀하게 분석하려는 시도가 이루어지고 있다(Omeiza et al., 2021;Arteaga and Park, 2025). 사고 설명문 에는 사고 발생 전후의 주행 상황, 주변 차량의 행태, 충돌 과정에 대한 서술적 정보가 포함되어 있어, 정형 데이터로는 포착하기 어려운 사고 맥락을 보완적으로 제공할 수 있다. 다만 비정형 사고 설명문은 서술 방식 과 정보의 상세 수준이 사고별로 상이하며, 분석 과정에서 정량적 비교가 어렵다는 점에서 단독 활용에는 제 약이 따른다.

이러한 배경에서 최근 연구들은 정형 데이터와 비정형 사고 설명문을 함께 고려하여 사고 위험을 보다 종합 적으로 분석하려는 방향으로 확장되고 있다(Majidi et al., 2025). 서로 다른 특성을 가진 데이터 유형을 결합할 경우, 사고 발생 조건에 대한 구조적 정보와 사고 발생 과정에 대한 맥락적 정보를 동시에 고려할 수 있다는 점에서 사고 위험 분석의 범위를 확장할 수 있다. 그러나 기존 연구에서는 데이터 결합의 필요성을 제시하는 수준에 머무르거나, 각 데이터 유형의 역할을 명확히 구분하여 검토하지 못한 경우도 다수 존재한다.

이에 본 연구는 자율주행차 사고 데이터를 활용하여 사고 위험 예측을 위한 분석 구조를 구성하고, 정형 데이터와 비정형 사고 설명문이 사고 위험 설명에 기여하는 역할을 단계적으로 검토하고자 한다. 우선 정형 데이터를 통해 사고 발생 조건과 환경에 대한 구조적 특성을 분석하고, 비정형 사고 설명문을 활용하여 사고 발생 과정과 상황적 맥락의 특성을 정리한다. 두 데이터 유형을 각각 단독으로 활용할 경우, 사고 위험을 설 명하는 데 있어 상이한 한계가 존재한다. 정형 데이터는 사고 발생 조건을 기준적으로 설명할 수 있으나 사 고 발생 과정의 맥락을 충분히 반영하기 어렵고, 비정형 사고 설명문은 사고의 진행 과정과 상황 정보를 포 함하고 있으나 사고 결과의 전반적인 수준을 안정적으로 설명하는 데에는 제약이 따른다.

본 연구에서는 이러한 단일 접근의 한계를 보완하기 위해 정형·비정형 데이터를 결합한 분석 프레임워크 를 제안한다. 결합 모델은 사고 발생 조건을 나타내는 정형 정보와 사고 발생 과정의 맥락을 담은 사고 설명 문을 함께 고려함으로써, 사고 결과 심각도를 보다 종합적인 관점에서 설명할 수 있도록 설계되었다. 이는 사고 위험도 분석을 단일 정보 유형에 기반하여 수행하는 방식에서 확장하여, 서로 다른 정보 특성을 통합적 으로 활용할 수 있는 분석 구조를 제시한다는 점에서 의의가 있다. 이후 두 데이터 유형에서 도출된 정보를 결합한 예측 구조를 구성하고, 결합 모델의 사고 위험도 예측 결과를 중심으로 분석을 수행함으로써 자율주 행차 사고 위험 분석에서 데이터 결합 접근의 적용 가능성을 검토하고자 한다.

Ⅱ. 선행연구

1. 정형 데이터 기반 자율주행차 사고 분석 연구

자율주행차 사고 분석에 관한 초기 연구들은 사고 발생 환경, 차량 상태, 충돌 유형 등과 같이 구조화된 정형 데이터를 중심으로 사고 특성과 위험 요인을 규명하는 데 초점을 두어 왔다. 이러한 연구들은 자율주행 차 사고 데이터를 체계적으로 정리하고, 사고 결과에 영향을 미치는 주요 요인을 식별하는 데 기초적인 분석 틀을 제공하였다. 미국 캘리포니아주 자율주행차 사고 보고서를 활용한 연구에서는 사고 유형, 충돌 특성, 사고 발생 원인 등을 정형 변수 기반으로 정리하고, 자율주행차 운행 과정에서 반복적으로 관찰되는 사고 패 턴을 제시하였다(Favarò et al., 2017).

이후 연구들은 통계적 분석 기법과 기계학습 기법을 활용하여 사고 발생 메커니즘이나 사고 위험을 보다 정량적으로 해석하려는 방향으로 확장되었다. 사고 발생 조건과 차량 상태 변수를 활용한 통계적 모형 분석 을 통해 자율주행차 사고의 구조적 특성을 해석하고, 사고 발생 과정에서의 주요 영향 요인을 규명하려는 시 도가 이루어졌다(Wang and Li, 2019). 또한 연결형·자율주행차 사고 데이터를 대상으로 사고 발생 위치, 기상 조건, 도로 환경 등 정형 변수를 활용하여 사고 특성과 발생 양상을 분석한 연구도 수행되었으며, 이를 통해 자율주행차 사고의 전반적인 발생 특성이 정리되었다(Xu et al., 2019).

이와 같은 정형 데이터 기반 연구들은 사고 위험에 영향을 미치는 주요 요인을 체계적으로 분석하고, 사 고 발생 조건과 사고 결과 간의 관계를 비교적 일관된 기준에서 설명하는 데 기여하였다. 특히 정형 데이터 는 사고 발생 환경과 차량 상태를 동일한 기준으로 비교할 수 있어, 사고 위험의 평균적인 경향을 파악하는 데 효과적인 자료로 활용되어 왔다. 이러한 특성으로 인해 정형 변수는 사고 분석 및 위험 예측 연구에서 기 본적인 입력 정보로 널리 사용되고 있다(Sinha et al., 2021;He et al., 2025).

그러나, 정형 데이터 중심의 접근은 사고 당시의 주행 상황 변화나 충돌 과정과 같은 맥락적 정보를 충분 히 반영하는 데에는 제약이 존재한다. 정형 변수만을 활용할 경우 사고 발생 조건의 전반적인 특성은 설명할 수 있으나, 개별 사고 사례에서 나타나는 복합적인 상황 차이나 사고 발생 맥락을 세밀하게 표현하는 데에는 한계가 드러난다. 이러한 점은 정형 데이터 기반 분석이 자율주행차 사고 위험의 기본적인 구조를 이해하는 데에는 유효하나, 사고 상황의 세부적인 특성을 설명하기 위해서는 추가적인 정보 유형의 활용이 필요함을 보여준다.

2. 비정형 데이터 기반 자율주행차 사고 분석 연구

최근 자율주행차 사고 분석에서는 사고 설명문과 같은 비정형 데이터를 활용하여 사고 특성을 분석하려 는 연구들이 점차 증가하고 있다. 사고 설명문은 사고 발생 당시의 주행 상황, 주변 차량의 행태, 충돌 과정 등 사고 발생의 맥락적 정보를 서술적으로 포함하고 있어, 사고 유형 분류나 사고 상황 해석에 효과적으로 활용될 수 있음이 다수 연구를 통해 제시되고 있다(Alambeigi et al., 2020). 이러한 특성으로 인해 비정형 데 이터는 정형 데이터로는 충분히 포착하기 어려운 사고 상황의 세부적인 맥락을 보완하는 정보로 활용되고 있다.

사고 설명문을 활용한 초기 연구들은 주로 텍스트 마이닝이나 통계적 분석 기법을 적용하여 사고 유형을 분류하거나 주요 키워드를 도출하는 데 초점을 두었다. 자율주행차 사고 설명문을 대상으로 텍스트 임베딩 기법을 적용하고, 이를 기반으로 사고 유형별 특성을 분석한 연구에서는 사고 설명문이 사고 상황을 구분하 는 데 유의미한 정보를 포함하고 있음을 확인하였다(Park et al., 2021). 이러한 연구들은 사고 설명문이 사고 발생 과정과 상황적 차이를 반영하는 자료로 활용될 수 있음을 보여주었다.

이후에는 자연어 처리 기법을 활용하여 사고 설명문을 보다 체계적으로 분석하려는 시도가 이루어졌다. 사고 설명문을 임베딩 벡터로 변환한 후 비지도 학습 기법을 적용하여 사고 패턴을 분석하거나, 설명문에 반 복적으로 등장하는 표현을 중심으로 사고 특성을 해석하는 연구들이 보고되었다(Li et al., 2024). 이러한 접 근은 비정형 데이터에 내재된 정보를 구조적으로 표현할 수 있다는 점에서 의미를 가지지만, 사고 위험 예측 과 직접적으로 연계한 연구는 아직 제한적인 수준에 머물러 있다.

비정형 데이터 기반 연구들은 사고 발생 과정과 상황적 맥락을 보다 풍부하게 해석할 수 있다는 장점을 가지는 반면, 단독으로 활용될 경우 사고 위험 예측의 일관성과 안정성 측면에서는 제약이 존재한다. 특히 사고 설명문의 서술 방식이나 정보의 상세 수준이 사고 사례별로 상이하다는 점은 예측 결과의 변동성을 증 가시키는 요인으로 작용할 수 있다. 이러한 특성으로 인해 비정형 데이터는 단독 활용보다는 다른 유형의 정 보와 함께 해석될 필요가 있는 자료로 인식되고 있다.

3. 시사점

선행연구 검토 결과, 자율주행차 사고 위험 예측 연구는 정형 데이터 기반 접근과 비정형 데이터 기반 접 근으로 구분되어 발전해 온 것으로 정리할 수 있다. 정형 데이터 기반 연구들은 사고 발생 환경, 차량 상태, 도로 및 교통 조건과 같은 구조화된 변수를 활용하여 사고 위험의 전반적인 경향을 파악하는 데 중점을 두 어 왔으며, 사고 조건과 위험 수준 간의 관계를 비교적 일관되게 설명하는 데 기여하였다. 반면 비정형 데이 터 기반 연구들은 사고 설명문에 포함된 서술적 정보를 활용하여 사고 발생 과정과 주행 상황의 맥락을 반 영하고자 하였으며, 기존 정형 변수로는 포착하기 어려운 사고 상황 정보를 보완하는 역할을 수행하였다(Lee and Park, 2024).

그러나 단일 데이터 유형에 기반한 기존 연구들은 각 접근 방식이 지니는 정보의 범위와 특성에 따라 설 명 가능한 영역이 제한되는 공통적인 한계를 지니고 있다. 정형 데이터 기반 모델은 사고 위험의 기본적인 수준과 평균적인 경향을 파악하는 데 유리하나, 개별 사고의 세부적인 상황 차이나 사고 발생 맥락을 충분히 반영하는 데에는 제약이 존재한다. 비정형 데이터 기반 연구 역시 사고 설명문을 활용한 분석 가능성을 제시 하였으나, 주로 사고 유형 분류나 패턴 도출과 같은 탐색적 분석에 초점을 두고 있어 사고 위험 예측 모델로 의 확장에는 한계가 나타난다(Das et al., 2020;Zhen and Yang, 2025). 특히 비지도 학습이나 텍스트 기반 군 집 분석 중심의 접근은 예측 결과의 정량적 검증 측면에서 제한적인 정보를 제공한다.

이러한 선행연구의 흐름을 종합하면, 정형 데이터와 비정형 데이터는 사고 위험 예측 과정에서 서로 다른 역할을 수행하며, 각각의 한계를 상호 보완할 수 있는 특성을 지니고 있음을 확인할 수 있다. 그럼에도 불구 하고 기존 연구에서는 단일 데이터 기반 모델의 예측 특성을 명확히 구분하여 정리한 뒤, 이들 모델의 예측 결과를 통합하여 사고 위험 예측 성능을 검토하는 접근은 상대적으로 제한적으로 다루어져 왔다. 이에 본 연 구는 정형 데이터 기반 모델과 비정형 데이터 기반 모델의 예측 역할을 정리하고, 두 모델의 예측 결과를 통 합한 결합 모델을 구성하여 사고 위험 예측 성능을 검토함으로써, 자율주행차 사고 위험 예측을 위한 데이터 결합 접근의 활용 가능성을 제시하고자 한다.

Ⅲ. 방법론

1. 데이터 구성 및 전처리

분석에 활용된 데이터는 2019년 1월부터 2025년 2월까지 캘리포니아 전역의 자율주행차 사고 보고서로부 터 수집된 정형 데이터와 비정형 사고 설명문으로 구성된다. <Table 1>과 같이 정형 데이터에는 사고 발생 시점의 환경 조건, 차량 상태, 도로 및 교통 특성을 나타내는 변수들이 포함되어 있으며, 사고 결과와 직접적 으로 연관된 정보가 구조화된 형태로 제공된다. 비정형 사고 설명문은 사고 당시의 주행 상황, 주변 차량의 행동, 충돌 과정 등이 서술된 사고 설명문으로 구성된다.

<Table 1>

Structured & Unstructured data Composition

Section		Structured Contents
1	Manufacturer’s Information	Manufacturer’s name / Business name
2	Accident Information (Vehicle 1)	Date of accident / Time of accident / Vehicle year / Make / Model / Vehicle was (Moving / Stopped in traffic) / Involved in the accident (Pedestrian / Bicyclist) / Describe vehicle damage/ Shade in damaged area
3	Other Party’s Information (Vehicle 2)	Vehicle year / Model/ Vehicle was (Moving / Stopped in traffic) Involved in the accident (Pedestrian / Bicyclist)
4	Injury /Death, Property Damage	Injured / Deceased / Driver / Passenger / Bicyclist / Property
5	Accident Details - Description	Additional information attached : Weather / Lighting / Roadway surface / Roadway conditions / Movement preceding collision / Type of collision / Other associated factor(s)
6	Certification	Program director / Authorized representative / printed name and title / Signature / Date signed
Section		Unstructured Contents
1	Accident Details - Description	Autonomous Mode / Conventional Mode / Description

데이터 전처리는 <Fig. 1>과 같이 분석 결과의 신뢰성을 확보하기 위해 단계적으로 수행되었다. 먼저 중복 된 사고 기록은 동일 사고의 반복 학습을 방지하기 위해 제거하였다. 다음으로 정형 변수의 결측값은 변수의 특성을 고려하여 처리하였으며, 분석에 적합하지 않은 범주는 재분류하거나 제외하였다. 이후 범주형 변수는 모델 학습이 가능하도록 범주형 형태로 정리한 후 One-Hot Encoding을 적용하여 수치형 변수로 변환하였다. 이러한 전처리 과정을 통해 정형 데이터는 모델 입력에 적합한 형태로 구성되었다. 비정형 사고 설명문은 불 필요한 기호나 형식적 표현을 정리한 후 문장 단위로 정제하였다. 정제된 설명문은 Sentence-BERT 기반 임 베딩 기법을 적용하여 고정 길이의 벡터로 변환하였으며, 이를 비정형 데이터 기반 모델의 입력값으로 활용 하였다. Sentence-BERT는 사전 학습된 BERT 구조를 기반으로, 문장 단위의 의미 정보를 반영한 임베딩 벡터 를 생성하는 기법이다. 이를 통해 길이가 상이한 사고 설명문을 동일한 차원의 수치 벡터로 표현할 수 있으 며, 문장 간 의미적 유사성과 맥락 정보를 정량적으로 반영할 수 있다. 본 연구에서는 이러한 임베딩 벡터를 활용하여 사고 설명문에 포함된 주행 상황과 사고 맥락 정보를 예측 과정에 반영하였다(Reimers and Gurevych, 2019).

<Fig. 1>

Data Preprocessing

2. 사고 위험 예측 모델 구성

사고 위험 예측을 위해 본 연구에서는 정형 데이터와 비정형 사고 설명문을 각각 독립적으로 분석한 후, 두 분석 결과를 결합하는 구조를 적용하였다. 전체 분석 구조는 <Table 2>에 제시된 바와 같이 정형 데이터 기반 분석, 비정형 사고 설명문 기반 분석, 그리고 두 분석 결과를 통합하는 정형·비정형 데이터 결합 단계 로 구성된다.

<Table 2>

Model Configuration for Comparative analysis

1. Analysis stage	→	2. Input Data	→	3. Feature representation	→	4. Learning approach
Structured-only		structured variables		one-hot encoding		regression based analysis
Unstructured-only		crash descriptions		sentence embedding		regression based analysis
Combined model		predictions from each analysis stage		late fusion		fusion regressor

정형 데이터 기반 분석에서는 사고 발생 환경, 도로 조건, 차량 상태 등 구조화된 변수를 입력 자료로 활 용하였다. 해당 분석은 사고 위험과 관련된 기본적인 구조적 특성을 파악하는 데 목적을 두었으며, 정형 데 이터가 사고 위험 설명에서 제공하는 기준적인 정보의 성격을 정리하기 위한 단계로 활용되었다. 전처리된 정형 데이터는 범주형 변수에 대한 원-핫 인코딩을 통해 분석 입력 형태로 변환되었다.

비정형 사고 설명문 기반 분석에서는 사고 발생 전후의 주행 상황과 충돌 과정이 서술된 사고 설명문을 입력 자료로 활용하였다. 사고 설명문은 문장 임베딩 기법을 적용하여 의미 기반의 벡터로 변환되었으며, 이 를 통해 사고 발생 맥락과 상황적 특성이 분석에 반영되도록 구성하였다. 해당 분석 단계는 정형 데이터만으 로는 충분히 설명하기 어려운 사고 상황의 특성을 보완적으로 검토하는 데 목적을 두었다.

이후 정형 데이터 기반 분석과 비정형 사고 설명문 기반 분석에서 도출된 예측 결과를 통합하여 정형·비 정형 데이터 결합 모델을 구성하였다. 결합 단계에서는 각 분석 단계에서 산출된 예측 결과를 입력값으로 활 용하여 사고 위험을 예측하도록 설계하였다. 이러한 결합 구조는 서로 다른 정보 특성을 가진 데이터가 사고 위험 설명 과정에서 상호 보완적으로 작용할 수 있도록 구성되었으며, 단일 데이터 기반 분석과 비교하여 사 고 위험 예측의 안정성과 설명 범위를 확장하는 데 목적을 두었다.

3. 사고 위험 기준 설정

본 연구에서는 사고 위험을 사고 발생 시 관측된 사고 결과의 심각도를 반영하는 개념으로 정의하였다. 사고 결과의 심각도는 사고가 초래한 결과에 초점을 두어 사고 위험을 설명하기 위한 기준으로 활용하였으 며, 사고 발생 이전의 위험 요인보다는 사고 발생 이후 확인되는 결과 특성을 중심으로 설정하였다.

사고 결과의 심각도는 사고 기록에 포함된 부상 발생 여부와 차량 손상 수준 정보를 기반으로 구성하였 다. 부상 발생 여부는 사고로 인한 인적 피해를 반영하는 지표로 활용하였으며, 차량 손상 수준은 사고로 인 한 물적 피해의 정도를 나타내는 지표로 활용하였다. 본 연구에서는 두 정보를 단일 기준으로 분리하여 해석 하지 않고, 사고 결과를 보다 종합적으로 반영하기 위해 함께 고려하였다.

<Table 3>은 부상 발생 여부와 차량 손상 수준을 결합하여 정의한 사고 결과 심각도 기준을 제시한다. 사 고 결과 심각도는 총 7단계(level 0–6)로 구성되며, 인적 피해가 없는 사고부터 중대 손상이 발생한 사고까 지의 결과를 단계적으로 구분하였다. 이러한 기준 설정을 통해 사고 사례 간 결과 특성의 차이를 구조적으로 비교할 수 있도록 하였다.

<Table 3>

Conceptual definition of crash outcome severity based on injury and vehicle damage

Crash outcome severity level	Injury occurrence	Vehicle damage level
level 0	No injury	None
level 1	No injury	Minor
level 2	No injury	Moderate
level 3	No injury + Major / Injured + None
level 4	Injured	Minor
level 5	Injured	Moderate
level 6	Injured	Major

4. 모델 학습 및 평가

본 연구에서는 사고 위험 예측을 수행하는 정형·비정형 데이터 결합 구조의 성능을 평가하기 위해 전체 데이터를 학습 데이터, 검증 데이터, 평가 데이터로 구분하였다. 이러한 데이터 분할은 결합 구조의 예측 결 과를 객관적인 기준에서 검토하기 위한 절차로 적용되었으며, 이후 제시되는 회귀 기반 성능 평가의 기준으 로 활용되었다.

결합 구조의 예측 성능 평가는 회귀 기반 성능 지표를 활용하여 수행하였다. 본 연구에서는 평균 절대 오 차(MAE), 평균 제곱근 오차(RMSE), 결정계수(R²)를 지표로 사용하여 예측값과 실제 사고 결과 간의 오차 수 준과 설명력을 함께 평가하였으며 수식은 <Table 4>와 같다.

<Table 4>

Validation Metrics

Metric	Formula
MAE (Mean Absolute Error)	$M A E = \frac{1}{n} \sum_{i = 1}^{n} \| y_{i} - \hat{y_{i}} \|$
RMSE (Root Mean Squared Error)	$RMSE = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}}$
R²	$R^{2} = 1 - \frac{S S E}{S S T} = 1 - \frac{\sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}}{\sum_{i = 1}^{n} {(y_{i} - \bar{y_{i}})}^{2}}$
Where, y_i = the observed value for the ith sample $\hat{y}$ = the predicted value for the ith sample y = the mean of the observed values

정형 데이터 기반 분석과 비정형 사고 설명문 기반 분석은 결합 구조를 구성하기 이전 단계로서, 각 데이 터 유형에서 도출되는 정보가 사고 결과 심각도를 설명하는 데 어떠한 성격을 가지는지를 정리하기 위한 과 정에 해당한다. 이 단계에서는 예측 성능을 산출하는 것을 목적으로 하지 않으며, 결합 구조에 입력되는 정 보의 범위를 통일하기 위해 학습 데이터 범위 내에서 분석을 수행하였다.

이와 같이 정리된 분석 결과는 이후 결합 구조에서 활용될 입력 정보의 기초 자료로 사용되었다. 즉, 정형 데이터와 비정형 사고 설명문에서 각각 도출된 정보는 결합 구조 학습 이전에 사고 위험 설명에 기여하는 방향성과 범위를 정리하는 데 활용되었으며, 이를 통해 결합 단계에서의 해석 일관성을 확보하였다.

정형·비정형 데이터 결합 구조의 학습 과정에서는 검증 데이터를 활용하여 학습 진행 상황을 점검하였다. 이를 통해 학습 데이터에 대한 과도한 적합이 발생하지 않도록 관리하였으며, 예측 결과가 특정 사고 결과 수준에 편중되지 않도록 조정하였다. 결합 구조의 예측 성능 평가는 평가 데이터를 활용하여 회귀 기반 성능 지표를 중심으로 수행하였다.

이와 같은 학습 및 평가 절차를 통해 본 연구는 정형 데이터와 비정형 사고 설명문에서 도출된 정보가 결 합 구조 내에서 사고 결과 심각도를 설명하는 데 어떠한 방식으로 활용되는지를 검토하였다.

Ⅳ. 분석결과

1. 정형 데이터 기반 사고 위험 설명 특성

정형 데이터 기반 분석에서는 사고 기록에 포함된 구조화된 변수들을 활용하여 사고 위험 설명 특성을 검 토하였다. 본 연구에서 사용한 정형 변수들은 사고 발생 시 관측된 객관적 조건을 정량적으로 표현한 정보로 구성되어 있으며, 사고 결과 심각도를 설명하기 위한 기초 자료로 활용되었다.

<Table 5>는 정형 변수에 대한 기술통계 분석 결과를 제시한 것으로, 각 변수의 대표적인 분포 특성과 결 측 비율을 함께 확인할 수 있다. 분석 결과, 사고 당시의 외생적 조건을 반영하는 변수들이 상대적으로 높은 관측 빈도를 보였으며, 이러한 변수들은 사고 사례 전반의 공통적인 특성을 파악하는 데 활용되었다. 특히 사고 기록상 표준화된 항목들은 사고 결과 심각도를 설명하는 과정에서 기본적인 정보로 작용하였다.

<Table 5>

Descriptive statistics of structured data

Category	Number of Unique Values	Most Frequent Value	Frequency	Frequency Rate (%)	Missing	Missing Rate (%)
Location	5	Intersection	215	57.95	0	0.00
Vehicle was (VEH1)	3	Stopped in Traffic	197	53.10	0	0.00
Describe Vehicle Damage (VEH1)	4	MINOR	274	73.85	0	0.00
Vehicle was (VEH2)	3	Moving	324	87.33	30	8.09
Mode (VEH 1)	1	Autonomous Mode	371	100.00	0	0.00
WEATHER	6	CLEAR	313	84.37	0	0.00
LIGHTING	5	DAYLIGHT	220	59.30	0	0.00
ROADWAY SURFACE	2	DRY	330	88.95	17	4.58
ROADWAY CONDITIONS	8	NO UNUSUAL CONDITIONS	339	91.37	16	4.31
MOVEMENT PRECEDING COLLISION (VEH 1)	18	STOPPED	188	50.67	0	0.00
MOVEMENT PRECEDING COLLISION (VEH 2)	33	PROCEEDING STRAIGHT	16	44.47	30	8.09
TYPE OF COLLISION (VEH 1)	8	REAR END	65	17.52	199	53.64
TYPE OF COLLISION (VEH 2)	9	REAR END	153	41.24	46	12.40
OTHER ASSOCIATED FACTOR	11	NONE APPARENT	12	3.23	327	88.14
INJURY/DEATH, PROPERTY DAMAGE	3	No Injury	315	84.91	0	0.00

한편, 일부 변수의 경우 결측 비율이 상대적으로 높게 나타났으며, 이는 사고 기록 과정에서 특정 정보가 사고 유형이나 상황에 따라 선택적으로 수집되었음을 반영한다. 이러한 특성은 정형 데이터가 사고 발생 조 건의 전반적인 경향을 파악하는 데에는 적합하나, 모든 사고 사례의 세부적인 상황을 동일한 수준으로 설명 하기에는 한계가 있음을 보여준다. 특히 사고 발생 과정의 미세한 차이나 상황적 요인은 정형 변수만으로는 충분히 표현되기 어려운 것으로 나타났다.

이와 같은 정형 데이터의 분포 특성과 구조적 특성은 사고 위험 설명 과정에서 정형 데이터가 수행하는 역할을 명확히 드러낸다. 즉, 정형 데이터는 사고 사례 간 비교가 가능한 공통된 조건 정보를 제공함으로써 사고 결과 심각도를 설명하는 기본적인 틀을 형성한다는 점에서 의미를 갖는다.

2. 비정형 데이터 기반 사고 위험 설명 특성

비정형 데이터 기반 분석에서는 사고 당시의 상황이 서술된 사고 설명문을 활용하여 사고 위험을 설명하 는 특성을 검토하였다. 사고 설명문은 사고 발생 과정, 주변 환경, 주행 상태 변화 등 정형 변수로는 충분히 포착하기 어려운 정보를 포함하고 있으며, 사고 위험 판단의 맥락적 배경을 제공하는 역할을 수행한다.

<Table 6>은 사고 설명문의 문장 길이 특성과 주요 단어 분포를 요약한 결과를 제시한다. 분석 결과, 사고 설명문은 평균적으로 일정 수준 이상의 문장 길이를 가지며, 사고 발생 전후의 상황을 비교적 상세하게 서술 하는 경향을 보였다. 문장 길이의 분산이 존재한다는 점은 사고 사례별로 서술의 상세 수준에 차이가 있음을 의미하며, 이는 사고 설명문이 개별 사고의 특수한 맥락을 반영하는 정보임을 보여준다.

<Table 6>

Descriptive statistics of unstructured data

Measure	Values
Average sentence length	Approximately 110 words
Maximum sentence length	263 words
Minimum sentence length	33 words
Standard deviation of sentence length	± 36.7 words

Word Cloud 분석 결과에서는 <Fig. 2>와 같이 ‘autonomous’, ‘mode’, ‘contact’, ‘collision’, ‘street’와 같은 단 어들이 반복적으로 등장하는 것으로 나타났다. 이러한 단어들은 사고 발생 시 자율주행 모드의 작동 상태, 접촉 또는 충돌 상황, 사고가 발생한 도로 환경과 관련된 내용을 중심으로 설명문이 구성되어 있음을 나타낸 다. 즉, 사고 설명문은 사고의 결과보다는 사고가 발생하게 된 과정과 상황을 서술하는 데 초점을 두고 있으 며, 사고 위험을 이해하는 데 필요한 맥락 정보를 포함하고있다.

<Fig. 2>

Word cloud of unstructured data

이와 같은 비정형 데이터의 특성은 사고 위험 설명 과정에서 개별 사고 사례 간 차이를 보다 구체적으로 드러내는 데 기여한다. 정형 데이터가 사고 발생 조건의 평균적인 특성을 설명하는 역할을 수행한다면, 사고 설명문은 사고 발생 과정의 흐름과 상황적 요소를 보완적으로 제공한다.

다만, 사고 설명문의 서술 방식과 정보량은 사고별로 상이하게 나타났다. 이는 데이터 특성상 참여 업체별 로 사고 설명문을 구성하는 방식이 서로 다르기 때문인 점도 영향을 미친 것으로 판단된다. 그럼에도 불구하 고 사고와 직접적으로 관련된 설명문을 중심으로 살펴볼 경우, 사고 발생 과정과 상황적 맥락을 서술하는 정 보의 구성 방식에는 사고 사례별 차이가 관찰되었다. 이러한 점을 고려할 때 비정형 데이터는 단독으로 활용 되기보다는 정형 데이터와 함께 해석될 필요가 있는 정보 유형으로 정리할 수 있다.

3. 정형·비정형 데이터 결합 모델의 사고 위험 예측 결과

정형·비정형 데이터 결합 모델은 정형 데이터 기반 분석과 비정형 사고 설명문 기반 분석에서 도출된 설 명 요소를 통합하여 사고 위험도를 산정하도록 구성되었다. 앞선 분석에서 확인한 바와 같이, 정형 데이터는 사고 발생 환경과 조건에 대한 기준적인 정보를 제공하고, 비정형 데이터는 사고 발생 과정과 상황적 맥락을 보완적으로 설명하는 역할을 수행한다. 결합 모델은 이러한 서로 다른 정보 특성을 하나의 분석 구조로 통합 하는 데 목적을 두었다.

본 연구에서 정형·비정형 데이터 결합 모델의 최종 출력값은 <Table 3>에서 정의한 사고 결과 심각도이다. 해당 심각도 수준은 사고 발생 시 관측된 부상 발생 여부와 차량 손상 수준을 기반으로 구성된 지표로, 사고 의 상대적인 위험도를 설명하기 위한 기준으로 설정되었다.

결합 모델의 회귀 예측 성능은 평균절대오차(MAE), 제곱근 평균 제곱 오차(RMSE), 결정 계수(R²) 지표를 활용하여 평가하였다.

<Table 7>은 지표 분석 결과로써, MAE는 0.4548로 나타나 예측값과 실제 사고 위험 점수 간의 평균적인 차이가 비교적 제한적인 수준임을 확인하였다. 이는 결합 모델이 사고 위험 수준을 과도하게 확대하거나 축 소하지 않고, 전반적인 분포를 안정적으로 반영하고 있음을 의미한다.

<Table 7>

Regression performance of the structured-unstructured combined model

Metric	Value
MAE (Mean Absolute Error)	0.4548
RMSE (Root Mean Squared Error)	0.6485
R²	0.8849

또한, RMSE는 0.6485로 나타났으며, 이는 일부 오차가 상대적으로 큰 사례를 포함하고 있음에도 불구하 고 전체 예측 결과가 특정 범위 내에서 유지되고 있음을 보여준다. RMSE가 MAE보다 다소 크게 나타난 점 은 사고 사례별 위험 수준 차이가 존재함을 반영하는 결과로 해석할 수 있으며, 결합 모델이 다양한 사고 조 건을 포함한 데이터를 대상으로 예측을 수행하고 있음을 나타낸다.

설명력 지표인 결정계수인 R²는 0.8849로 나타나, 전체 사고 위험 점수 분산의 약 88% 이상을 모델이 설 명하고 있음을 확인하였다. 이는 정형 데이터가 제공하는 구조적 정보와 비정형 데이터가 포함하는 맥락적 정보가 결합되면서, 사고 위험을 설명하는 데 필요한 정보 범위가 확장된 결과로 볼 수 있다. 특히 단일 정 보 유형만으로는 포착하기 어려운 사고 사례에서도 결합 모델은 비교적 일관된 예측 결과를 유지하는 특성 을 보였다.

즉, 사고 발생 환경과 사고 발생 과정이라는 서로 다른 정보 축을 함께 고려함으로써, 사고 위험을 보다 종합적으로 해석할 수 있는 예측 구조가 구축되었다고 정리할 수 있다.

결합 모델의 예측 결과를 사고 사례 수준에서 검토한 결과, <Table 8>과 같이 사고 위험 예측값이 상대적 으로 높게 나타난 사례들은 주로 시야 확보가 제한된 공간에서의 돌발 진입이나, 야간 주행 환경과 같이 시 계 조건이 불리한 상황과 연관되어 나타났다. 사고 설명문에는 주택가 진입, 골목에서의 차량 출현, 조명 부 족 및 시야 제한과 관련된 표현이 반복적으로 포함되어 있어, 사고 발생 이전의 공간적·환경적 제약이 사고 결과 심각도와 함께 반영되고 있음을 확인할 수 있었다. 이러한 결과는 결합 모델이 정형 정보와 사고 설명 문을 함께 고려함으로써, 사고 위험 예측값이 높게 나타나는 주요 사고 상황을 보다 명확하게 드러내는 데 기여함을 보여준다.

<Table 8>

Representative high-risk situations identified from the combined analysis

Situation	Structured + Unstructured conditions	Primary crash cause
Collision during left turn at an intersection	‘intersection’ + ‘broadside’ + ‘left turn’ + ‘stop-and-go traffic’ + ‘encroached’	Collision with a vehicle that failed to stop from the side
Collision due to sudden entry from a residential driveway	‘location street’ + ‘vehicle pulled out’ + ‘driveway’	Sudden vehicle entry from a driveway with limited sight distance
Nighttime driving with limited visibility	‘lighting dark’ + ‘no street lights’ + ‘blocked view’ + ‘cloudy’	Poor visibility under dark roadway conditions

Ⅴ. 결 론

본 연구는 자율주행차 사고 데이터를 활용하여 사고 위험 예측을 위한 분석 구조를 구성하고, 정형 데이 터와 비정형 데이터가 사고 위험 설명에 기여하는 역할을 단계적으로 검토하였다. 특히 사고 발생 환경과 조 건을 나타내는 정형 변수와 사고 발생 과정이 서술된 비정형 사고 설명문을 각각 분석한 후, 두 정보 유형을 결합한 예측 구조를 통해 사고 위험을 보다 종합적으로 설명하고자 하였다.

분석 결과, 정형 데이터는 사고 발생 시점의 도로 환경, 기상 조건, 차량 상태와 같은 객관적인 정보를 제 공함으로써 사고 위험 판단의 기준적인 역할을 수행하였다. 이러한 데이터는 사고 발생 조건의 전반적인 경 향을 구조적으로 파악하는 데 유용하였으나, 개별 사고 사례의 세부적인 상황이나 사고 발생 과정의 차이를 충분히 반영하는 데에는 한계가 존재하였다. 반면 비정형 사고 설명문은 사고 발생 전후의 상황, 주행 상태 변화, 충돌 과정과 같은 맥락적 정보를 포함하고 있어, 사고 위험을 해석하는 데 필요한 추가적인 설명 정보 를 제공하였다. 다만 사고 설명문의 서술 방식과 정보량이 사고별로 상이하다는 점에서, 단독 활용 시 예측 결과의 일관성에는 제약이 있었다.

정형·비정형 데이터를 결합한 분석 결과에서는 두 데이터 유형의 특성이 상호 보완적으로 작용하는 경향 이 확인되었다. 결합 모델은 회귀 기반 성능 지표를 기준으로 사고 위험 점수를 비교적 안정적으로 예측하였 으며, 사고 위험 분산의 상당 부분을 설명하는 결과를 보였다. 이는 사고 발생 환경에 대한 구조적 정보와 사고 발생 과정에 대한 맥락적 정보가 함께 고려되면서, 사고 위험을 설명하는 정보 범위가 확장되었기 때문 이다. 이러한 분석 결과는 단일 데이터 유형에 기반한 접근보다, 서로 다른 특성을 가진 정보를 결합하는 방 식이 사고 위험 예측에 보다 적합한 분석 구조가 될 수 있음을 보여준다.

본 연구의 의의는 자율주행차 사고 위험 예측 과정에서 정형·비정형 데이터의 역할을 구분하여 검토하고, 이를 결합한 예측 구조를 통해 사고 위험을 설명하는 하나의 분석 틀을 제시하였다는 점에 있다. 특히 사고 설명문과 같은 비정형 데이터를 사고 위험 예측 과정에 실질적으로 포함함으로써, 기존의 정형 데이터 중심 분석에서 다루기 어려웠던 사고 발생 맥락을 보완적으로 반영하였다는 점에서 의미를 가진다.

다만, 본 연구는 특정 지역의 자율주행차 사고 데이터를 활용하였다는 점에서 분석 결과의 일반화에는 한 계가 있으며, 사고 설명문의 작성 방식에 따른 정보 편차가 분석 결과에 영향을 미칠 가능성도 존재한다. 향 후 연구에서는 보다 다양한 지역과 운행 환경을 포함한 사고 데이터를 활용하고, 사고 위험 정의 방식과 데 이터 결합 구조를 추가적으로 정교화함으로써 분석 결과의 안정성과 활용 가능성을 확장할 필요가 있다.

ACKNOWLEDGEMENTS

이 논문은 2025년도 서울시립대학교 교내학술연구비에 의하여 지원되었음.

Figure

<Fig. 1>.

Data Preprocessing

<Fig. 2>.

Word cloud of unstructured data

Table

<Table 1>.

Structured & Unstructured data Composition

<Table 2>.

Model Configuration for Comparative analysis

<Table 3>.

Conceptual definition of crash outcome severity based on injury and vehicle damage

<Table 4>.

Validation Metrics

Metric	Formula
MAE (Mean Absolute Error)	MAE=1n∑i=1n\|yi−yi^\|
RMSE (Root Mean Squared Error)	RMSE=1n∑i=1n(yi−yi^)2
R2	R2=1−SSESST=1−∑i=1n(yi−yi^)2∑i=1n(yi−yi¯)2
Where, yi = the observed value for the ith sample y^ = the predicted value for the ith sample y = the mean of the observed values

<Table 5>.

Descriptive statistics of structured data

<Table 6>.