Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.21 No.6 pp.36-56
DOI : https://doi.org/10.12815/kits.2022.21.6.36

Development of a Model for Calculating the Negligence Ratio Using Traffic Accident Information

Eum Han*, Giok Park**, Heejin Kang***, Yoseph Lee****, Ilsoo Yun*****
*Dept. of Transportation Operation, Korea Road Traffic Authority
**Korea Automobile Testing & Research Institute, Korea Transportation Safety Authority
***Dept. of Transportation Eng., Univ. of Ajou
****Co-author: Ajou University, Dept. of Transportation Engineering, Combined Master's and Doctoral Program
*****Co-author: Professor of Transportation System Engineering at Ajou University
Corresponding author : Giok Park, parkgiok@kotsa.or.kr
10 October 2022 │ 25 October 2022 │ 7 November 2022

Abstract


Traffic accidents occur in Korea are calculated with the 「Automobile Accident Negligence Ratio Certification Standard」 prepared by the ‘General Insurance Association of Korea’ and the insurance company's agreement or judgment is made. However, disputes are frequently occurring in calculating the negligence ratio. Therefore, it is thought that a more effective response would be possible if accident type according to the standard could be quickly identified using traffic accident information prepared by police. Therefore, this study aims to develop a model that learns the accident information prepared by the police and classifies it to match the accident type in the standard. In particular, through data mining, keywords necessary to classify the accident types of the standard were extracted from the accident data of the police. Then, models were developed to derive the types of accidents by learning the extracted keywords through decision trees and random forest models.



교통사고 정보를 이용한 과실비율 산정 모델 개발

한 음*, 박 기 옥**, 강 희 진***, 이 요 셉****, 윤 일 수*****
*주저자 : 도로교통공단 교통운영연구처 책임연구원
**교신저자 : 한국교통안전공단 자동차안전연구원 연구위원
***공저자 : 한국교통안전공단 자동차안전연구원 선임연구원
****공저자 : 아주대학교 교통공학과 석박사 통합과정
*****공저자 : 아주대학교 교통시스템공학과 교수

초록


국내에서 발생하는 교통사고는 손해보험협회에서 작성한 「자동차사고 과실비율 인정기준」 에 따라 과실비율을 산정하며, 이를 통해 보험사의 합의나 판결이 내려진다. 하지만, 과실비율 산정에 있어 분쟁이 빈번하게 일어나고 있다. 따라서, 교통사고 발생 시 경찰공무원에 의해 작 성되는 교통사고 정보를 이용하여 「자동차사고 과실비율 인정기준」상의 교통사고 유형을 신 속하게 확인할 수 있다면, 보다 효과적인 대응이 가능할 것으로 사료된다. 이에 본 연구에서는 경찰에 의해 작성된 교통사고 정보를 학습시켜 「자동차사고 과실비율 인정기준」에서 제시하 는 교통사고 유형으로 분류하는 모델을 개발하고자 한다. 특히, 데이터마이닝을 통해 경찰청 교통사고 데이터에서 「자동차사고 과실비율 인정기준」의 교통사고 유형으로 분류하는 데 필 요한 핵심어들을 추출하였다. 그리고, 키워드를 의사결정나무 및 랜덤 포레스트 모델을 통해 학습시켜 교통사고 유형을 도출하는 모델을 개발하였다.



    Ⅰ. 서 론

    1. 연구의 배경 및 목적

    국내에서 교통사고의 발생 시, 교통사고조사규칙에 따라 교통사고 신고접수를 통해 출동한 경찰은 교통 사고 발생 사실을 기록하는 ‘실황조사서’를 작성한다. 그리고, 이를 기반으로 교통사고의 조사가 종결된 후, ‘교통사고사실확인원’을 재구성하여 교통사고 대상자들이 확인할 수 있도록 한다.

    그리고, 국내에서 발생하는 교통사고 중 공소권이 없는 일반 교통사고1)의 경우 교통사고 대상자 사이 과 실비율을 산정한 후 원만히 합의하며, 공소권이 있는 도주, 사망 등 중요 12개 항을 위배한 교통사고는 교통 사고 신고접수 후 원인을 분석하여 법원에서 과실비율에 따른 상계와 판결을 받도록 하고 있다. 즉, 국내에 서 발생하는 대부분의 교통사고는 자동차보험표준약관 별표3에서 명시하는 것과 같이 손해보험협회 (General Insurance Association of Korea, KNIA)에서 작성한 자동차사고 과실비율의 인정기준(KNIA, 2022)을 참고하여 과실을 책정하고 이에 따라 보험사의 합의나 법원의 판결이 내려진다(Kang et al., 2013). 이때, 보험 사는 경찰이 작성한 ‘교통사고사실확인원’을 과실비율을 산정하는 자료로 삼는다(Jeon, 2019).

    이렇듯, 자동차사고 과실비율의 인정기준(KNIA, 2022)에서 교통사고 유형별로 교통사고 대상자들 간의 과실비율을 제공하고 있음에도 불구하고, 과실비율 산정에 있어 분쟁이 빈번하게 일어나고 있다. 또한, 교통 사고 대상자들은 보험사로부터 전달된 과실비율에 불만을 가지는 경우가 많다(Kim, 2018). 2021년 손해보험 협회에 과실비율분쟁 심의가 청구된 건수는 11만 3804건으로 2020년 10만 4077건보다 약 9.3% 증가하였으 며, 2017년부터 꾸준히 증가하는 추세이다. 이는 과실비율 또는 교통사고의 사실관계 등에 대한 인식의 차이 가 크기 때문인 것으로 나타났다(KNIA, 2022).

    교통사고 조사가 종결된 후 경찰이 작성하는 ‘교통사고사실확인원’은 사고의 상황을 비교적 상세하게 설 명하는 문서이며, 보험사에서는 이를 보험금 청구에 필수적으로 제출하는 만큼 과실비율 산정에 중요하게 활용된다. 이를 기반으로 판단하였을 때, ‘교통사고사실확인원’에서 제공하는 정보와 자동차사고 과실비율 의 인정기준(KNIA, 2022)을 연결하는 과정이 필요하다. 또한, 경찰청 교통사고 데이터의 분류와 자동차사 고 과실비율의 인정기준(KNIA, 2022)에서 제공하고 있는 교통사고 유형이 상이한 바, 이를 매칭시키는 과 정이 필요할 것으로 판단된다. 따라서, 본 연구는 ‘교통사고사실확인원’에 작성되는 교통사고의 상황 데이터 를 학습시켜 자동차사고 과실비율의 인정기준(KNIA, 2022)에서 제시하는 교통사고 유형에 부합하도록 교 통사고를 분류하는 모델을 개발하는 것을 목적으로 한다.

    상기 목적 달성을 위해, 본 연구는 경찰청 교통사고 데이터에 텍스트 마이닝(text mining)을 적용하여 교통 사고의 상황을 이해하는 데 중요한 차량의 주행상태를 확인할 수 있는 핵심어(keyword)를 도출하였다. 도출 된 핵심어를 기반으로 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형에 부합하도록 경찰 청 교통사고 데이터를 재구성하였다. 또한, 재구성된 교통사고 데이터를 기반으로 교통사고 유형을 분류할 수 있는 의사결정 나무(decision tree) 및 랜덤 포레스트(random forest) 모델을 구성하였다.

    본 연구에서 도출한 모델을 활용하여 과실비율을 산정한다면, 자동차사고 과실비율의 인정기준(KNIA, 2022)을 기반으로 대략적인 교통사고의 상황과 주행상태, 교통사고 유형을 고려한 교통사고 과실비율을 확인 할 수 있으며, 교통사고 대상자에게 명확하게 사실관계에 따른 과실비율을 인지시킬 수 있을 것으로 사료된다.

    2. 연구의 범위 및 연구절차

    본 연구의 시간적 범위는 2014년부터 최신 자동차사고 과실비율의 인정기준(KNIA, 2022)이 제공되는 2022년으로 한다. 공간적 범위는 교통사고의 수집 구간인 국내 도로망으로 설정하였다. 본 연구에서 과실비율 을 산정하고자 하는 교통사고의 대상은 차대차 교통사고로 설정하였다. 내용적 범위로는 경찰청 교통사고 조 사 항목 분석, 국내 교통사고 발생 동향 분석, 자동차사고 과실비율의 인정기준(KNIA, 2022) 교통사고 유형 분석, 차대차 교통사고 양상 핵심어 선정, 차량 주행상태를 기반으로 한 과실비율 산정 모델 개발로 한다.

    Ⅱ. 관련 이론 및 연구 고찰

    1. 관련 이론 고찰

    1) 교통사고 관련 기준 및 조사 데이터 고찰

    (1) 교통사고조사규칙

    교통사고조사규칙경찰청훈령 제818호에 따라 교통사고의 발생 시, 경찰공무원이 처리해야 할 절차 와 기준을 구체적으로 정함으로써 교통사고 조사업무의 신속·명확한 처리를 목적으로 규정된 법령이다. 교 통사고 조사 시, 초동 조치의 절차 및 조사 내용과 교통사고 현장조사시스템의 구축·운영 방법을 규정하고 있으며 교통사고의 처리 기준을 통해 일반 교통사고와 고속도로에서의 교통사고로 나누어 교통사고의 처리 기준을 명시하고 있다.

    교통사고조사규칙에 따르면, 교통사고의 조사 시에 현장 도면, 사진 촬영부터 피해자, 가해자와 ‘실황조 사서’를 작성하도록 하고 있다. 이 중 ‘실황조사서’에는 교통사고의 상황을 명확히 기술할 수 있도록 사고 유 형, 피해 상황, 사고 관련 차량별 기본 정보, 현장 상황, 사고 유발 원인, 조사자 의견, 위반 법규, 공소권이 없는 사고 통고 처분 결과, 행정처리 등이 기록되어 있다.

    또한, 현장조사시스템의 구축·운영에 관한 조항에서는 접수된 교통사고의 경우, 사고일시 및 장소, 피해정 도 및 내용, 신고자의 인적사항, 사고차량 관련 정보, 초동조치 사항 등을 현장조사시스템에 입력하여야 한 다. 본 연구에서 활용한 경찰청 교통사고 데이터는 해당 현장조사시스템에서 수집된 교통사고 데이터이다.

    (2) 교통사고사실확인원

    ‘교통사고사실확인원’ 은 도로교통법시행규칙 제129조 3항에 따라 경찰서장으로부터 교통사고 발생 사 실의 확인을 받는 문서이며, 교통사고에 대한 조사가 종결된 후 ‘실황조사서’를 기준으로 작성되는 문서이 다. ‘실황조사서’를 기반으로 작성되는 문서이기 때문에 교통사고 조사자의 의견 및 현장상황(예, 기상 상태, 노면 상태 등)을 제외한 교통사고의 발생 일시, 발생 장소, 사고 원인, 사고 내용 등에 대해서 작성되어있으 며, 보험사의 보상담당자가 경찰에 신고된 교통사고를 대상으로 사고 사실관계 및 과실비율을 산정하는 자 료로 삼는다(Jeon, 2019). 이는 자동차손해배상 보장법 시행령 제7조 제1항에서 “보험금을 청구하려는 자 는 피해자 및 가해자의 성명 및 주소, 사고 발생 일시·장소 및 개요 등을 증명할 수 있는 서류를 첨부하여 보험사에 제출해야 한다.”라고 규정하고 있기 때문이다. 다만, ‘교통사고사실확인원’의 기재 내용이 소송절 차에서 유력한 증거자료로 활용될 수는 있으나, 교통사고의 과실비율 판단은 법원의 자유재량에 의해 결정 되는 사항이므로(Korea Duck Association, 2008), 이를 감안하여 교통사고의 상황만을 판단하는 근거로 활용 하여야 한다.

    (3) 자동차사고 과실비율의 인정기준

    자동차사고 과실비율의 인정기준(KNIA, 2022)은 자동차보험표준약관 별표3에 따라 교통사고 발생 시 가해자와 피해자의 책임 정도를 나타내는 과실비율에 대하여 법원 판례, 법령, 분쟁 조정 사례 등을 참고로 KNIA에서 만든 기준이다. 이는 교통사고 당사자들 간 신속한 보상처리, 표준화된 과실비율 산정, 과실비율 예측 용이성 등을 목적으로 1976년 처음 제정되었으며 2022년까지 총 8차 개정을 통해 보완되고 있다. 자동 차사고 과실비율의 인정기준(KNIA, 2022)은 국내 도로망에서 발생하는 교통사고를 301개의 사고유형별로 분류하여 제시하고 있다. 본 연구에서는 분석 대상 교통사고를 차대차 교통사고로 설정하였으므로, 이에 해 당하는 자동차와 자동차의 사고와 고속도로(자동차 전용도로 포함) 사고 유형은 총 87개로 집계된다.

    2) 텍스트 마이닝 및 의사결정 나무 이론 고찰

    (1) 텍스트 마이닝 및 TF-IDF 기법

    텍스트 마이닝이란 문자(text)로 서술되어있는 비정형 데이터의 분석을 통해 의미 있는 정보를 분석하기 위한 기법이다. 특히, 텍스트 마이닝 기법을 이용하며, 기존의 데이터베이스를 이용하여 잘 정돈된 정형 데 이터(예, 교통사고 발생 일시)로부터 파악이 힘든 정보를 추출할 수 있다(Park et al., 2019). 본 연구에서는 텍 스트 마이닝을 통해 서술되어있는 텍스트를 토큰화하여 형태소, 단어별로 분류하여 명사를 추출할 수 있도 록 하였다. 한글 문장의 의미상 최소단위인 형태소 분석을 활용하여 텍스트 내에 등장하는 형태소 및 단어의 빈도를 기반으로 역문서 빈도(term frequency-inverse document frequency, TF-IDF) 기법을 적용하기 이전에 전 처리를 수행하였으며 이후 교통사고 내용의 토큰화를 통해 교통사고 대상 차량들의 주행상태를 도출할 수 있도록 하였다.

    TF-IDF 기법은 텍스트 마이닝을 위해서 문서 내부의 단어가 얼마나 중요한지를 평가하기 위한 표현방식 이다(Lee and Kim, 2009). TF(term frequency)는 한 문서 내에서 등장하는 단어의 빈도를, IDF(inverse document frequency)는 특정 단어가 등장한 문서의 수인 DF(document frequency)의 역수에 로그를 취한 것을 의미한다. TF-IDF 기법으로 산정된 점수는 많은 문서에서 공통으로 등장하며, 한 문서에서 다빈도로 등장하는 단어일 수록 높게 산정된다.

    TF-IDF 기법을 적용하기 위해서는 각 문서에 서술된 내용을 말 꾸러미(corpus)로 토큰화해야 하며, 토큰 화된 결과를 기반으로 빈도를 집계하여 <Table 1>과 같은 과정으로 산정된다. 본 연구에서는 ‘교통사고사실 확인원’에 작성된 ‘사고 내용’을 분석 대상 문서로 설정하여 TF-IDF 기법을 적용하였으며, 이를 기반으로 교통사고 대상 차량들의 주행상태를 설명하도록 핵심어를 추출하였다. 또한, 추출된 핵심어는 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형과 부합하도록 교통사고 데이터를 분류하는 데 활용되 었다.

    <Table 1>

    TF-IDF model calculation process

    KITS-21-6-36_T1.gif
    (2) 의사결정 나무 및 랜덤 포레스트

    의사결정나무는 제공된 데이터를 기반으로 기계학습을 통해 분석 대상을 몇 개의 소집단으로 분류하는 규칙을 나무구조로 만들어 이를 새로운 대상에 적용할 수 있도록 하는 모형으로 해석이 용이하고 분류와 예 측이 쉬운 특징을 가지고 있다(Jang, 2009). 의사결정나무는 반응변수(예, 교통사고 유형)를 가장 잘 설명하는 설명변수(예, 주행상태를 설명하는 핵심어들)로 자식 노드를 뻗어 나가도록 구성되며(Yoo, 2015), 다음 <Fig. 1>과 같은 형식으로 구성된다.

    <Fig. 1>

    Example of decision tree

    KITS-21-6-36_F1.gif

    의사결정나무의 구성 알고리즘은 대표적으로 ID3, CART, C4.5, CHAID 등이 널리 사용된다. 의사결정 나 무 알고리즘은 데이터 분류를 수행할 때에, 불순도(impurity)를 기준으로 사용하여 분할을 위한 최적의 변수 를 찾는다(Heo et al., 2021). 불순도(impurity)란 다양한 종류의 개체들이 포함되어있는 정도를 의미한다. 각 알고리즘의 특징 및 불순도 감소 지표는 다음 <Table 2>와 같다.

    <Table 2>

    Decision tree features and impurity reduction criteria

    KITS-21-6-36_T2.gif

    다만, 의사결정나무는 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에는 예측 오류가 클 가능성이 있어 비연속성과 비안전성의 문제를 가지고 있다(Lee and Lee, 2003). 이러한 문제점을 해결하기 위해 학습데이터와 성능 검증용 테스트 데이터를 분리하여 모델을 학습시킨 후 테스트하는 방식과 여러 번의 의사결정나무를 구성하여 중첩하는 랜덤 포레스트 모델을 적용하여 최적의 결과를 도출하는 방식 을 활용하고 있다.

    랜덤 포레스트 모델은 다수의 의사결정 나무 모형을 앙상블하며, 무작위성을 도입하여 수행하는 모델이다 (Yoo, 2015). 의사결정나무의 예측 오차를 감소시키기 위해서 수행하는 방법으로 중첩되는 의사결정나무의 수가 증가할수록 예측 오차가 감소하고 과적합하지 않는다는 장점을 가지고 있다(Breiman, 2001).

    본 연구에서는 기초적인 CART 알고리즘과 다지 분리가 가능하며 연속형 데이터를 설명변수로 활용할 수 있는 C4.5 알고리즘을 활용하였다. CART 알고리즘의 경우 개별 의사결정나무의 무작위성을 최대로 설정 후 앙상블하는 랜덤 포레스트를 구성하였으며, C4.5 알고리즘은 개별 차량의 주행상태를 연속형 데이터로 입력 값을 설정하여 구성하였다. 또한, 학습을 기반으로 한 예측 모델의 평가는 정밀도(precision), 재현율(recall), 정확도(accuracy), F1-score를 통해 평가되는데, 각각의 정의 및 설명은 다음 <Table 3>과 같다.

    <Table 3>

    Evaluation index calculation formula and description

    KITS-21-6-36_T3.gif

    2. 선행연구 고찰

    1) 교통사고 관련 기준 및 과실비율 산정

    Kim(2018)은 자동차보험에서 과실비율에 따른 책임배상과 위험분산의 법리에 대한 고찰 연구에서 교통사 고 대상 차량 운전자들은 과실비율 산정과정에 대한 신뢰 부족으로 과실비율산정 결과에 불만이 많음을 강 조하였다. 이는 과실보다 차량가액이 배상 과정에 더욱 큰 영향을 미친다고 분석하였으며, 이에 따라 차량가 액을 감안한 자동차 모델에 따른 보험료율을 차등 책정하여 교통사고 발생 시 평균 손해 금액 등을 기준으 로 보험료율에 차이를 둘 수 있는 방향으로 법제도 개선방향을 제시하였다.

    Jung et al.(2012)은 교통사고 소송에서의 과실의 개념 연구에서 교통사고의 과실비율 산정은 특수성을 고 려하여 사회 통념이나 신의성실 원칙에 따라 정의된 약한 의미의 부주의를 넘어 불법행위가 성립될 정도의 과실이 있는지의 검토는 명확한 기준이 없을 경우 심리하기가 어려움을 강조하였다. 따라서 어느 정도의 과 실이 과실상계 사유에 해당하는지, 어느 정도의 과실부터 불법행위가 성립하는지를 정하는 것은 매우 어렵 기 때문에 궁극적인 판례로 가이드라인을 만드는 것이 중요함을 제시하였다.

    2) 텍스트 마이닝 및 의사결정 나무

    Park et al.(2019)는 자율주행자동차의 안전성 실험을 위한 시나리오를 개발하기 위해 텍스트 마이닝 기법 을 이용하였다. 교통사고 상황 데이터를 형태소 기반으로 토큰화하였으며, 이를 기반으로 TF-IDF 기법을 적 용하였다. TF-IDF 기법 적용 결과 도출된 주요 키워드를 기반으로 사고 위치, 객체, 상황으로 구분해 단어별 중요도를 선정하였으며 이를 조합하여 페가수스의 5-레이어 포맷을 기반으로 K-City의 커뮤니티부 도로를 중심으로 자율주행자동차의 안전성 실험을 위해 범위 시나리오(logical scenario)와 시험 시나리오(concrete scenario)를 작성하였다.

    Jeong et al.(2016)은 경찰청 교통사고 경위 데이터 중 안전운전불이행에 해당하는 자료를 텍스트 마이닝을 통해 분류하였다. 분류기법은 TF-IDF 모델을 활용하였으며, 이에 따라 교통사고 상황에 해당하는 15가지 대 표 핵심어들을 도출하였다. 해당 핵심어들을 기반으로 안전운전불이행 교통사고들을 음주운전, 위험운전, 졸 음운전, 운전미숙, 보행자의 법규위반 등 세부적 항목으로 분류할 수 있음을 보여주었다.

    Lee and Lee(2003)는 C4.5 알고리즘 의사결정나무를 통해 이동통신 고객의 패턴을 분류하고 분석하는 새 로운 방법에 대하여 연구하였다. 의사결정나무를 형성하여 결정변수와 함께 규칙을 생성함으로써, 신경망의 입력벡터 값을 정의하는 체계적인 방법을 제시하였으며, 이를 활용하여 이동통신고객의 신용에 대한 예측을 높일 수 있을 것으로 기대하였다. 또한, 새롭게 제시된 예측방법은 기존에 연구된 신경망 모델 및 의사결정 나무 모델에 비하여 높은 정확도를 보였다.

    Kim and Ahn(2016)은 기업신용등급 예측을 위해 랜덤 포레스트를 활용하였다. 과적합에서 자유롭고 잡음 이나 이상치에 영향이 적은 랜덤 포레스트의 특징을 활용하여 기업신용등급을 예측하였다. 기존에 기업의 신용등급을 예측하는데 활용하는 다중판별분석, 인공신경망, 다분류 서포트 벡터 머신(Support vector machine, SVM) 모형보다 정확한 예측결과를 산출함을 확인할 수 있었다.

    3. 연구의 차별성 도출

    교통사고 관련 기준 및 과실비율 산정에 관련된 선행연구 고찰 결과, 국내에서 교통사고의 과실비율을 명 확하게 산정하기 위해서는 유사한 법원의 판례를 참고하는 것이 필수적인 것으로 나타났다. 이를 고려한 기 준은 국내에서 유일하게 자동차사고 과실비율의 인정기준(KNIA, 2022)이 있으며, 법원, 보험사, 경찰 등에 서도 이를 기반으로 교통사고의 과실비율을 판단하고 있다. 다만, 교통사고 과실비율의 산정에 대해서 교통 사고 대상자들은 깊은 불신을 가지고 있으며, 이는 과실비율 또는 사실관계에 대한 인식의 차이가 크기 때문 인 것으로 판단된다(KNIA, 2022).

    텍스트 마이닝 및 의사결정나무와 관련된 선행연구의 고찰 결과, 텍스트 마이닝을 통한 비정형 데이터의 분석은 정형 데이터 분석에서 얻어내기 힘든 정보를 추출할 수 있는 것으로 나타났다(Park et al., 2019). 다양 한 분석에서 텍스트 마이닝의 기초작업으로 토큰화를, 특히 국문 텍스트의 경우 형태소 분석을 수행한 후 TF-IDF 기법을 적용하여 비정형 데이터의 핵심어를 우선하여 도출하였으며, 이를 기반으로 교통사고 데이터 의 교통사고 유형을 재구성하였다. 또한, 의사결정나무 및 랜덤 포레스트 알고리즘을 활용하여 예측 및 분류 를 수행하는 것으로 나타났다.

    따라서, 본 연구에서는 교통사고의 과실비율을 산정함에 있어 국내에서 근거자료로 활용되는 자동차사고 과실비율의 인정기준(KNIA, 2022)의 과실비율 제시 도표와 ‘교통사고사실확인원’의 사고내용 및 기본 사고 데이터들을 텍스트 마이닝하여 도출된 교통사고 유형들을 의사결정나무 및 랜덤 포레스트를 통해 매칭한 모 델을 개발하고자 한다. 이를 통해 교통사고의 발생 위치 및 상황 등에 해당하는 사실관계에 따른 과실비율을 도출하고자 하였으며, 사고 대상자에게도 명확하게 과실비율을 인지시킬 수 있을 것으로 사료된다.

    Ⅲ. 관련 기준 및 데이터 분석과 전처리

    1. 관련 기준 및 수집 데이터 검토

    1) 자동차사고 과실비율의 인정기준

    자동차사고 과실비율의 인정기준(KNIA, 2022)에서 제공하고 있는 교통사고 유형은 크게 다섯 가지[자동 차와 보행자의 사고, 자동차와 자동차의 사고, 자동차와 이륜차의 사고, 자동차와 자전거(농기계 포함)의 사 고, 고속도로(자동차 전용도로 포함) 사고]로 분류하고 있다. 그 중, 본 연구에서는 자동차와 자동차의 사고 와 고속도로(자동차 전용도로 포함) 사고 만을 대상으로 교통사고의 유형을 검토하였다.

    자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형은 다음 <Fig. 2>와 같이 차량의 주행상태 와 관련하여 분류(예, 직진 대 좌회전 사고)한 후, 교통사고의 발생 위치에 따라 세부적으로 분류(예, 사거리 교차로)하였다. 다만, 교통사고의 발생 위치와 무관하게 어느 도로에서나 발생할 수 있는 교통사고 유형들(예, 추돌 사고)도 존재하였다. 이를 감안하였을 때, 교통사고 유형 분류의 체계를 정하여 분류하는 것이 합당하다 고 판단되었다.

    <Fig. 2>

    Example of negligence ration presentation

    KITS-21-6-36_F2.gif

    따라서, 개별 교통사고 데이터를 매칭하기에 용이하도록 자동차사고 과실비율의 인정기준(KNIA, 2022) 의 교통사고 유형 분류를 변형하여 교통사고가 발생하는 도로 위계(road hierarchy), 도로 종류(road type), 도 로 형태(road shape)를 기준으로 차량의 주행상태에 따라 발생할 수 있는 교통사고 유형들을 집계하는 형식 으로 설정하였다.

    2) 경찰청 교통사고 데이터

    경찰청 교통사고 데이터는 ‘교통사고사실확인원’에 기록된 교통사고 상황을 포함하여 교통사고의 기본적 인 정보인 날짜, 위치, 교통사고 규모, 교통사고 상황, 교통사고 발생 도로 정보, 관련 차종, 면허 여부, 부상 자 등의 정보가 기입되어 있다. 경찰청 교통사고 데이터는 2014년을 기준으로 총 110,682건이다. 본 연구에 서는 개별 교통사고 데이터를 자동차사고 과실비율의 인정기준(KNIA, 2022)에서 제공하는 교통사고 유형 에 부합하도록 분류하기 위해 다음 <Table 4>에 해당하는 정보만을 활용하였다. <Table 4>는 교통사고 유형 의 분류에 사용한 데이터 이름(data name), 코드명(data code), 설명(description)을 제시하고 있다.

    <Table 4>

    Data codes used for traffic accident type classification

    KITS-21-6-36_T4.gif

    경찰청 교통사고 데이터에서 제공되는 정보를 기반으로 자동차사고 과실비율의 인정기준(KNIA, 2022) 의 교통사고 유형에 매칭하기 위해서 교통사고의 발생 위치, 교통사고 상황을 명확히 분석하는 과정이 필요 했기 때문에, 이를 우선적으로 검토하였다.

    먼저, 경찰청 교통사고 데이터에서 분류하고 있는 교통사고 유형을 검토하였다. 유형 분류는 “주행상태 기 반 사고 유형 코드(ACC_TYP_CD)”로 진출회전사고, 진입회전사고, 보행횡단사고, 주정차사고, 일직선사고, 단독사고, 기타사고 등으로 분류하였으며, “사고발생 도로 형태 기반 사고 유형 코드(ACC_TYP_MAP_CD)” 로 횡단중, 차도 통행중, 길가장자리구역 통행중, 보도 통행중, 정면충돌, 측면 직각충돌 등으로 분류되고 있 다. 상세 내용은 <Table 5>와 같다.

    <Table 5>

    Data codes used for traffic accident type classification

    KITS-21-6-36_T5.gif

    해당 교통사고 유형들은 자동차사고 과실비율의 인정기준(KNIA, 2022)에서 사용하는 교통사고 유형과 직접 매칭하기에는 무리가 있을 것으로 판단된다. 또한, 차량의 주행상태를 추출하기 위해서 “교통사고 상황 (ACC_STU)” 데이터를 분석하였다. “교통사고 상황(ACC_STU)”은 다음과 같이 기록되어 있다.

    “#1차량은 대전쪽에서 하남쪽으로 시속 약 100km의 속력으로 2차로로 진행하다 사고지점에 이르러 앞서 진행 하는 #2차량을 졸음운전으로 미처 발견치 못하여 #1차량의 앞범퍼 부분으로 #2차량의 뒷범퍼 부분을 들이받은 사고임”,“경부고속도로 부산방향 편도 5차로의 1차로를 진행하던 #1차량 운전자가 조향 및 제동장치를 정확히 조작하지 못한 과실로 때마침 차량 정체로 정차중이던 #2차량 후미를 추돌한 사고임”

    “교통사고 상황(ACC_STU)”은 상이한 경찰공무원이 작성한 교통사고에 대한 상황이나, 교통사고의 상황 을 표현한 텍스트인 만큼 유사한 패턴을 가지고 있었으며, 도출된 유사한 패턴은 다음과 같다.

    먼저 교통사고에 관여된 차량은 #1, #2와 같이 특수문자와 숫자가 혼합된 형태로 표기되었다. 또한, “#2차 량”이라는 단어가 등장하기 전의 서술은 “#1차량”의 거동에 관련된 내용이었으며, “#2차량”의 등장 인근 부 분에서는 “#2차량”의 거동을 서술하기도 하였다. 만약 “#1차량”, “#2차량”이 2번 이상 등장하는 경우, “#2차 량”이 등장한 후 다시 “#1차량”이 등장하기 전의 서술은 “#2차량”의 거동에 관련된 내용이었으며, “#1차량” 이 다시 등장한 이후의 내용은 충돌의 상황에 관련된 내용임을 확인할 수 있었다.

    이러한 패턴을 기반으로 텍스트 마이닝을 수행할 경우, 교통사고 대상 차량의 주행상태 및 교통사고의 정 황 등을 추출할 수 있을 것으로 판단하였다.

    3) 검토의 소결

    자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형 분류는 크게 차량의 주행 상태(예, 직진 대 직진)별로, 세부적으로는 물리적인 구조(예, 사거리 교차로)별로 분류되어 있다. 다만, 교통사고의 발생 위 치와 무관하게 어느 도로에서나 발생할 수 있는 교통사고 유형들(예, 추돌 사고)도 존재하였다. 이를 감안하 였을 때, 교통사고 유형 분류의 체계를 도로 위계(road hierarchy), 도로 종류(road type), 도로 형태(road shape) 에 기반한 차량 주행상태로 정하여 분류하는 것이 합당하다고 판단되었다.

    경찰청에서 수집하는 교통사고 유형은 사고 당시 차량의 주행상태 및 사고 상황에 따라 분류되고 있다. 또한, 경찰청 교통사고 데이터에서 “교통사고 상황(ACC_STU)” 데이터의 경우 특정한 패턴으로 작성되어있 다. 이를 통해 특정 문자열을 기준으로 나누어 텍스트 마이닝을 수행할 경우 교통사고 대상 차량의 개별 주 행상태 및 교통사고의 정황 등을 분석할 수 있을 것으로 판단되었다.

    두 교통사고 유형의 제시가 상이함에 따라, 비정형 데이터 및 사고 발생 위치를 확인할 수 있는 경찰청 교 통사고 데이터를 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형에 부합하도록 재구성하 도록 하였다.

    따라서, 경찰청 교통사고 데이터를 분석하여 제공되는 데이터를 기반으로 판단할 수 있는 자동차사고 과실 비율의 인정기준(KNIA, 2022)의 교통사고 유형을 도출하였다. 또한, 경찰청 교통사고 데이터의 교통사고 발생 좌표에 해당하는 “GRS X 좌표(GRS_X_CRD)”, “GRS Y 좌표(GRS_Y_CRD)”를 기반으로 한 공간연산을 통해 개별 교통사고가 발생 위치를 도로 위계(road hierarchy), 도로 종류(road type), 도로 형태(road shape)로 분류하도 록 하였다. 그 후, 텍스트마이닝(text mining)을 통해 교통사고 대상 차량의 주행 상태를 도출하여 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형에 매칭할 수 있게 전처리하도록 하였다.

    2. 경찰청 교통사고 데이터 전처리

    1) 물리적 구조별 분류를 위한 공간연산

    경찰청 교통사고 데이터는 사고가 발생한 ‘도로의 형태(3지 교차로, 4지 교차로, 곡선 여부)’ 및 ‘신호등의 유무’는 확인할 수 없으나, 사고의 위치가 “GRS X 좌표(GRS_X_CRD)”, “GRS Y 좌표(GRS_Y_CRD)”로 명확 하게 제시되어 있기 때문에 교통사고 건별로 이를 확인하기 위해 공간연산을 통해 전처리를 수행하였다. 본 연구에서는 대표적인 GIS 툴인 Q-GIS를 이용하여 표준노드링크 데이터를 통해 공간연산을 수행하였으며, 공 간연산 결과를 바탕으로 각 교통사고 건별로 도로 위계(road hierarchy), 도로 종류(road type), 도로 형태(road shape)를 매칭하였다.

    2) 교통사고 대상 차량 주행상태 추출을 위한 TF-IDF 기법 적용

    경찰청 교통사고 데이터의 “교통사고 상황(ACC_STU)” 데이터를 통해 교통사고 상황을 설명할 수 있는 핵 심어를 도출하기 위해 “교통사고 상황(ACC_STU)” 데이터의 불용어를 제거한 후 토큰화하였으며, TF-IDF 기법 을 적용하였다. 데이터의 토큰화에는 파이썬 3.6 프로그램과 ‘mecab 한국어 형태소 분석기’를 활용하였다. TF-IDF 기법을 적용하는 문서가 수집된 교통사고의 건수인 110,682건에 해당하였기 때문에 교통사고의 상황을 표현하는 핵심어들이 도출될 수 있도록 DF(document frequency)의 수를 점차적으로 줄여가며 결과를 도출하였 으며, 최종적으로 DF(document frequency)를 200으로 설정한 핵심어를 도출하였다. 그 결과는 <Fig. 3>과 같다.

    <Fig. 3>

    TF-IDF algorithm application result

    KITS-21-6-36_F3.gif

    최종적으로 교통사고의 상황을 나타내는 핵심어는 범주별로 다음 <Table 6>과 같다.

    <Table 6>

    TF-IDF algorithm application result(categorial)

    KITS-21-6-36_T6.gif

    이를 기반으로 “교통사고 상황(ACC_STU)”의 토큰화된 데이터들에 TF-IDF의 결과로 도출된 핵심어들 및 “#1차량”, “#2차량”과 같은 교통사고 대상 차량들의 정보 단어에 인덱스를 부여하였으며, “교통사고 상황 (ACC_STU)”가 작성된 패턴을 기준으로 각 차량별로 주행상태(예, 녹색 신호 직진, 비보호 좌회전)를 추출하 여 작성하였다.

    3) 분류 가능 교통사고 유형 선정

    경찰청 교통사고 데이터를 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형에 부합하도 록 재구성하기 위해, TF-IDF 알고리즘으로 도출된 핵심어를 기반으로 분류할 수 있는 유형들을 도출하였다. 자동차사고 과실비율의 인정기준(KNIA, 2022)의 자동차대 자동차, 고속도로(자동차 전용도로 포함) 교통사 고 유형들 중, 전처리된 경찰청 교통사고의 교통사고 발생 위치(예, 3지 신호 교차로, 4지 비신호 교차로), 교 통사고 대상 차량 주행 상태, TF-IDF 기법 적용 결과 핵심어를 기반으로 판단할 수 있는 교통사고 유형은 총 44가지로 나타났다. 해당 교통사고 유형은 다음 <Table 7>과 같으며 주행 상태(driving situation), 적용 가능 도로(applicable road), 교통사고 유형(accident description), 과실비율 도표 번호(chart no.)로 구성되어 있다.

    <Table 7>

    TF-IDF algorithm application result

    KITS-21-6-36_T7.gif

    4) 데이터 전처리 결과

    데이터 전처리 결과 수집된 경찰청 교통사고 데이터 총 110,682건에 대하여 사고 발생 장소의 도로 형태 (road shape)를 추가하였다. 또한, TF-IDF로 도출된 핵심어에 인덱스를 부여하여 각 차량별 주행상태(driving situation)를 결정하였다. 과실비율 산정 모델의 학습을 위해 이를 기반으로 개별 교통사고 데이터에 <Table 7>에서 제시한 유형을 매칭한 예시는 다음 <Fig. 4>와 같다.

    <Fig. 4>

    Preprocessed Accident Data(Example)

    KITS-21-6-36_F4.gif

    최종적으로, 전처리된 교통사고 데이터는 향후 구성될 과실비율 산정 모델의 설명변수로 기존 경찰청 교 통사고 데이터에서 “교통사고 상황(ACC_STU)”, “법규위반 코드(LAW_VIO_CD)”, “도로 위계 코드 (RD_CLS_CD)”, “도로 형태 코드(RD_TYP_CD)”, “주행상태 기반 사고 유형 코드(ACC_TYP_CD)”를 포함하 며, 공간연산 및 텍스트마이닝을 통해 추출된 정보인 “#1차량 주행 상태(#1 vehicle driving situation)”, “#2차량 주행 상태(#2 vehicle driving situation)”, “교통사고 발생 위치(accident location)”, “도로 위계(road hierarchy)”, “도로 종류(road type)”, “도로 형태(road shape)”가 포함된다. 반응변수로 자동차사고 과실비율의 인정기준 (KNIA, 2022)의 “교통사고 유형(accident type)”, “도표 번호(chart number)”가 포함된다.

    Ⅳ. 의사결정나무 및 랜덤 포레스트 모델 개발 및 평가

    1. 과실비율 산정 모델 개발

    경찰청 교통사고 데이터는 총 110,682건으로, 전처리되어 <Fig. 4>와 같은 형태로 재구성하였다. 이를 기반 으로 의사결정나무 및 랜덤 포레스트 모델을 학습시켰으며, 과실비율 산정 모델을 개발하였다. 모델에 사용 된 알고리즘은 세 가지로 CART, CART 알고리즘을 기반으로 한 랜덤 포레스트, C4.5를 활용하였다. 각각의 모델은 학습데이터와 실험데이터를 7:3으로 분류하여 동일한 알고리즘의 모델을 3번 구성하여 성능을 검증 하였으며, Confusion Matrix, 특성중요도, 평가지표를 통해 평가하였다.

    Confusion Matrix는 분류모델의 분류 성능을 측정하기 위해 분류의 예측값과 실제값을 비교하여 성능을 시 각화한 행렬이다(Powers, 2011). 행렬의 각 행은 예측된 클래스의 변수를 나타내며, 각 열은 실제 클래스의 변수를 나타낸다. 즉, 행렬 내의 대각선행렬의 값이 올바른 예측값들이라고 볼 수 있다. 특성중요도는 분류 모델에서 분류를 위해 활용한 변수들의 중요한 정도를 의미한다. 즉, 분류모델에서 결과의 예측을 위해 주되 게 활용한 변수들이 높은 특성중요도를, 부차적으로 활용한 변수들이 낮은 특성중요도를 가지게 된다.

    또한, 평가지표로는 정밀도(precision), 재현율(recall), 정확도(accuracy), F-1 Score를 활용하였다. 정밀도 (precision)는 각 교통사고 유형 별 실제 건수를 개발된 모델이 예측한 건수로 나눈 값을 가중 평균낸 값, 재 현율(recall)은 모델이 각 교통사고 유형 별로 예측한 건수를 실제 교통사고 유형별 건수로 나눈 값을 가중 평균낸 값, 정확도(accuracy)는 모델이 교통사고 유형별로 올바르게 예측한 건수를 실제 교통사고 유형 별 건 수로 나눈 값, F1-score는 정밀도(precision)와 재현율(recall)의 조화평균 값으로, 정밀도(precision)와 재현율 (recall)이 유사한 평균치를 가지고 있어야 높은 값을 나타내는 평가지표이다.

    1) CART 알고리즘을 활용한 모델

    CART 알고리즘을 활용한 모델은 2지분류를 통해 입력된 데이터 셋을 분류하는 모델이다. 또한, 하위로 뻗어 나가는 가지의 수인 자식노드의 깊이를 기준으로 분류할 수 있는 항목의 수가 늘어나며, 의사결정나무 의 형태 역시 복잡해진다.

    본 연구에서 구성한 CART 알고리즘을 활용한 모델은 자식노드의 깊이를 9로 설정하였으며, 기본적인 의 사결정나무의 형태를 보이기 위해 자식노드의 깊이를 3으로 설정한 예시도 구성하였다. 또한, 의사결정 나무 모델을 평가하기 위해 각각의 모델을 3회 구성하여 그 과정에서 도출된 Confusion Matrix, 특성중요도, 정확 도(accuracy), 대략적인 의사결정나무의 모습은 다음 <Fig. 5>와 같다.

    <Fig. 5>

    CART algorithm application result

    KITS-21-6-36_F5.gif

    <Fig. 5>를 기준으로 설명하면, 예시로 설정하여 구성한 자식노드의 깊이가 3인 CART 알고리즘은 시각적 으로 교통사고 분류 과정을 확인하기는 용이하나, 정밀도(precision)는 0.32, 정확도(accuracy)는 0.48, 재현율 (recall)은 0.48, F1-score는 0.37로 성능이 크게 떨어지는 모습을 보였다. 이는 분석에 활용한 교통사고 데이터 의 라벨링 수가 44개인 것을 고려하였을 때, 자식노드의 깊이가 3인 의사결정나무는 최대 8개의 자식노드로 분기되기 때문이다. 또한, 자식노드의 깊이가 낮을 때에는 특성중요도가 교통사고 대상 차량의 주행상태보다 사고 발생 위치가 더욱 높게 산출되었다. 이는 교통사고 유형의 분류에 차량들의 주행상태보다 교통사고의 발생 위치를 우선적으로 고려하였기 때문으로 판단된다. Confusion Matrix의 분석 결과 ‘추돌 사고’의 유형에 서 오예측이 높은 빈도로 발생하였다.

    자식노드의 깊이를 9로 높혀 설계한 CART 알고리즘 모델의 의사결정나무는 시각적으로 분석이 불가능할 정도로 복잡한 형태를 띄었으나, 분류의 정밀도(precision)는 0.80, 정확도(accuracy)는 0.78, 재현율(recall)은 0.78, F1-score는 0.77로 양호하게 분석되었다. 또한, 교통사고 대상차량의 주행상태가 가장 높은 특성중요도 를 가지는 것으로 나타났다. 이는 교통사고의 예측에 있어서 물리적인 구조뿐만이 아니라 교통사고 대상 차 량의 주행상태도 고려하여 교통사고 유형을 분류한 것으로 판단할 수 있다. Confusion Matrix의 분석 결과 유 형 별 예측 정확도가 높은 것으로 판단되며, 그럼에도 불구하고, ‘추돌 사고’의 유형에서 오예측이 높은 빈도 로 발생하였다.

    해당 CART 의사결정나무를 중첩하여 랜덤 포레스트를 구성하는 경우, 정밀도(precision)는 0.72, 정확도 (accuracy)는 0.76, 재현율(recall)은 0.76, F1-score는 0.71로 오히려 감소한 수치를 나타냈다. 이는 의사결정나무 가 어느 정도 과대적합이 되어있었다는 것을 의미한다. 다만, 과대적합을 해결한 랜덤 포레스트에서도 평가 지표가 0.7 이상으로 구성된 것은 정확성이 양호한 모델인 것으로 판단된다. 랜덤 포레스트 모델을 평가하기 위해 각각의 모델을 3회 구성하여 그 과정에서 도출된 Confusion Matrix, 특성중요도, 정확도(accuracy)는 다음 <Fig. 6>과 같다.

    <Fig. 6>

    CART algorithm(random forest) application result

    KITS-21-6-36_F6.gif

    2) C4.5 알고리즘을 활용한 모델

    C4.5 알고리즘은 CART 알고리즘과 다르게 다지분류가 가능하며, 다지분류 시 범주형 데이터와 연속형 데 이터를 모두 활용할 수 있다는 장점이 있다. 모델을 평가하기 위해 C4.5모델을 3회 구성하여 그 과정에서 도 출된 Confusion Matrix, 특성중요도와 정확도(accuracy)는 다음 <Fig. 7>와 같다.

    <Fig. 7>

    C4.5 algorithm application result

    KITS-21-6-36_F7.gif

    C4.5 알고리즘의 경우 시각적으로 분석이 불가능할 정도로 복잡한 형태의 의사결정나무를 구성하였으나, 예시를 제외한 3회의 의사결정나무 구성 결과 평균 정밀도(precision)는 0.83, 재현율(recall)은 0.80, 정확도 (accuracy)는 0.87, F-1 score는 0.80으로 모든 평가지표가 1에 가깝게 산정되었다. 이는 C4.5 알고리즘을 활용 한 모델이 CART 알고리즘을 활용한 모델보다 높은 성능을 가지는 것을 의미한다.

    특성중요도 분석의 경우, CART 의사결정나무와 달리 연속형 데이터를 고려하며 다지분류가 가능하기 때 문에 교통사고가 발생한 위치, 신호의 유무 등의 특성중요도가 높게 나타났으며, 차량의 주행상태는 비교적 낮게 나타남을 확인할 수 있었다. 이는 교통사고 유형의 분류 체계가 물리적 구조를 더욱 큰 위계로 두고 있 기 때문인 것으로 사료된다.

    3) 과실비율 산정 모델 적용 예시

    제시된 각 모델을 이용하여 과실비율에서 사용하는 교통사고 유형으로 분류된 예시는 다음 <Fig. 8>와 같 다. 참고로, 이 교통사고는 자동차사고 과실비율의 인정기준(KNIA, 2022)상 ‘직진 대 좌회전(한쪽 차량 신 호 위반)’ 교통사고 유형으로 분류된다.

    <Fig. 8>

    Negligence ratio estimation model processing example

    KITS-21-6-36_F8.gif

    먼저, 경찰청 교통사고 데이터에서 제공하는 교통사고 상황은 “본 사고는 #1 차량이 금촌 방면에서 일사 방향으로 신호위반하여 직진 중 반대편에서 신호에 따라 좌회전하는 #2 차량과 충돌한 사고임” 이며, 공간연 산을 통해 도출된 도로 위계는 ‘4지 교차로’, 도로의 클래스는 ‘도심부 도로’, 도로 유형은 ‘교차로내’, 교통사 고 유형 맵 코드(ACC_TYP_MAP_CD)는 ‘회전 교통사고’로 설정되어있다.

    이를 토큰화를 수행한 결과, “#1차량 금촌 방면 일사 방향 신호위반 직진 반대편 신호 좌회전 #2차량 충돌 사고”으로 분류되었으며, 주행상태를 추출한 결과 1차량은 ‘직진’, 2차량은 ‘좌회전’, 사고 위치는 ‘4지 신호 교차로’로 분석되었다.

    최종적으로 과실비율 산정 모델에 입력된 값은, “#1차량 주행 상태(#1 vehicle driving situation)”, “#2차량 주행 상태(#2 vehicle driving situation)”, “도로 위계(road hierarchy)”, “도로 위계(road type)”, “도로 종류(road shape)”이며, 과실비율산정 모델에 입력한 결과, 교통사고 유형은 ‘직진 대 좌회전’, 과실비율산정 도표 번호 는 ‘209번’으로 도출되었다.

    4) 평가지표를 통한 모델별 평가

    본 연구를 통해 도출된 과실비율 산정 모델은 총 3가지로, 자식노드의 깊이가 9인 CART 알고리즘 모델, CART 알고리즘을 500회 중첩한 랜덤 포레스트 모델, C4.5 알고리즘을 활용한 모델이다. 본 절에서는 교통사 고 과실비율의 산정에 가장 적합한 모델을 평가하고자 하였으며, 각 모델의 평가지표에 따른 평가 결과는 <Table 8>과 같으며, 각각 정밀도(precision), 재현율(recall), 정확도(accuracy), F-1 Score를 제시하였다.

    <Table 8>

    Evaluation result of decision tree and random forest

    KITS-21-6-36_T8.gif

    자식 노드의 깊이가 9인 CART 알고리즘 모델의 경우, confusion matrix에서 “추돌 사고” 유형의 분류가 오 예측이 높은 것으로 나타났으며, 차량의 주행상태를 제외한 다른 설명변수를 크게 고려하지 않았다. 평가지 표에 따른 정확도(accuracy)는 3회의 구성에서 평균 0.78의 값으로 확인되었다.

    CART 알고리즘을 500회 중첩한 랜덤 포레스트 모델의 구성 결과, 평가지표가 전반적으로 자식 노드의 깊 이가 9인 CART 알고리즘 모델보다 낮게 확인되었다. 이는 자식 노드의 깊이가 9인 CART 알고리즘 모델이 과대적합 되어있었음을 의미한다. 또한, confusion matrix에서 “추돌 사고” 유형의 분류가 오예측이 높았으며 교차로의 형태(road shape)의 특성중요도가 높게 나타났지만, 타 설명변수를 크게 고려하지 않은 것으로 나타 났다. 평가지표에 따른 정확도(accuracy)는 3회의 구성에서 평균 0.76의 값으로 확인되었다.

    C4.5 알고리즘을 활용한 모델의 경우, 거의 모든 설명변수를 고르게 고려하여 교통사고 유형을 분류하였 으며, 교통사고 유형의 분류에서도 오예측이 많지 않은 것으로 확인되었다. 평가지표에 따른 정확도 (accuracy)는 3회의 구성에서 평균 0.87의 값으로 확인되었다.

    따라서, 가장 고르게 설명변수를 고려하며 평가지표의 값이 높으며, 오예측이 가장 적은 모델인 C4.5 알고 리즘을 활용한 모델이 교통사고 과실비율 산정에 가장 적합한 것으로 판단된다.

    Ⅴ. 결론 및 향후 연구과제

    국내에서 교통사고의 발생 시, 교통사고조사규칙에 따라 교통사고 신고접수를 통해 출동한 경찰은 교통 사고 발생 사실을 작성하는 ‘교통사고사실확인원’ 및 ‘실황조사서’를 작성한다. 다만, 법원에서 과실비율을 명확히 하지 않는 공소권이 없는 교통사고의 경우, 경찰은 교통사고의 과실비율을 산정할 수 없음에도 불구 하고 보험사에서는 이를 참고하여 과실비율에 영향을 끼치는 경우가 빈번하다.

    이렇듯, 자동차사고 과실비율의 인정기준(KNIA, 2022)에서 교통사고 대상자들 간의 과실비율을 제공하 고 있음에도 불구하고, 매년 과실비율분쟁 심의는 증가하고 있는 추세이며, 이는 과실비율과 사고의 사실관 계에 대한 인식의 차이가 크기 때문인 것으로 나타났다.

    이를 기반으로 판단하였을 때, 교통사고 발생 시 수집하는 데이터와 자동차사고 과실비율의 인정기준 (KNIA, 2022)을 연결하는 과정이 필요하며, 기존 교통사고 유형의 분류와 자동차사고 과실비율의 인정기준 (KNIA, 2022)에서 제공하고 있는 유형이 상이한바, 이를 모델로 개발하고자 하였다.

    이를 위해 본 연구는 경찰청 교통사고 데이터의 텍스트 마이닝을 통해서 교통사고의 상황을 확인할 수 있 는 핵심어를 도출하였다. 경찰청 교통사고의 사고 상황 서술 데이터에 TF-IDF 기법의 적용 결과 핵심어는 주행상태, 신호 상태, 주행도로 정보, 위치, 기타 등으로 분류되어 총 35개의 단어를 도출하였다.

    이를 기반으로 자동차사고 과실비율의 인정기준(KNIA, 2022)의 교통사고 유형에 부합하도록 경찰청 교 통사고 데이터를 재구성하였으며, 경찰청 교통사고 데이터에서 제공하는 정보들과 핵심어들을 조합한 결과 기존 자동차사고 과실비율의 인정기준(KNIA, 2022)의 87가지 교통사고 유형 중 44가지의 교통사고 유형을 분류할 수 있는 것으로 판단되었다.

    경찰청 교통사고 데이터의 텍스트 마이닝을 통해 교통사고 대상 차량 별로 차량의 주행상태를 추출하여 작성하였으며, 결과적으로 경찰청 교통사고 데이터는 차량의 주행상태, 도로 위계(road hierarchy), 도로 종류 (road type), 도로 형태(road shape)를 기준으로 재구성되었다.

    또한, 재구성된 교통사고 데이터를 기반으로 교통사고 유형을 분류할 수 있는 의사결정나무 및 랜덤 포레 스트 모델을 구성하였다. 모델의 구성에는 CART 알고리즘과 C4.5알고리즘을 활용하였으며, CART 알고리즘 의 경우 의사결정 나무를 중첩한 랜덤 포레스트 모델도 추가로 구성하였다. 평가지표를 기반으로 하여 각 모 델을 평가하였을 때, 모두 평가지표가 0.7 이상으로 준수한 성능을 보였으며, 특히 C4.5알고리즘을 활용한 모 델은 정확도(accuracy)가 0.87로 높은 성능을 보였다. 따라서, C4.5 알고리즘을 활용한 모델이 교통사고의 과 실비율을 산정에 가장 적합한 것으로 판단된다.

    다만, 본 연구에서는 모든 교통사고 데이터의 건수가 총 110,682건으로 모두 교통사고 유형을 직접 분류하 지 않고 교통사고가 발생한 위치 및 텍스트 임베딩을 통한 차량 주행상태 추출을 통해 이루어졌기 때문에 교통사고 유형 매칭의 정확도에 대한 한계를 가지고 있다. 또한, 구득된 교통사고 데이터가 2014년의 데이터 이기 때문에, 변화한 국내 도로망의 교통사고를 포함하지 않고 있다는 점을 한계로 가지고 있다.

    본 연구에서 도출한 모델을 활용하여 과실비율을 산정한다면, 자동차사고 과실비율의 인정기준(KNIA, 2022)을 기반으로 대략적인 교통사고의 상황과 주행상태, 사고 유형을 고려한 교통사고 과실비율을 확인할 수 있을 것으로 기대된다. 또한, 향후 교통사고 데이터의 추가적인 구득 및 더욱 발전된 텍스트 마이닝을 기 반데이터에 적용하여 발전시킨다면, 더욱 정확도가 높은 교통사고 과실비율 산정모델을 개발할 수 있을 것 으로 판단된다.

    ACKNOWLEDGEMENTS

    본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(21AMDP-C162419-01, 자율주행기술개 발혁신사업). 본 논문은 2022년 한국ITS학회 춘계학술대회에 게재되었던 논문을 수정·보완하여 작성하였습니다.

    Figure

    KITS-21-6-36_F1.gif

    Example of decision tree

    KITS-21-6-36_F2.gif

    Example of negligence ration presentation

    KITS-21-6-36_F3.gif

    TF-IDF algorithm application result

    KITS-21-6-36_F4.gif

    Preprocessed Accident Data(Example)

    KITS-21-6-36_F5.gif

    CART algorithm application result

    KITS-21-6-36_F6.gif

    CART algorithm(random forest) application result

    KITS-21-6-36_F7.gif

    C4.5 algorithm application result

    KITS-21-6-36_F8.gif

    Negligence ratio estimation model processing example

    Table

    TF-IDF model calculation process

    Decision tree features and impurity reduction criteria

    Evaluation index calculation formula and description

    Data codes used for traffic accident type classification

    Data codes used for traffic accident type classification

    TF-IDF algorithm application result(categorial)

    TF-IDF algorithm application result

    Evaluation result of decision tree and random forest

    Reference

    1. Brreiman, L. (2001), “Random forests”, Machine Learning, vol. 45, pp.5-32.
    2. General Insurance Association of Korea(KNIA),https://vwserver.kif.re.kr/flexer/viewer.jsp?dir=km&cno=304116&fk=2022004700RF&ftype=hwp, 2022.04.20.
    3. Heo, T. , Kim, D. and Hwang, S. (2021), “Identification of Celtis species using random forest with infrared spectroscopy and analysis of spectral feature importance”, Journal of the Korean Data & Information Science Society, vol. 32, no. 6, pp.1183-1194.
    4. Jang, C. (2009), “A Study on Consumption Revitalization Strategies of Fair Trade Commodity Using Decision Tree Model”, Korea Journal of Food Marketing Economics, vol. 26, no. 1, pp.51-71.
    5. Jeong, H. R. , Park, S. M. , Jun, Y. J. , Choi, J. W. , Park, K. H. and Yun, I. S. (2016), “Reclassification of Traffic Crashes Using Traffic Crash Report Data and Keyword Analysis,” 13th International Conference on Probabilistic Safety Assessment and Management.
    6. Joen, S. (2019), A study on the determination of fault rates by adjusters in automobile accidents, Doctoral Dissertation, Pukyong National University.
    7. Jung, S. (2012), “The definition of negligence in the caseson traffic accidents”, Korean Lawyers Association Journal, vol. 61, no. 9, pp.174-207.
    8. Kang, K. (2019), “Decision Tree Techniques with Feature Reduction for Network Anomaly Detection”, Journal of The Korea Institute of Information Security & Cryptology, vol. 29, no. 4, pp.795-805.
    9. Kang, S. , Park, Y. , Jo, S. and Yoon, S. (2013), “A Study on Proper Conducting Volume of Traffic Accident Investigator”, The Journal of Police Science, vol. 13, no. 3, pp.143-162.
    10. Kim, E. (2018), “A Study on Liability & Compensation Pursuant to Fault Ratio and the Rule of Risk Diversification in Automobile Insurance”, Ilkam Law Review, vol. 39, pp.25-51.
    11. Kim, S. and Ahn, H. (2016), “Application of Random Forests to Corporate Credit Rating Prediction”, Journal of Industrial Innovation, vol. 32, no. 1, pp.187-211.
    12. Korea Duck Association (2008), “Compensation for Damages Cused by a Farmer’s Traffic Accident”, Monthly Duck’s Village, no. 57, pp.58-62.
    13. Lee, G. and Lee, H. (2003), “A Study on the Combined Decision Tree(C4.5) and Neural Network Algorithm for Classification of Mobile Telecommunication Customer”, Journal of Intelligence and Information Systems, vol. 9, no. 1, pp.139-155.
    14. Lee, S. and Kim, H. (2009), “Keword Extraction from News Corpus using Modified TF-IDF”, Journal of Society for e-Business Studies, vol. 14, no. 4, pp.59-74.
    15. Park, S. , So, J. , Ko, H. , Jung, H. and Yun, I. (2019), “Development of Safety Evaluation Scenarios for Autonomous Vehicle Tests Using 5-Layer Format(Case of the Community Road)”, Journal of Korea Institute of Intelligent Transport Systems, vol. 18, no. 2, pp.114-128.
    16. Powers, D. M. (2011), “Evaluation: From Precision, Recall and F-measure to ROC, Informedness, Markedness & Correlation”, Journal of Machine Learning Technologies, vol. 2, no. 1, pp.37-63.
    17. Singh, S. and Gupta, P. (2014), “Comparative study ID3, cart and C4. 5 decision tree algorithm: A survey”, International Journal of Advanced Information Science and Technology(IJAIST), vol. 27, no. 27, pp.97-103.
    18. Yoo, J. (2015), “Random forests, an alternative data mining technique to decision tree”, Journal of Educational Evaluation, vol. 28, no. 2, pp.427-448.

    저자소개

    Footnote

    • 피해자가 중대한 상해를 입지 않았을 경우, 피해자가 처벌을 원하지 않을 경우 등의 소송의 조건이 결여되거나 12대 중과실에 해당하지 않을 경우, 공소시효가 만료된 경우 등 형을 면제할 사유가 있는 경우 검사가 기소하지 않고 공소권(검사가 형사사 건에 관한 심판을 법원에 청구하는 권리) 없음으로 사건을 종결할 수 있음.