Ⅰ서 론
1연구배경 및 목적
경찰청 통계자료에 의하면, 2013년 사업용자동차 에 의한 교통사고 건수는 전체 교통사고의 22.4%를 차지하고 있으나, 비사업용자동차 등록대수 대비 4 배 이상 높은 비율을 나타내고 있다. 특히 지역주민 이나 학생 등 일상생활과 밀접한 교통수단이자 지 역내 근거리를 연결하는 시내버스는, 전체 자동차 등록대수의 0.17%에 불과하나 교통사고는 15배 이 상 많이 발생한 것으로 나타나 우려를 더하고 있다.
한편, 지난 3년(2011~2013년)간 시내버스와 관련 한 교통사고 현황을 보면, “차대사람” 사고가 51.4%, “차대차” 사고가 44.0%를 차지하고 있으며, 특히, “차대사람” 사고에서는 차내전도 사고가 66.5%로 가장 많은 비중을 차지하고 있다. 또한, 법 규위반 유형에 따른 사고에서는 안전운행불이행에 따른 사고가 67.4%로 전체 사고의 2/3이상을 차지 하는 것으로 나타나, 시내버스 사고감소를 위해서 는 사고 위험성을 내포한 운전자 관리를 위한 다양 한 대책이 필요한 것으로 판단된다.
이에 본 연구에서는 시내버스 운전자의 실제 운 행기록자료를 이용하여 사고발생 가능성을 내포한 운전자를 사전에 분류할 수 있는 최적 변수를 도출 하고, 도출된 유의변수를 활용하여 사고발생 가능 성이 높은 운전자를 추출할 수 있는 모형을 구축하 였다. 이에 따라 그 결과는 운전교정 교육이나 운전 자 신규 채용 시 잠재적인 위험요인을 내포한 운전 자를 사전에 파악하는데 활용할 수 있으며, 결과적 으로 운전자의 안전운전 환경을 도모하는데 일조할 수 있을 것으로 기대된다.
2연구범위 및 방법
본 연구에서는 2014년도 1월부터 6월까지 기간 중 서울, 경기, 대전지역 시내버스 운전자를 대상으 로 사고를 발생했던 운전자의 사고당일 운행기록 자료와 사고를 발생하지 않은 운전자의 실제 운행 기록자료를 수집·분석 하였다.
가속도 등 두 운전자 그룹간 운행특성에 차이를 나타내는 유의변수를 추출하고, 추출된 유의변수를 통하여 두 집단의 분류모형 개발 및 모형의 타당성 을 검증하였다. 모형개발은 입력변수를 이용하여 목표변수를 예측하는 모형 즉, 새로운 관측치가 어 떤 그룹에 속할 것인가를 결정하기 위한 여러가지 분류기법들 중 판별분석(Discriminant Analysis) 및 로지스틱회귀분석(Logistic Regression Analysis)을 활 용하였다. 마지막으로 개발된 모형을 다른 운전자 들의 운행기록자료에 적용하여 모형의 정확도를 검 증하였다.
Ⅱ이론적 고찰
1선행연구 고찰
Bagdadi and Várhelyi(2011)는 운전자 166명의 운 전행태를 분석한 결과 불안전한 행동이 많을수록 사 고의 위험도가 높은 것으로 나타났으며, 급감속, 급 핸들조작 등이 많을수록 사고와의 개연성이 높다고 밝혔다[1]. Cho(2008)는 위험상황을 자주 만드는 운 전자는 그렇지 않은 운전자에 비하여 잠재적인 위험 성으로 사고가 발생할 경우 그 피해가 클 가능성이 매우 높다고 하였으며[2], Cho and Lee(2007)는 2건 이상의 사고이력을 가지고 있는 그룹의 경우 무사고 그룹에 비하여 약 2배이상 위험운전을 하며, 급핸들 조작 및 차선변경이 상대적으로 많다고 밝혔다[3]. Hwang(2000)은 교통사고 통계를 원인별로 분석한 결과 교통사고의 주된 요인은 운전자의 난폭운전, 법규위반 등 인적요인이 가장 많은 부분을 차지하고 있으며[4], Lee and An(2006)은 운전자의 조급한 성 격으로 나타날 수 있는 급제동과 급출발이 사고로 이어질 수 있는 요인이 된다고 하였다[5]. Oh(2011) 는 과속과 같은 위험운전행동 수준이 높을수록 교통 사고 경험이 많으며, 과속운전과 난폭운전, 음주운 전 및 주의산만 등의 운전자 의도가 개입된 위험운 전행동들 간에 통계적으로 유의한 수준의 정적상관 관계들이 있다고 하였다[6]. Oh and Lee(2009)는 일 반운전자에 대한 시뮬레이터 실험결과 운전자의 가·감속에 따른 위험운전과 차량핸들 조작을 통한 조정 성이 복합적으로 발생할 때 가장 위험하다고 하였으 며[7], Park and Lee(1997)는 사고를 잘 내지 않는 버 스운전자와 사고를 많이 내는 교정교육 수강자 집단 간의 차이검증 결과 성실성, 운전규칙 준수, 책임감 에서 유의미한 차이가 있음을 보여주었다[8]. 한편, af Wåhlberg(2004)는 버스운전자의 교통사고와 가속 도의 상관관계를 규명하였으며, 감속행태와 좌·우 핸들조작 행동에서 사고와 상관관계를 보였다[9]. 또 한, Zegeer et al.(1993)은 사업용 차량(버스)을 대상으 로 한 사고특성을 분석하여 인적요인, 차량요인 등 이 사고와 관련이 있음을 보였으며, 특히 전방주시 태만, 안전거리 미확보 등에 의한 추돌 및 측면충돌 사고가 많아 사업용 차량 운전자에 대한 교육의 필 요성을 강조하였다[10].
2연구의 차별성
지금까지 많은 연구자들이 운전자의 성격 및 태 도와 같은 심리적 특성을 활용하여 교통사고의 위 험성을 높이는 운전자의 인적요인을 찾아내기 위하 여 노력하여 왔으나, 대부분의 선행연구들은 다음 두가지 형태로 구분할 수 있다.
첫 번째, 기존 많은 연구들은 운전자의 위험요인 을 도출하고 평가체계를 갖추기 위하여 운전자의 성격 및 태도와 관련된 사항에 대하여 주로 설문조 사의 방법을 취하였으며, 이를 바탕으로 교통사고 발생을 야기하는 운전자 요인들의 영향을 추정하는 모형을 구축하고 검증을 실시하였다.
두 번째, 위험운전행태를 분류하고 설명할 수 있 는 기준을 마련하기 위하여 실제 운행자료가 아닌 실험용 차량을 이용한 실험환경을 조성하였다. 조 성된 실험환경하에서의 주행시뮬레이터 분석을 통 하여 수집된 자료를 활용하여 위험운전에 관한 연 구를 진행하였다. 이처럼 기존의 교통사고와 관련 된 운전자의 인적요인 도출에 관한 연구들은 설문 조사와 실험을 통한 연구가 대부분을 차지하였으 며, 교통사고 발생자료 또는 경험적 자료를 활용하 여 사고발생과 운전자 인적요인과의 관계를 분석하 여 왔다. 하지만 운행정보 데이터 수집의 한계성 및 접근성 제한 등으로 연구는 극히 제한적일 수 밖에 없으며, 특히 대중교통수단으로써 운송을 목적으로 하는 사업용자동차에 대한 연구는 미미한 실정이 다. 본 연구가 갖는 차별성은, 기존 많은 연구가 운 전자의 성격 및 태도 즉 운전자의 심리적 요인과 교통사고와의 관계에 주목했다면, 본 연구는 운전 자의 행태적인 측면이 주요 관심사항이 된다고 할 수 있다. 조성된 실험조건이 아닌 실제 도로상에서 발생하는 차량들의 운행정보를 활용하기 때문에 실 질적 행태를 잘 반영한다고 할 수 있다. 또한 본 연 구에서는 사업용 운전자의 실제 운행자료를 바탕으 로 사고운전자와 비사고 운전자를 구분할 수 있는 요인에 대해 연구하였다. 두 운전자 집단의 유의한 특성변수를 대상으로 모형내 변수의 영향력 및 통 계적 유의성이 확보되지 않은 변수들을 순차적으로 제거하여 두 집단의 분류요인에 대해 가장 잘 설명 할 수 있는 모형을 구축하였다.
연구결과는, 사고자와 비사고자를 구분할 수 있 는 기준 제시를 통해 교통사고 발생 가능성이 있는 운전자를 사전에 파악하여 운전교정 교육 등 사고 발생 위험군 운전자관리에 활용될 수 있을 것으로 판단되며, 나아가 타 업종 운전자를 대상으로 한 사 고 위험군 운전자를 판별할 수 있는 연구의 기초로 활용될 수 있을 것이다.
Ⅲ분석용 자료구축 및 분석방법론
1분석용 자료구축
본 연구에서는 2014년도 1월부터 6월까지 기간 중 서울, 경기, 대전지역 시내버스 운전자를 연구대 상으로 설정하였으며, 동 기간 중 사고를 발생한 운 전자와 사고를 발생하지 않은 운전자의 운행기록자 료를 수집하여 분석에 활용하였다. 수집된 자료중 1~2월의 자료는 모형개발을 위하여 활용하고 나머 지 3~6월의 자료는 개발된 모형의 검증을 위하여 사용하였다. 특히, 무사고자는 월별, 지역별 사고자 구성비율을 고려하여 사고자의 2배수 수준으로 자 료를 수집하였다.
연구대상 총 표본 및 자료의 세부 구성내역은 <Table 1> ~ <Table 3>과 같다. <Table 2>
2분석방법론
본 연구는 속도, 브레이크 작동횟수 및 가속도 등 운행기록 자료로부터 수집된 운전자 특성변수가 각 운전자의 사고발생 가능성을 얼마나 정확하게 예측하느냐에 중점을 두고 있다. 이를 위하여 본 연 구에서는, 종속변수를 예측하기 위한 통계적 기법 중 대표적인 로지스틱회귀분석(Logistic Regression Analysis)과 판별분석(Discriminant Analysis)을 사용 하였으며, 각 분석기법은 자료의 특성에 따라 다른 효율성과 정확성을 나타내기 때문에 두 분류기법의 비교를 통하여 최적의 분류모형을 제시하였다.
시내버스 운전자의 사고예측모형 개발을 위한 구체적인 분석내용 및 절차는 <Fig. 1>과 같다.
첫째, 운행기록계에서 수집된 자료중 교통사고 영향요인과 관련된 분석용 변수를 도출하고, 사고 자와 비사고자 집단간 유의한 설명변수를 추출하였 다. 둘째, 추출된 설명변수를 모형개발용 자료에 적 용하여 투입된 변수의 영향력이 적은 변수 및 통계 적으로 유의하지 않은 변수를 하나씩 제거하면서 모형을 개발하고, 모형간 분류정확도 비교분석을 통하여 분류 정확도가 가장 높은 모형을 최적 모형 으로 선택하였다. 또한, 개발된 모형은 1일 전체 운 행시간 중 임의 1시간에 대한 자료를 바탕으로 개 발되었기 때문에 임의 추출된 다른 시간대에 모형 을 적용하여 모형의 분류 정확도 및 예측 분류된 집단에 대한 통계적 검증을 실시하였다.
셋째, 모형개발 단계와 동일한 방법으로, 개발된 최적 모형을 검증용 자료에 적용하여 모형의 정확도 를 검증하고, 또한 임의 다른 시간대에 모형을 적용 하여 시간대별 모형 적용의 타당성을 검증하였다.
1)판별분석(Discriminant Analysis)
판별분석은 자료를 분석한 근거를 가지고 의사 를 결정해야 할 때 널리 사용된다. 또한, 여러 개의 독립변수가 지닌 특성들을 파악하여 그 표본이 어 느 집단에 속하는가를 판별하고, 분석을 통해 미지 의 사례가 어떤 집단에 속할 것인지를 분석할 수 있을 뿐만 아니라, 어떤 변수가 종속변수에 가장 큰 영향을 미칠 것인가도 알 수 있다.
판별함수는 각 독립변수와 이에 상응하는 가중 치를 곱하여 이를 모두 합해 각 표본단위의 판별점 수를 구하고, 이를 통합하여 집단의 평균값을 구한 다. 또한 판별계수는 회귀계수와 같이 각 독립변수 의 상대적 중요도를 의미하며, 판별함수는 집단구 분의 예측력을 의미하기 때문에 판별함수가 좋다는 것은 곧 독립변수들이 집단을 잘 구분한다는 것을 의미한다. 일반적인 판별함수식은 다음과 같이 나 타낼 수 있다.
2)로지스틱회귀분석(Logistic Regression Analysis)
로지스틱회귀분석은 어떤 사건이 일어날 확률을 추정하기 위해 고안된 통계기법으로, 종속변수가 범주형인 자료를 분석하는데 적합하다. 로지스틱회 귀분석은 선형회귀분석이 갖는 한계에서부터 출발 하며 선형회귀분석이 주어진 독립변수로부터 종속 변수의 평균값을 예측하는 것이라고 한다면, 로지 스틱회귀분석은 주어진 독립변수로부터 종속변수 의 범주 중 어느 하나의 비율을 예측하는 것이라고 할 수 있다.
하나의 독립변수를 고려한 로지스틱 회귀모형은
로 표현되며, p개의 설명변수를 고려하면
와 같이 확장 가능하다. 한편, 식(2)와 식(3)의 좌 변에 있는 로짓(Logit)은 아래와 같이 표기되기도 한다.
그리고 식(3)의 모형으로부터 확률은 아래와 같 이 계산된다.
Ⅳ모형개발 및 검증
1유의변수 선정
1)분석용 변수의 구성
운행기록계에서 수집된 항목 중 차량속도(v), 엔 진 회전수(rpm) 등 5개 항목을 분석에 사용하였으 며, 가속도의 경우 가감속 및 좌우 방향성을 고려하 여 변수를 추가로 생성하였다. <Fig. 2> <Table 4-5>
이상과 같이 분석에 사용될 최종변수를 선정하 였으며, 최종 분석용 변수는 <Table 6>과 같다.
2)유의변수 선정
유의변수 선정을 위하여 사고발생 운전자 및 사 고 미발생 운전자의 1일 운행자료 중 각각 1시간 자료를 대상으로 t-검정을 수행하였다. 사고발생 운 전자의 경우 사고발생시점을 기준으로 사고전 1시 간 자료를 추출하고, 사고 미발생 운전자의 경우 05 시~24시 중 무작위로 1시간을 추출하여 집단간 변 수의 유의성을 검정하고 동 과정을 20회 반복실시 하여 시간대별로 유의변수 선정의 타당성을 검증하 였다. 유의변수 선정을 위한 방법론을 도식화하면 <Fig. 3>과 같다.
먼저, case 1을 대상으로 운행기록계 정보에서 설 명변수로 추출된 차량속도(v), 브레이크 작동횟수, 가속도 등 5개 변수와 추가로 생성된 가속도 관련 10개 변수를 대상으로 두 집단간 차이 유무를 검정 하였다.
사고발생 운전자 및 사고 미발생 운전자 그룹간 설명변수의 유의성 검정결과 Vy, XY, Y 3개 항목 이 신뢰수준 95%(α= 0.05)에서 그룹간 차이가 유의 한 것으로 나타났으며, Xd, XdYr 및 XdYl 항목이 신뢰수준 99%(α= 0.01)에서 그룹간 차이가 유의한 것으로 나타났다. 반면 속도(v) 및 브레이크 작동회 수, 진행방향 가속도(Vx) 등 9개 항목은 그룹간 차 이가 유의하지 않은 것으로 분석되었다. case 1의 경우와 같이 case 2~case 20 까지의 유의변수 검정 과정을 반복 수행한 결과, Vy, XY, Y 3개 항목은 신뢰수준 95%(α= 0.05)에서, Xd, XdYr 및 XdYl 3개 항목은 신뢰수준 99%(α= 0.01)에서 그룹간 차이가 유의한 것으로 나타났으며, 속도(v) 및 브레이크 작 동회수, 진행방향 가속도(Vx) 등 9개 항목은 그룹간 차이가 유의하지 않은 것으로 분석되었다. t-검정 결과에 따른 최종 유의변수 선정결과는 <Table 8> 과 같다. <Table 7>
3)다중공선성
t-검정 결과 유의한 변수로 선정된 변수들간의 연관성을 파악하기 위하여 다중공선성을 확인하였 다. 기본적으로 다중공선성 진단은 공차한계가 0.1 이하로 작거나 VIF(Variance Inflation Factor) 가 10 이상이면 다중공선성의 문제가 있다고 본다. <Table 9>
Vy, Y, XY, Xd, XdYr 및 XdYl 등 6개 가속도 변 수에 대한 다중공선성 분석 결과, Vy, XdYr 및 XdYl 3개 변수의 공차한계가 0.047~0.076으로 0.1 이하이고 VIF도 13.109~21.496으로 10이상으로 높 기 때문에 다중공선성을 의심해 볼 수 있다. 다중공 선성 문제 해결을 위해서는 표본수를 확대하거나 해당변수를 제거하여야 하지만, 본 연구에서는 중 요 설명변수가 제거될 가능성이 있기 때문에 유의 변수 선정과정에서 다중공선성 분석 결과를 적용하 지는 않고 사고 운전자 분류모형 개발 단계에서 다 중공선성 의심변수를 제거한 모형을 개발하였다.
2모형개발 결과
1)판별분석에 의한 모형개발
먼저 Vy, Y, XY, Xd, XdYr 및 XdYl 등 6개 가속 도 변수 중 다중공선성 의심변수 Vy를 제외한 나머 지 5개 변수를 사용하여 판별분석을 실시한 결과, 고유값(Eigenvalue) 0.322, 정준상관계수 0.493, Wilk’s Lambda값 λ = 0.757(p < 0.001)으로 나타났 으며 Box’s M 검정에 의한 공분산행렬의 동질성에 대한 검정에서는 통계적 유의값이 0.000으로 나타 나, 모집단 공분산행렬이 동일하다는 영가설을 만 족하지는 못하였다.
정준판별함수의 계수를 보면, 사고 발생 운전자 와 사고 미발생 운전자의 분류 변인으로서 가장 영 향력이 큰 변수는 XdYr(감속+우측방향 작용 가속 도), 영향력이 가장 낮은 변수는 Xd(감속도) 임을 알 수 있다. 판별함수를 통하여 두 집단에 대한 분 류 정확도를 분석한 결과, 사고 미발생 운전자 집단 을 사고 미발생 운전자 집단으로 정확하게 분류하 는 비율은 96.5%, 사고발생 운전자 집단을 사고발 생 운전자 집단으로 분류하는 비율은 62.8%였으며, 사고발생 운전자 집단을 사고 미발생 운전자 집단 으로 잘못 예측하는 오류비율은 37.2%로 나타났다. 위 결과를 토대로 모형내 변수의 영향력이 가장 적 은 변수를 차례로 제거해 가면서 추가 모형을 개발 하는 한편, 동일한 방법으로 다중공선성 의심변수 를 변경하여 판별모형을 개발하였다.
다중공선성 의심변수 Vy를 제거한 후 나머지 5 개 유의변수를 판별분석에 적용한 경우에는 사고 미발생 운전자를 96.5% 정분류 하고, 사고발생 운전 자에 대해서는 62.8% 수준의 분류율을 나타내었으 며, 모형내 영향력이 가장 낮은 변수를 하나씩 제거 하여 모형의 분류정확도를 분석한 결과, 영향력이 가장 높은 유의변수는 XdYr 이었으나 사고발생 운 전자의 분류율은 단일 변수에 의해서는 48.8%로 가 장 낮았고, 다른 유의변수와 함께 모형개발에 투입 시 분류율이 가장 높게 나오는 것으로 분석되었다.
다중공선성 의심변수 XdYr를 제거한 후 나머지 유의변수를 판별분석에 적용한 경우에는 사고 미발 생 운전자의 분류율은 98.8%, 사고발생 운전자에 대해서는 53.5%의 분류율을 나타내었다. 한편, 모형 내 영향력이 가장 낮은 변수를 하나씩 제거하여 모 형의 분류정확도를 분석한 결과, 가장 영향력이 높 은 유의변수는 XdYl로 사고발생 운전자의 분류율 은 XdYl 단일 변수를 모형개발에 투입했을 때 62.8%로 가장 높게 나오는 것으로 분석되었다.
다중공선성 의심변수 XdYl를 제거한 후 나머지 유의변수를 판별분석에 적용한 경우에는 사고 미발 생 운전자의 분류율은 96.5%, 사고발생 운전자에 대해서는 55.8%의 분류율을 나타내었다.
또한, 모형내 영향력이 가장 낮은 변수를 하나씩 제거하여 모형의 분류정확도를 분석한 결과, 가장 영향력이 높은 유의변수는 XdYr로 나타났으나 XdYr 단일 변수를 모형개발에 투입했을때 사고발 생 운전자의 분류율은 48.8%로 가장 낮게 나오는 것으로 분석되었다.
2)로지스틱회귀분석에 의한 모형개발
6개 가속도 변수 중 다중공선성 의심변수 Vy를 제외하고 나머지 5개 변수를 모두 진입시켜 사고발 생 운전자 및 사고 미발생 운전자 그룹에 대한 로 지스틱회귀분석을 실시한 결과, 모형의 적합도 검 증에서는 -2LL(-2Log Likehood) 값의 변화를 통한 χ2통계량이 신뢰수준 95%(α= 0.05)에서 유의한 것 으로 나타났으며, 종속변수의 실제값과 예측된 값 의 적합성 여부를 측정하는 Hosmer&Lemeshow Test의 p값이 0.435(p>.005)로 귀무가설을 채택하여 모형은 적합한 것으로 나타났다. <Table 10>
회귀계수를 보면, 사고 발생 운전자와 사고 미발 생 운전자의 분류변인으로서 가장 영향력이 있는 변수는 XdYr(감속+우측방향 작용 가속도)로서 값이 커질수록 사고발생 운전자로 분류될 가능성이 더 커지며, 반면 큰 영향력을 가지는 Y(좌우 횡방향 가 속도 크기)의 경우 값이 커질수록 사고발생 운전자 로 분류될 가능성이 낮아짐을 알 수 있다. 분석결과 에 따른 분류 정확도를 분석한 결과 사고 미발생 운 전자 집단을 사고 미발생 운전자 집단으로 정확하 게 분류하는 비율은 94.2%, 사고발생 운전자 집단을 사고발생 운전자 집단으로 분류하는 비율은 79.1% 로 나타났으며, 전반적인 분류 정확도는 89.1%로 나 타났다. 최적 분류모형 개발을 위하여 통계적으로 유의하지 않은 변수를 제거하고 영향력이 가장 적 은 변수부터 모형에서 제거해 가면서 개발된 모형 의 분류정확도 변화량을 분석하는 한편, 동일한 방 법으로 다중공선성 의심변수를 변경하여 분류모형 을 개발하였다.
변수의 영향력과 통계적 유의성을 모두 고려한 결과, Y, XY, XdYr 및 XdYl 4개 변수를 모형개발 에 투입한 경우 사고 미발생 운전자 94.2%, 사고발 생 운전자 74.4%의 분류율을 나타내었으며, 사고발 생 운전자의 분류율에 대한 정확도가 가장 높은 경 우는 XdYr 단독변수를 모형개발에 투입하는 경우 에 76.7%의 분류율을 나타내었다.
다중공선성 의심변수 XdYr 및 통계적으로 유의 하지 않은 설명변수를 제거한 경우에는, Vy, Y, XdYl 3개 유의변수가 적용된 모형에서 전체 분류 정확도가 87.6%로 가장 높게 나타났으며, 사고발생 운전자 분류 정확도 또한 69.8%로 가장 높게 나타 났다. 다중공선성 의심변수 XdYl 및 통계적으로 유 의하지 않은 설명변수를 제거한 경우에는 XdYr 단 독변수를 모형개발에 적용한 경우, 사고 미발생 운 전자 및 사고발생 운전자에 대한 분류정확도는 각 각 91.9%, 76.7%로 변수의 통계적 유의성을 고려할 경우 가장 높은 결과가 도출되었다. <Table 11>
분석방법에 따른 사고발생 운전자 분류정확도를 비교해 보면, 변수의 통계적 유의성 및 모형내 영향 력을 고려시 판별분석에 의하여 최대 62.8%, 로지 스틱회귀분석에 의하여 최대 76.7%의 분류 정확도 를 나타내었다. 모형의 적합도와 관련한 Pseudo R2 값은 Hosmer&Lemeshow 검정결과 p<0.05인 경우를 제외하고 모든 경우에서 Cox&Snell 0.419~0.509, Nagelkerke 0.582~0.707, McFadden 0.427~0.558로 나 타나 모형의 설명력은 양호한 것으로 판단된다.
모형개발 결과를 정리하면 <Table 12>와 같다.
3)모형개발 타당성 검증
모형개발은 1일 전체 운행시간 중 임의 1시간에 대한 자료를 바탕으로 하였기 때문에 전체 운행시 간대에 대한 검증, 즉 임의 추출된 다른 시간대에 적용하여 모형의 적중률 및 예측 분류된 집단에 대 한 통계적 검증을 수행하였다. 모형에 대한 타당성 검증은 개발된 모형 중 사고발생 운전자의 분류 정 확도가 가장 높은 모형을 대상으로 하였으며, <Table 12>의 결과에서 나타난 XdYr 단독 변수에 의한 분류모형을 대상으로 하였다. 무작위로 임의 시간대(t2)를 추출하고 추출된 시간대에 모형을 적 용하여 적중률을 산출한 결과 사고 미발생 운전자 의 경우 90.7%, 사고 발생 운전자의 경우 76.7%의 적중률을 보였다. 또한, 예측 분류된 집단의 시간대 별 동질성에 대한 통계적 검증에서는 t-검정 결과 신뢰수준 95%(a=0.05)에서 시간대별로 차이는 유의 하지 않은 것으로 분석되었다. <Table 13-14>
3모형검증
개발된 모형의 검증을 위하여 시내버스 운전자 운행기록자료 중 모형개발에 사용하지 않은 126명 의 자료를 활용하였다. 검증자료에 모형을 적용하 여 임의시간대에서 사고 발생운전자 및 사고 미발 생 운전자 집단의 분류 정확도를 분석하고, 임의 시 간대 적용을 통하여 개발된 모형의 타당성 및 통계 적 유의성을 검증하였다.
검증자료에 개발된 모형을 적용한 결과, 적중률 (Ⅲ)의 경우 사고 미발생 운전자의 분류 정확도는 기존 91.9%에서 검증결과 82.5%로, 적중률(Ⅳ)의 경 우 85.7%로 각각 낮아진 반면 사고발생 운전자의 분류 정확도는 검증결과 84.1%로 기존 76.7% 보다 높은 것으로 나타나 개발된 모형은 타당성을 가진 다고 할 수 있다. <Table 15, 16, 17>
한편, 예측 분류된 집단의 시간대별 동질성에 대한 통계적 검증에서는 t-검정 결과 신뢰수준 95%(a=0.05) 에서 시간대별로 차이는 유의하지 않은 것으로 나타 났으며, 개발된 모형을 적용하였을 때 시간대별로 동 일한 결과를 도출해 준다고 할 수 있다.
Ⅴ결론 및 향후 연구과제
1결론
본 연구는 시내버스 운전자의 실제 운행기록 자 료를 바탕으로 사고발생 운전자와 사고미발생 운전 자를 분류할 수 있는 모형을 개발하는데 목적을 두 었다. 본 연구를 위하여 2014년 1월~6월 중 사고발 생 운전자 106명, 사고 미발생 운전자 149명 등 총 255명의 운행기록 자료를 수집·분석 하였으며, 판별 분석(Discriminant Analysis) 및 로지스틱회귀분석 (Logistic Regression Analysis)을 적용하여 운전자 사 고발생 예측모형을 개발, 모형간 정확도를 비교하 였다.
사고발생 유의변수 추출을 위해 임의 시간대별 로 사고발생 운전자 집단 및 사고 미발생 운전자 집단의 운전행동 특성을 비교분석한 결과, 횡방향 가속도 등 6개 가속도 요인이 신뢰수준 95% 이상 에서 그룹간 차이가 유의한 것으로 분석되었으며, 동 과정의 반복수행을 통하여 유의변수 선정의 타 당성을 검증하였다. 이 결과를 토대로 횡방향 가속 도 등 6개 가속도 변수를 사고발생 예측모형 개발 을 위한 유의변수로 설정하였으며, 모형내 유의변 수의 통계적 유의성 확보 및 모형에 대한 영향력이 낮은 변수의 순차적 제거를 통하여 사고운전자 분 류 모형을 개발하고 개발된 각 모형의 분류정확도 를 비교하였다.
모형개발 결과 총 30개의 모형이 개발되었으며, 이중 판별분석(Discriminant Analysis)에 의한 예측모 형은 최대 62.8%의 비율로 사고발생 운전자 분류가 가능하였으며, 로지스틱회귀분석(Logistic Regression Analysis)에 의한 예측모형은 최대 76.7%의 비율로 사고발생 운전자 분류가 가능한 것으로 나타났다.
분석결과, 전반적으로 판별분석(Discriminant Analysis) 보다는 로지스틱회귀분석(Logistic Regression Analysis)을 적용 하였을때 사고발생 운전자의 분류 율이 더 높게 나타났으며, 시내버스의 경우 6개 가 속도 요인 중 진행방향에 대한 감속도(Xd) 및 우측 방향 가속도(Yr)가 동시에 작용할 때 이 변수가 사 고발생 운전자를 가장 잘 분류해 줄 수 있는 것으로 나타났다.
개발된 모형에 대한 타당성 검증을 위하여 임의 추출된 다른 시간대에 모형을 적용한 결과 76.7%의 적중률을 나타내었으며, 예측 분류된 집단에 대한 동질성 검정 결과에서는 신뢰수준 95%에서 집단간 차이는 통계적으로 유의하지 않은 것으로 나타나 개발모형의 타당성을 확보하였다. 또한, 개발된 모 형의 추가 검증을 위하여 모형개발에 사용하지 않 은 3월~6월 126명의 자료를 통하여 모형의 적합도 를 분석한 결과, 사고발생 운전자 분류율은 기존 76.7% 보다 높은 84.1%의 적중률을 보이는 것으로 나타났으며, 예측 분류된 집단에 대한 시간대별 동 질성 검정 결과 신뢰수준 95%에서 두 집단의 차이 는 통계적으로 유의하지 않은 것으로 나타났다.
연구결과를 종합하면, 운전자의 운행기록 자료에 서 수집되는 항목 중 진행방향에 대한 감속도(Xd) 및 우측방향 가속도(Yr)의 합성가속도 변수가 사고 발생 운전자를 가장 잘 분류해 주는 것으로 나타났 으며, 이는 향후 시내버스 운전자의 사고유발 가능 성을 사전에 판단해 볼 수 있는 좋은 도구로 활용 될 수 있을 것이다.
본 연구는 운전자의 실제 운행정보를 토대로 사 고발생 가능성을 판단할 수 있는 방법론을 제시한 데 의의가 있다. 특히, 시내버스 사고의 높은 비중 을 차지하고 있는 차내 안전사고의 감소를 위해 운 전자 운전습관 교정의 전략적 근거를 제시하고, 급 감속 및 급우회전 등의 운전행동 감소를 위한 운전 자별 맞춤형 안전교육 시행의 이론적 틀을 마련하 는 한편, 향후 신규 운전자 채용시 운행기록 분석을 통한 운전자 선별의 근거로 활용할 수 있을 것으로 기대된다.
2향후 연구과제
본 연구는 개인별 운행기록자료 수집의 한계로 개인별 운전행동을 정의하지 못하고 집단특성에 대 해서만 비교되었으며, 운전자의 운전행동에 영향을 미칠 수 있는 도로 운행구간, 운행노선의 특성 등 외 부요인에 대한 특성을 반영하지 못한 한계가 있다.
이에 개별 운전자의 운전행동에 대한 세부적인 규명을 통해 운전행동을 유형화하고, 노선별 운행 특성 및 구간별 기하구조 등 구체적인 도로여건을 수집하기 위해 교통사고 발쟁지점의 좌표를 이용하 여 전자지도와 연계한 실증적인 연구와 자료구축을 통해 세부 모형을 추가로 개발할 필요가 있다. 또 한, 본 연구에서는 운행기록 정보를 통하여 사고발 생에 관계된 요인 규명에 관점을 두었으나, 과속, 급가속, 급출발 및 급감속 등 개별 위험운전행동과 교통사고와의 관계를 규명하는 연구 또한 본 연구 의 연장선상에서 추가로 진행되어야 할 필요가 있 다고 판단된다.