Ⅰ. 서 론
고속도로에서 발생하는 교통사고는 도로의 기하구조 및 교통, 운전자 특성 등 다양한 요인의 영향을 받으 며 사고와 영향 요인간의 관계를 통계적으로 추정하기 위한 연구가 국내외에서 다양하게 수행되고 있다. 그 중 미국 도로안전편람(Highway safety manual, HSM)에서 제시하는 안전성능함수(Safety performance function, SPF)는 통계적으로 사고건수와 요인간 관계를 추정할 수 있는 교통사고예측 모형으로 국내외에서 활발하게 사용되고 있다. 일반적인 안전성능함수는 교통량 및 구간 길이 변수를 노출계수(exposure)로 사용하여 모형을 구축하며 교통량은 평균일교통량(Average daily traffic, ADT), 연평균일교통량(Annual average daily traffic, AADT)과 같이 구간에 대해 평균적으로 정량화된 값을 활용한다. 그러나 교통량과 같은 교통 특성 변수의 경우 실시간으로 변화하는 성질을 가지기 때문에 AADT와 같은 거시적인 수준으로 정량화될 경우 세부적인 시간적 변화 양상을 모형에 반영할 수 없다는 한계점이 존재하게 된다. SPF는 AADT가 동일하게 집계될 경 우 첨두시간(peak-time) 교통량의 변동 폭이 큰 구간과 교통량의 변동이 크지 않은 구간의 사고 예측 건수가 동일 수준으로 산출되며 이는 예측 결과가 과소, 과대 추정되는 오류로 이어질 수 있다. 따라서 시간대별 교 통 특성의 변화를 사고예측 모형에 반영하기 위해 AADT와 같이 거시적인 수준보다 세부적인 집계단위를 사용하여 구간의 특성을 반영하고 SPF에 적용하는 방법론을 연구할 필요성이 있다.
이에 본 연구는 세부 집계단위별 교통 특성을 새롭게 정량화하여 국내 고속도로 본선구간의 SPF를 개발 하고 모형의 성능을 비교하는 것을 목적으로 한다. SPF의 독립변수는 분석 구간의 차량검지기(Vehicle detection system, VDS) 자료, 도로 기하구조 자료, 교통사고 자료를 사용하여 구성되며 세부 집계단위별 정량 화된 수치를 통해 교통 특성을 효과적으로 반영한 안전성능함수를 개발한다. 또한 기존 AADT기반의 SPF와 세부 집계단위 SPF를 개별적으로 구축함으로써 각 모형간 유의 변수를 비교하고 예측성능 평가를 통해 세부 집계단위 SPF의 활용 가능성을 제시하고자 한다.
Ⅱ. 선행연구 검토
본 연구의 목적은 고속도로 교통사고에 영향을 미치는 요인을 세부 집계단위로 정량화하고 동적인 교통 특성이 반영된 단위별 안전성능함수를 개발하는 것에 있다. 따라서 안전성능함수 및 사고 예측 모형 시 변수 로 사용되는 영향요인과 교통사고 안전 분석 모형 구축에 관련하여 선행연구 고찰을 진행하였다.
1. 교통사고 영향요인
기존 연구들은 고속도로 교통사고에 영향을 주는 주요 인자를 크게 도로 기하구조 요인, 교통 환경요인, 운전자 및 차량요인으로 구분하였다. 전통적인 교통사고 예측 모형에는 일반적으로 AADT, 도로 기하구조와 같은 변수들이 활용되었으며 연구 목적에 따라 추가적인 변수를 활용하여 모형의 예측력을 향상시켰다.
1) 도로 기하구조 요인
안전성능함수를 통한 고속도로 사고 예측을 위해 다양한 연구에서 도로 유형 및 기하구조와 관련한 변수 를 활용하였다. 대다수의 연구에서 기본적으로 구간 길이, 차로수와 같은 노출변수(exposure)를 사용하였으며 연구 특성에 따라 IC(interchange), JCT(juction), TG(tollgate), 유출입 지점 등 구간별 유형 구분과 종단경사값, 종단경사 개수, 평면곡선반경, 굴곡도 등의 도로 선형구조를 선택적으로 사용하였다. 또한 도로 기하구조 및 설계구조와 관련한 변수는 길어깨 폭, 중앙분리대 너비, 차로폭 등으로 구분되며 다양한 분석 목적에 맞는 변수를 선정하였다(Baek et al., 2005;Park and Abdel-Aty, 2017;Hou et al., 2018;Choi et al., 2018).
2) 교통 환경요인
다양한 연구에서 분석 구간 및 시간 범위 내 교통 특성을 집계하여 교통사고 발생 예측을 위해 사용하였 다(Baek et al., 2005;Mun et al., 2012;Park et al., 2007;Abdel-Aty and Radwan, 2000;Choi et al., 2018). 가장 일반적인 사례는 미국 도로안전편람(Highway Safety Manual)에서 제시하는 안전성능함수(SPF)로 사고예측건 수를 추정하는데 있어 기본 조건에 따른 평균적인 사고의 경향을 모사하는데 효과적인 방법에 해당된다. 대 부분의 SPF는 노출변수로 ADT 및 AADT와 같은 교통량 변수가 주로 사용되며 일반적으로 교통량이 증가할 수록 사고건수가 비례하는 양(+)의 상관관계를 보였다.
기존 ADT, AADT와 같이 거시적인 수준에서 집계된 교통량을 기반으로 사고예측을 수행할 경우 평균적 인 도로 구간의 특성을 나타낼 수 있지만 피크 시간대와 같이 교통 특성(교통량, 속도 등)과 사고의 시간적 변화를 반영하기 어렵다는 한계가 제시되었다. 이에 시간대별 교통 특성을 나타내기 위해 1시간 교통량 (Average Hourly Traffic, AHT)과 같이 세부적인 집계단위를 사용한 SPF 개발을 위한 연구 시도가 국외에서 지속적으로 이루어졌으며 기존 거시적인 모형과 비교하였을 때 세부 집계단위별 사고 건수를 예측하는데 유 사하거나 더 나은 성능을 낼 수 있다는 결과를 제시하였다(Wang et al., 2018;Martin, 2002;Mensah and Hauer, 1998;Al Amili, 2018;Yuan et al., 2021). 해당 연구들에서 추가적으로 사용한 변수로 평균 속도, 속도 편차, 중차량 비율, 제한속도 대비 속도 편차 등이 있으며 구간별 세부적인 교통 특성을 대표하고 사고 빈도를 예 측하는데 사용되었다.
2. 안전성능함수
안전성능함수는 사고빈도와 교통량 및 도로 기하구조 매개 변수와의 상관관계를 설명하는 사고빈도 예측 모형으로 포아송 회귀모형(Poisson regression model) 및 음이항 회귀모형(Negative binomial regression model)이 주로 사용된다(Washington, 2020;Farid et al., 2019). SPF의 종류는 크게 full SPF와 simple SPF가 있으며 simple SPF는 연평균일교통량(AADT)과 같은 교통 특성 변수만을 사용하며 식(1)과 같은 구조를 가진다.
Full SPF는 도로 특성과 교통 특성을 모두 고려하여 교통사고 빈도를 추정하며 full SPF의 일반적인 구조 는 식(2)와 같다(AASHTO, 2010).
전통적인 형태의 교통사고 건수 예측모형은 포아송 회귀모형과 음이항 회귀모형이 주로 사용되었다. 교통 사고 건수 데이터와 같이 종속변수가 이산적인 경우 포아송 회귀모형이 보편적으로 사용된다. 그러나 포아 송 분포는 사고건수의 평균과 분산이 같다는 가정이 필요하며 이를 만족하지 못할 경우 과분산(Over dispersion) 문제가 발생한다. 이 경우 음이항 회귀모형을 사용하여 감마 분포를 따르는 오차항(ϵi ) 추가를 통 해 사고자료의 과분산 현상을 해결한다. 음이항 회귀모형은 저분산 자료를 설명할 때 비효율적이며 표본 크 기와 개수가 적은 모델링 시 부적절한 과분산 파라미터가 생성될 수 있다는 단점이 있다. 음이항 회귀모형 기반 해당 구간(i)의 SPF 형태는 다음 식(3)과 같다(Son et al., 2019;Moraldi et al., 2020).
3. 연구의 차별성
국내외 선행연구 검토 결과 도로 구간의 사고예측을 위한 다양한 연구가 수행되었으나 국내 고속도로 구 간에 맞는 시간대별 교통 특성을 반영하고 사고예측모형에 활용하는 연구는 체계적으로 이루어지지 않았다. 따라서 본 연구에서는 국내 고속도로 구간을 대상으로 기존 안전성능함수와 세부 집계단위(1시간) 안전성능 함수를 구성하고 유의 변수 및 예측 성능의 정량적 비교를 통해 세부 집계단위 모형의 활용 가능성을 분석 하고자 한다.
Ⅲ. 연구 방법론
1. 데이터 수집 범위
본 연구를 위해 교통사고 데이터(사고 건수, 이정), VDS 데이터(속도, 교통량), 도로 기하구조 데이터(길이, 기하구조)를 수집하여 활용하였으며 각 자료의 수집 범위는 <Table 1>과 같다. 분석 대상 구간은 서울외곽순 환선(일산IC~판교IC), 경부선(양재IC~수원신갈IC), 중부선(하남JC~남이천IC)으로 IC~IC 단위 기준 총 68개 구 간으로 해당 구간 내 교통사고 자료, VDS 자료를 활용하여 기하구조, 교통 특성 변수를 집계하였다. 교통사 고 자료는 한국도로공사 교통사고 자료를 사용하였으며 2013~2019년(7개년) 범위 내 발생한 사고를 추출하 여 분석에 활용하였다. 또한 세부 집계단위별 지점 교통량 및 속도를 도출하기 위해 2018년에 수집된 5분단 위 VDS 자료를 사용하였으며 각 모형의 집계 시간단위(일, 1시간)별 변수를 합산하고 1년(365일) 자료를 평 균하여 구간의 교통 특성을 나타낼 수 있도록 변수를 구성하였다. 도로 기하구조 자료는 2019년 12월 자료를 활용하였으며 각 도로 구간의 길이 및 기하구조(차로수 등)를 집계하여 분석에 활용하였다. 교통사고 자료와 VDS자료 및 고속도로 위상관계 매칭을 통한 구간별 추출을 위해 국가표준노드링크 고속도로 자료 및 GIS 분석 툴을 제공하는 QGIS 프로그램을 사용하였다.
2. 분석 시간 단위별 예측 모형 구축
안전성능함수의 분석 집계단위를 설정하기 위해 수집된 자료의 최소 집계단위 시간 및 단위별 평균 사고 건수에 대한 기초통계 조사를 수행하였다. 사고 건수 데이터의 경우 사고 발생시간의 집계단위는 1분, VDS 데이터는 5분 단위에 해당되어 분석 데이터의 최소 집계단위는 5분으로 구성하였다. 68개 분석 대상구간에 서 7년간(2013~2019년) 발생한 사고건수기준 집계단위 및 구간별 연평균 사고건수를 추출한 결과 연평균 17.3235건, 1시간 기준 0.6529건, 5분 기준 0.00003건으로 나타났다(<Table 2>).
본 논문에서는 연평균 일 단위(연 단위), 1시간 단위 동적 교통특성을 사용한 안전성능함수 도출을 위해 주로 사용되는 포아송 분포(Poisson regression) 및 음이항 분포(Negative bionomial regression, NB)를 기반으로 사고빈도와 교통, 기하구조 특성 변수와의 상관관계를 추정하였다. 모형의 종속변수는 집계 시간단위별 사고 건수(y)이며 연 단위(AADT-based) SPF의 경우 68개(68구간), 1시간 단위(AAHT-based) SPF의 경우 1,632개 (68×24h)의 관측 데이터로 구성되었다.
모형식 추정 시 모형 내 남아있는 모든 변수가 유의성을 가진다고 판단될 때까지 반복 검증을 수행하는 방식을 사용하였으며 상대적으로 값이 큰 교통량 등의 변수에 자연로그 함수를 적용하여 모형의 유의성을 높였다(Abdel-Aty Radwan, 2000;Wang et al., 2018).
3. 모형 비교 및 평가
연 단위 및 1시간 단위 안전성능함수는 포아송 및 음이항 회귀모형을 기반으로 각각 추정되었으며 각 모형의 goodness of fit을 평가하기 위하여 Akaike’s Information Criterion(AIC), Bayesian Information Criterion(BIC)값을 사용하였다. 모형별 AIC, BIC 값을 비교하여 한 모형이 다른 모형에 비해 상대적으로 작을 경우 최적 모형 으로 선정하였으며 분석 변수의 개수(K) 및 데이터 개수(n)에 따른 각각의 산출식은 식(4), (5)와 같다.
집계단위별 도출된 모형간 사고건수 예측 성능 비교 시 연 단위, 1시간 단위로 개발된 모형간 상호 예측 성능 비교를 위해 테스트 데이터를 구성하여 그 결과를 비교하였다. 테스트 데이터는 분석자료 수집의 한계 에 따라 분석 자료 내 30%의 비율로 무작위 추출을 통해 구성하는 방법을 사용하였다. 또한 모형별 테스트 데이터 추출 및 예측 정확성 도출까지의 과정을 10회 반복하여 평균적인 예측 성능을 도출하고 결과의 편향 을 제거했다. 모형의 성능은 식(6)의 평균 절대 편차(Mean absolute deviation, MAD)값을 통해 표현되었으며 결과가 작은 값을 보일수록 정확도가 높다고 판단하였다(Wang et al., 2018).
Ⅳ. 연구 결과
1. 분석 자료 구축 결과
분석에 사용된 도로 기하구조 특성 변수는 구간 길이, 차로수, 평면곡선 수, 평면곡선 반경 평균, 종단경사 수, 종단경사 평균 등의 정적 데이터로 구성되어 있으며 교통 특성 변수는 집계 단위별 교통량 및 속도, 속 도 표준편차, 화물차 비율의 동적 데이터로 구성되어 있다. 각 동적, 정적 변수의 기초통계 결과는 <Table 3>, <Table 4>에 제시되었다. 분석 구간에서 수집된 데이터 기초통계 결과에 따르면 구간별 평균 AADT는 약 58,157(대/일), AAHT는 약 2,423(대/일)로 집계되었으며 표준편차는 AADT 23,826.02(대/일), AAHT 1,641.96 (대/일)으로 평균 대비 AAHT의 표준편차가 상대적으로 크게 도출되어 분석 데이터 내 더 다양한 교통 변화 를 반영하는 것으로 나타났다. 교통량 수집 결과와 유사하게 중차량 비율, 속도, 속도 표준편차의 수집 결과 세부 집계단위 데이터의 표준편차가 연 단위 보다 크게 도출되어 분석 데이터 내 상대적으로 다양한 시간적 변동을 반영하는 것으로 나타났다.
2. 연 단위(AADT-based) 모형
연 단위 모형에 최종적으로 사용된 변수는 <Table 5>와 같다. 포아송 분포기반 모형 구축 결과 AIC, BIC 값이 각각 1165.37, 1169.81으로 도출되어 음이항 회귀모형보다 설명력이 낮은 것으로 나타났다. 따라서 연 단위 모형에서는 음이항 분포를 사용하였으며 최종 모형은 구간별 총 사고건수를 종속변수, ln(AADT)를 독 립변수로 사용하고 ln(구간 길이)를 오프셋(Offset) 변수로 적용한 단순 SPF의 형태로 도출되었다. 구간길이를 오프셋 변수로 설정한 경우 구간 길이당 사고건수를 종속변수로 사용한 것과 동일한 의미를 가지게 된다. 연 단위 모형 검토 결과 유의 변수인 교통량(ln(AADT))의 계수가 0.3991로 양(+)의 값을 가져 교통량이 증가할 수록 사고발생 건수가 비례하는 합리적인 결과를 보였다.
3. 1시간 단위(AAHT-based) 모형
1시간 단위 모형은 시간별 발생한 사고건수를 종속변수로 하고 차로수, 평면곡선 반경, 종단경사 수, 종단 경사 평균, 최대 제한속도, ln(AAHT), 속도편차를 독립변수로 사용하였다(<Table 5>). 1시간 단위 모형 추정 시 포아송 분포기반 모형의 AIC, BIC 값이 각각 8986.78, 9035.22로 도출되어 음이항 분포 모형의 AIC, BIC 값보다 크게 도출됨에 따라 최종적으로 음이항 분포를 사용하여 1시간 단위 SPF를 적합시켰다. 최적 모형 도출 결과에 따르면 차로수, 종단경사 수, 최대 제한속도, 교통량, 속도편차의 계수가 양(+)의 값을 가져 해당 변수의 값이 증가할수록 사고 건수가 증가하는 것으로 도출되었다. 반대로 평면곡선 반경(Radius) 및 종단경 사(Slope mean)의 계수는 음(-)의 값을 가져 평면곡선 반경이 증가하여 도로 곡선형태가 완만해지거나, 종단 경사가 증가하여 오르막 경사 형태를 이루는 경우 사고가 감소하는 결과를 보였다.
4. 모형 비교 및 평가
분석을 통해 도출된 1시간 단위(AHT-based), 연평균 일 단위(연 단위, AADT-based) 모형 및 평가 데이터별 MAD 산출 결과는 <Table 6>와 같다. 연 단위 평가 데이터에서 1시간 단위 모형의 MAD는 12.33으로 해당 모형의 MAD(9.12)보다 약 35.20% 높게 도출되었으며 이는 기존 연 단위 모형이 거시적인 관점에서 예측 성 능이 상대적으로 높게 도출되었음을 나타낸다. 반면 1시간 단위 평가 데이터에서 연 단위 모형의 MAD가 5.11으로 1시간 단위 모형의 MAD(2.69)보다 약 89.96% 높은 결과를 보여 1시간 단위 사고예측 시 1시간 단 위 모형의 성능이 연 단위 모형보다 높게 도출되는 양상을 보였다. 이는 연 단위 사고모형에 비해 1시간 단 위 모형이 같은 집계단위 평가 데이터에서 비교적 높은 성능을 보여 사고예측 시 모형의 활용 가능성을 확 인할 수 있다. 또한 집계시간이 다른 연 단위 평가 데이터에서 1시간 단위 모형의 MAD 증가폭이 35.20%로 연 단위 모형의 89.96%보다 적게 도출되는 결과를 보였으며 연 단위 모형을 활용할 수 없을 경우 1시간 단 위 모형의 대체 가능성을 확인할 수 있었다.
Ⅴ. 결 론
본 연구에서는 기존 연 단위로 집계되던 안전성능함수 내 지표를 세부 집계단위로 나타내어 보다 효과적 인 동적 교통특성을 고려한 안전성능함수를 개발하고 사고예측성능을 비교하였다. 안전성능함수는 연 단위, 1시간 단위별 교통량, 속도 등의 동적 교통특성 변수와 도로 기하구조와 같은 정적 변수를 사용하여 교통류 의 동적인 특성을 보다 효과적으로 반영하고자 하였다. 연 단위 및 1시간 단위 모형 추정 결과 공통적으로 교통량 관련 변수가 유의하게 도출되었으며 연 단위 모형은 구간길이와 교통량 변수로 구성된 Simple SPF 형태, 1시간 단위 모형은 도로 기하구조 관련 변수 등이 포함된 Full SPF 형태를 보였다. 도출된 모형을 대상 으로 사고건수 예측 정확도를 평가한 결과 1시간 단위 모형의 MAD가 1시간 단위 평가 데이터에서 높게 도 출되었으며 연 단위 평가 데이터에서도 MAD 증가폭이 연 단위 모형에 비해 낮게 도출되었다. 이는 다양한 교통 특성변수가 고려된 세부 집계단위 SPF인 1시간 단위 모형이 사고예측모형으로 충분한 성능을 보이는 것을 확인할 수 있다. 또한 1시간 단위 모형을 연 단위 평가 데이터에 적용했을 경우에도 예측 정확도가 상 대적으로 높게 유지되어 다른 시간단위 자료에 대한 전이성(transferability)도 충분히 확보할 수 있을 것으로 판단되며 데이터의 특성상 연 단위 모형의 정확도가 떨어지거나, 활용할 수 없을 경우 1시간 단위 모형의 대 체 가능성을 나타내고 있다. 본 논문에서 제시한 1시간 단위 안전성능함수 및 분석 방법론은 향후 동적 특성 을 고려한 도로 사고 위험요인 판단에 활용될 수 있으며 분석 결과에 제시된 1시간 단위 모형 성능 평가결 과를 토대로 교통 특성 및 사고예측 모형에 적정한 시간단위를 선정하는 근거자료로 사용될 수 있을 것으로 기대된다.
본 논문은 세부적인 집계단위별 데이터 수집을 위해 VDS 원시 데이터를 2018년(1년) 활용 가능한 공간적, 시간적 분석 범위의 제약에 따라 수집된 데이터 표본 수가 적게 구성되었으며 평가를 위한 별개의 자료를 수집하지 못하였다는 한계가 있다. 따라서 보다 많은 기간 및 공간범위의 데이터를 이용한다면 모형의 도로 구간에 따른 대표성을 확보하고 보다 신뢰성 있는 성능 평가를 수행할 수 있을 것이라 판단된다. 또한 교통 량과 같은 통행 패턴은 계절, 요일과 같이 시계열적 변화에 따라 영향을 받기 때문에 주중, 주말과 같이 통 행 패턴에 따른 구분이 있을 경우 보다 모형의 설명력이 보다 향상될 수 있을 것이다. 따라서 세부 집계단위 수준의 다양성 확보, 특성 변수 추가 및 분석 구간 추가를 통해 합리적인 분석 자료를 구축함으로써 보다 효 과적인 사고예측모형을 추정하는 연구가 이루어져야할 것이다.