Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.18 No.4 pp.44-57
DOI : https://doi.org/10.12815/kits.2019.18.4.44

Prediction of Traffic Congestion in Seoul by Deep Neural Network

Dong Hyun Kim^*, Kee Yeon Hwang^**, Young Yoon^***

^*Department of Computer Engineering, University of Hongik
^**Department of Urban Engineering., University of Hongik
^***Corresponding author: Assistant Professor, Dept. of Computer Engineering, Hongik University

Corresponding author : Young Yoon, young.yoon@hongik.ac.kr

Received 2019-06-07 │ Revised 2019-06-27 │ Accepted 2019-07-06

Abstract

Various studies have been conducted to solve traffic congestions in many metropolitan cities through accurate traffic flow prediction. Most studies are based on the assumption that past traffic patterns repeat in the future. Models based on such an assumption fall short in case irregular traffic patterns abruptly occur. Instead, the approaches such as predicting traffic pattern through big data analytics and artificial intelligence have emerged. Specifically, deep learning algorithms such as RNN have been prevalent for tackling the problems of predicting temporal traffic flow as a time series. However, these algorithms do not perform well in terms of long-term prediction. In this paper, we take into account various external factors that may affect the traffic flows. We model the correlation between the multi-dimensional context information with temporal traffic speed pattern using deep neural networks. Our model trained with the traffic data from TOPIS system by Seoul, Korea can predict traffic speed on a specific date with the accuracy reaching nearly 90%. We expect that the accuracy can be improved further by taking into account additional factors such as accidents and constructions for the prediction.

Key Words : Deep Neural Networks , Machine Learning , Prediction of Traffic Congestion , Big Data Analysis , Multi-lateral Context Awareness

심층인공신경망(DNN)과 다각도 상황 정보 기반의 서울시 도로 링크별 교통 혼잡도 예측

김 동 현^*, 황 기 연^**, 윤 영^***

^*주저자 : 홍익대학교 컴퓨터공학과 학사과정
^**공저자 : 홍익대학교 도시공학과 교수
^***교신저자 : 홍익대학교 컴퓨터공학과 조교수

초록

여러 대도시에서 교통 혼잡 문제를 해결하기 위해 정확한 교통 흐름을 예측하는 다양한 연 구가 진행되었다. 대부분의 연구가 과거의 교통 흐름 패턴이 미래에도 반복될 것이라는 가정 하에 예측 모델을 개발하였으나 교통사고 등과 같은 뜻하지 않은 비반복적 교통 패턴을 예측 하는 데에는 신뢰성이 낮게 나타났다. 이런 문제를 해결하기 위한 대안으로 지능형 교통 시스 템(ITS)을 통해 얻은 빅데이터와 인공지능을 접목한 교통 흐름 예측 연구가 진행되어 왔다. 하 지만 시계열 분석에 일반적으로 사용되는 알고리즘인 RNN의 경우, 단기 예측에 최적화되어 장기 예측 정확도가 낮다는 단점을 가지고 있다. 이런 문제를 해결하기 위해 본 논문에서는 기온과 강수량 등의 기상 정보 외에도 각종 외부 요인들을 고려하여 장기적 시점에서 교통 혼 잡도를 예측하는 ‘심층 인공 신경망 모델’을 제안하였다. TOPIS 자료를 이용한 사례 연구 결과 서울시 주요 도로 링크의 교통 혼잡도를 90%에 가까운 정확도로 예측이 가능하였다. 추후 교 통사고나 도로 공사와 같은 도로에 영향을 미치는 이벤트 데이터를 추가로 확보할 수 있다면 정확도는 더욱 높아질 것으로 예상된다.

키워드 : 심층 인공 신경망 , 기계학습 , 도로 혼잡도 예측 , 빅데이터 , 상황인지

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

대한민국의 자동차 등록 대수는 1997년 1,000만대를 돌파한 이래 매년 꾸준한 증가 폭을 보이며 2018년에 는 2,302만대를 기록하며 20년 전 대비 차량 수가 2배 이상 증가했다 (MOLIT, 2019). 이런 차량의 증가와 소 득 증가로 인해 국토교통부의 ^｢도로 교통량 통계 연보_｣에 따르면 도로 건설 및 운영 정책 수립에 기초자료 로 활용되는 평균 일 교통량이 2017년 기준 14,921대/일로 1997년 기준 11,014대/일보다 약 35% 이상 증가하 였다 (MOLIT, 2019). 이에 비해 도로는 2007년 대비 약 6.53% 증가하는 데 그쳤다. 교통량과 자동차 등록 대 수의 추이를 고려한다면 교통체증은 더욱 심각해질 것이고, 교통혼잡비용도 상승할 것이다.

이 문제를 해결하기 위해 수년간 정확한 교통 흐름을 예측하기 위한 다양한 연구가 진행되었다. 그러나 과거의 교통 패턴이 미래에도 반복될 것이라는 가정 하에 개발된 모델들은 뜻밖의 비반복적 상황에 대한 고 려가 없기 때문에 예측 신뢰성이 낮다. 최근에는 숨겨진 교통량 패턴 분석에 있어 인공신경망 기반 기계학습 기술들을 활용한 연구 사례들이 등장하고 있다. 교통 흐름 예측 시 사용되는 대표적인 알고리즘으로 순환 신 경망 (Recurrent Neural Networks, 이하 RNN)과 순환 신경망의 일종인 장단기 메모리 (Long Short-Term Memory, 이하 LSTM) 등이 있다 (Jung, 2017). 그러나 이러한 기존 기법을 활용한 예측 모델은 특정 시간 (t)의 결과를 기반으로 다음 시간 (t+1) 상황을 예측하기 때문에 장기 예측 정확도가 단기 예측과 비교해 상대적으로 낮아 지는 단점이 있다.

본 연구에서는 시간적 요소만 한정적으로 고려하여 장기적 시점의 예측 정확도가 떨어지는 RNN 모델과 LSTM을 사용한 모델의 한계점을 극복하기 위해 기온, 날씨 등과 같은 도로 주변의 외부적 상황들을 고려해 교통 혼잡도를 예측하는 심층 인공 신경망 (Deep Neural Network, 이하 DNN) 모델을 제안한다. 실제로 2017 년 한국도로공사에서 발표한 보도 자료에 따르면, (2012년~2016년) 고속도로 교통량 데이터를 활용하여 기상 /계절과 고속도로 교통량의 상관관계를 분석한 결과 기온이 1°C 증가할 때마다 교통량은 1.4만 대씩 증가하 고, 강우량과 강설량이 10mm 증가할 때마다 교통량은 각 3.3만대와 7.7만 대씩 감소하는 것으로 나타났다 (Korea Expressway Corporation, 2018). 이런 도로의 외적 요인을 반영하는 본 논문의 DNN 모델은 각 링크의 출발점을 기준으로 기온과 강수량 등의 날씨 정보 외에도 휴일 여부, 주변 생활 유동 인구 등 다양한 외부 요인들을 반영하여 링크 별 교통 혼잡도 모델을 딥러닝 (Deep Learning) 기법으로 도출하고자 한다.

한편, 현재까지 진행된 서울시의 교통량이나 교통류를 예측하는 연구들은 일부 링크를 표본으로 삼아 예 측이 진행되었다 (Lee, 2016;Jung, 2017;Jeon, 2018). 이들 논문의 결과는 서울시의 모든 도로를 대상으로 한 것이 아니기 때문에 서울시의 교통 혼잡도를 완벽하게 분석했다고 하기에는 한계가 있을 수밖에 없었다. 최 근 뉴욕시에서 택시 수요, 교통 속도, 날씨, 사고, 응급 요청 등의 다양하게 생성되기 시작되는 도시 정보와 시공간 정보와의 상관관계를 유출해볼 수 있는 기술이 개발되었으나, 교통망에 대한 정밀한 교통 속도 정보를 연구한 것은 아니다 (Chirigati et al., 2016). 본 논문에서는 서울시 교통정보 시스템 (Seoul Transport Operation and Information Services, 이하 TOPIS)에서 제공하는 링크 별 자동차 통행 속도 정보를 기반으로 서울 전 도 로를 대상으로 통행 속도를 DNN 모델에 기반을 두어 정확하게 예측하여 최종적으로 대도시 교통망의 교통 혼잡비용을 절감과 교통량의 최적 분산을 위한 근거 자료로 활용하고자 한다.

본 논문의 구성은 다음과 같다. II 장에서는 기존의 교통량 예측을 위한 다양한 연구들에 대한 검토를 진 행한다. III 장에서는 최적화된 예측 모델을 도출하기 위한 학습 체계 및 결과를 설명하고, IV 장에서는 최적 모형을 기반으로 제공할 수 있는 서비스에 관해서 기술한다. 마지막으로 V 장에서는 요약과 결론을 내린다.

Ⅱ. 관련 연구 고찰

1990년대 이전에는 설문과 직접 조사를 통해 수집된 교통 데이터만을 분석하여 반복적 패턴에 의한 교통 문 제 해결책 도출을 중점적으로 연구하였지만, 그 이후부터는 지능형 교통체계의 도입으로 대규모 교통 데이터의 실시간 수집이 가능해지면서 각종 교통 상황에 대한 사용자들의 반응을 실시간으로 파악하는 것이 가능하게 되었다. 다양한 수집체계로부터 수집되는 통행 시간 정보를 효과적으로 통합하기 위해 데이터 융합 기술을 적 용하여 구간별 다주기 예측을 통해 현실을 더 잘 반영하였다고는 하지만 불규칙적이며 비반복적인 자료를 토 대로 한 장기적인 교통상황 예측은 신뢰성이 떨어진다는 단점을 가지고 있다 (Lee, 2004). 관련 연구에 따르면 과거 이력 데이터가 충분할 경우 타 모형 대비 K-근접 이웃 알고리즘(K-Nearest Neighbors, 이하 K-NN)의 정확 도가 우수하여, 단계별 잠재적 예측 오차에 대한 원인 분석을 통해 개선된 K–NN 모형을 만들어 예측한 결과 MAPE (Mean Absolute Percentage Error) 상으로 7.45 ~ 17.98%의 오차를 보였다 (Kim at el., 2016).

1989년 LeCun 등에 의해 소개된 DNN은 신경망 학습에 소요되는 시간이 무척 오래 걸린다는 단점으로 인해 알고리즘의 성공적인 동작에도 불구하고 빈번히 사용되지 않았다(LeCun et al., 1989). 그러나 컴퓨터 성능 향상과 알고리즘의 비약적인 발전으로 인해 인공 신경망이 다시금 주목을 받기 시작했다. 그러면서 교통 흐름 예측 문 제를 인공 신경망을 통해 해결하고자 하는 연구가 진행되고 있다. Lee(2016)는 서울시 강남구 영동대로의 상행 방향 도로 중에서 중요도가 높은 12개 링크를 대상으로 통합 링크를 상관 추정한 RNN 모델을 선보였다. 일부 예측에 대해서 한계점이 보이긴 하였으나 기존 방법인 칼만 필터, 나이브 예측, 개별 링크를 독립 추정한 RNN 모형과 비교해 개선된 %RMSE(Percent Root Mean Squared Error) 결과 20.14%를 도출했다. Jung(2016)은 15분 간 격의 1시간 이후 소통상황에 대해서 RNN 모형을 통해 33개의 링크로 구성된 서울시 강남구 논현로 중에서 25개 링크에 대해 통계적으로 유의성 높은 예측 결과를 얻었고, 비반복적 정체에 대해서도 예측 가능성을 보여주었다. 분석 결과 채택된 최적의 모형의 경우 MSE (Mean Squared Error) 상으로 0.008137의 오차를 보였다. (Jeon, 2018) 은 앞선 RNN을 이용한 연구들과는 다르게 합성곱 신경망 (Convolutional Neural Network, CNN)을 이용하여 시간 과 도시 전체적인 공간적 상관관계를 고려하는 모형을 개발하여 서울 강남구 중심부 도로의 244개 링크에 대 해 22개월 기간의 데이터를 적용하여 학습을 시켰다. 분석 결과 MAPE 6.9357%의 비교적 높은 통행 속도 예측 정확도를 보였다. (Ma et al., 2015) 에서는 GPS 데이터보다 정확도가 우수한 마이크로웨이브 센서를 통해 수집 된 시계열 교통 속도를 LSTM 기반으로 예측한 결과 2.88~4.52%의 오차를 보였다. (Tang et al., 2017)의 경우 역시 마이크로웨이브 센서 정보를 활용하였으며, 에러를 보정하며 모델링하는 순환신경망을 통해 높은 교통 속도 예측 정확도를 선보였다. 그러나 앞선 두 논문은 외부 인자를 전혀 반영하지 않았으며, 3개의 매우 한정 된 지점에 대해 검증을 하였기에, 전체 교통망에 대한 모델링이 미흡하다. (Zao et al., 2017) 은 단순 시계열 정보 외에 시작점과 도착점 정보를 반영하여 LSTM 기반의 속도를 예측하였으나, 이 역시 외부 인자에 대한 고려는 없다. (Koesdwiady et al., 2016) 에서는 샌프란시스코 지역 고속도로 루프 검지기 데이터를 활용하여 딥러닝을 통해 교통 속도를 예측하였다. 외부 인자들이 최종 결과물에 대한 해석에 사용은 되었으나, 외부 인 자들과 교통 속도에 대한 직접적인 상관관계가 모델링 된 것은 아니다. (Yao et al., 2018)의 경우 2차원 공간상 의 교통의 흐름을 이미지로 포착하고 이를 CNN과 LSTM이 결합한 형태의 신경망으로 모델링하였다. 기상과 같은 외부 인자도 반영하려는 등 통합적인 관점을 적용했다는 점에서 큰 의미가 있다.

기존 연구들을 분석한 결과 단편적인 시공간 정보에 의존하거나, 일부 도로에 검증을 국한한 경우가 많다. 도로망 전체에 대한 예측 연구는 상대적으로 미비한 상태이며, 이는 정확한 교통 수요 예측과 도로 설계에 있어서 충분하지 않은 것 판단된다. 따라서 본 연구는 특정 지점에 국한하지 않고, 서울시 도로망 전체를 모 델링하고자 한다. 또한, 기상 정보 등, 단일 외부 인자 외에, 교통사고, 폭우, 폭설 등 돌발 상황 및 유동 인 구, 주변 대중교통 이용량 등의 다각적 주변 상황 정보의 반영을 통해 교통 속도에 영향을 주는 숨은 인자들 의 발굴하고 예측 정확성을 최대한 개선하고자 한다.

Ⅲ. 학습체계 및 과정

1. 데이터 수집과 정제

본 연구에서는 TOPIS에서 제공하는 6,048개의 링크 <Fig. 1> 중에서 서울시에 속하며, Polyline 정보가 있 어 분석이 가능한 4,799개의 서비스 링크의 통행 속도 정보 데이터를 학습데이터로 활용한다. 여기서 ‘서비 스 링크’란 TOPIS에서 제공한 도로망을 교차로 기준으로 나눈 것을 말한다. TOPIS에서는 카드 택시 7만여 대가 보내오는 정보를 활용해 각 링크마다 5분 단위로 속도를 수집하였으며, 영상검지기, DSRC, 루프 검지 기 등 총 1,153대 지점 검지기에서도 속도 정보를 수집하였다. TOPIS에서는 2014년부터 5분 단위로 수집한 링크별 통행속도 데이터를 1시간 단위로 가공한 서울시 차량 통행속도 파일을 1개월 단위로 제공한다.

한편, 서울시의 도시고속도로 구간에만 차량 속도를 측정할 수 있는 검지기가 설치되어 있어서 일반도로 에서는 해당 시간대에 서울시 카드 택시가 지나가지 않는 경우 <Fig. 2>처럼 속도 데이터가 누락되는 경우가 존재한다. 또한 데이터 관리의 문제로 인해 <Fig. 3>과 같이 속도 데이터 일부가 일괄 복사되어 붙여진 것으 로 보이는 문제도 존재하였다. 본 연구에서는 1시간 간격으로 가공된 2015년 1월 1일부터 2017년 12월 31일 까지 3년간 데이터 중에서, <Fig. 2>와 <Fig. 3>과 같이 문제가 명확한 속도 정보들을 제외하고 이용하였다. 기존 연구들은 마이크로웨이브 센서 등의 고성능 센서를 이용한 비교적 정확한 속도를 활용하였다. 그러나, 다양한 기관에서 생성하는 주변 상황 정보들은 결측과 오차는 물론 참조의 과정에서 정합성의 문제가 발생 할 수 있다. 따라서, 이러한 소위 빅데이터를 처리 시 거치는 기본적인 정제 및 정규화 작업 외에 결측치, 오 차, 정합성 등의 문제를 효과적으로 처리하는 것에 대한 향후 연구 연구가 필요하다.

TOPIS에서 제공하는 서비스 단위 링크의 경우, 버스 같은 승용차가 아닌 다른 운송수단을 지원하기 위해 최적화된 링크로 재가공하였기 때문에 국토부에서 제공하는 표준 링크에 비해 많은 링크들이 누락되었고, 작은 단위의 여러 표준 링크를 큰 단위로 통합하여 하나의 서비스 링크로 제공한다. 이로 인해 각 구간을 예 측한 정보를 바탕으로 교통량을 분배하는 과정에 있어서 표준 링크보다 자세한 예측은 어렵지만, 데이터 결 손이 적고 서울시의 주요 도로들을 전부 제공하고 있어 주요 교통 상황에 대한 설명력이 높다. 최종적으로 TOPIS에서 총 1억 2천만 건의 데이터를 수집하였다.

학습 데이터로는 도로 교통상황에 영향을 줄 것으로 추정되는 요일, 시간, 공공 데이터 포털에서 제공하는 휴일 정보와 지하철역별 / 시간대별 승하차 인구, 기상 자료 개방 포털에서 제공하는 종관기상관측 데이터 중에 기온과 강수량 및 적설량 데이터를 사용하였다. 사용한 원본 데이터의 형식은 <Table 1>와 같다. 이와 같은 인자들은 시공간별로 다른 값을 가지며 도로의 위치, 특히 시작점과 연계가 가능하다는 점에서 선정하 였다. 기타 교통사고나 도로공사 등도 영향을 미칠 것으로 예상되지만 데이터 구득이 어려워 본 연구에서 고 려되지 않았다.

기상 정보는 서울특별시의 기상 정보를 제공하는 관악산 (116) 지점과 서울 (108) 지점 중 링크와 인접한 지점의 기상 데이터를 이용하였다 (KMS, 2019). 생활인구 데이터는 <Fig. 4>와 같이 QGIS 상에서 각 집계구 별 중심점을 추출하여 링크의 진입점 반경 500m 이내에 있는 집계구의 생활인구 평균을 사용하였다. 링크의 진입점 반경 1km 이내에 있는 모든 역을 인접 지하철역이라고 가정하였고, 모든 인접 지하철역의 시간대별 요금징수대를 통과한 승하차 인구를 합산하여 사용하였다 <Fig. 5>. 실험 데이터의 정답이 될 레이블 데이터 는 TOPIS에서 제공하는 시간대별 차량 속도 데이터를 함께 제공된 혼잡도 분류 기준 <Table 2>에 따라 범주 화하였다.

모든 정보를 가공하여 본 논문에서 사용될 DNN 모델의 인자로 사용하는 과정에 있어서, 기상 인자에 대 한 영향력을 파악하기 위해서는 최소한 6개월 이상의 데이터를 사용해야 인자의 영향력을 볼 수 있다고 가 정했다. 위에 언급된 데이터를 바탕으로 학습 데이터베이스를 구축하고, 4,000개 이상의 서비스 링크를 대상 으로 학습을 진행하였다.

2. 학습 과정

TOPIS에서 제공하는 교통예보(일일예보)(TOPIS, 2018)에 따르면, 요일별 시간대별로 통행 속도의 유의미 한 차이를 보인다. 따라서 모델을 생성하여 학습할 때 요일과 시간 정보가 통행 속도 예측에 있어서 중요한 인자라고 판단하여 모든 모델의 기본 인자로 사용하고 <Fig. 6>에서 보이는 입력 계층에 값을 입력하였다. 각 노드의 활성 함수로는 비선형적인 활성 함수를 사용할 시에 기울기가 사라지는 비정상 수렴 현상을 해결 하기 위하여 Sigmoid(Bridle, 1990) 대신 ReLU(Rectified Linear Unit)(Nair and Hinton, 2010) 를 선택하였다.

1) 실험 환경 및 모델 생성

이 장에서의 실험은 32–Cores(64 Threads), 32GB RAM, Tesla P100(16GB RAM), Linux 14.04.5 LTS 서버 [홍익대학교 아이디어누리 딥러닝 머신] 와 80-Cores(160 Threads) 512GB RAM, Tesla V100(32GB RAM) 8개, Ubuntu 16.04.5 LTS 서버 [Nvidia DGX-1]에서 이루어졌다.

Python Tensorflow 라이브러리와 Python Keras 라이브러리에 기반하여 역전파(Backpropagation) 알고리즘 (Rumelhart et al., 1986)과 Adam Optimizer(Kingma and Ba, 2014)를 활용하여 최적 예측 모델이 생성될 수 있 도록 하였다. 학습에 사용되는 수집 데이터의 학습과 검증 비율은 ’8 : 2‘으로 설정하여 데이터를 분할하였 다. 4,800개의 링크들에 대한 단일 신경망을 구성하는 경우 링크별 고유 특성 모델링에 있어 한계가 있으므 로, 각 링크별로 별도의 DNN 모델을 구성하였다. 가중치 업데이트 시, 노드들 간의 간선들 중 일정량을 임 의로 생략하는 Dropout 기법을 기반으로 모델을 정규화하면서 과적합을 최소화할 수 있도록 하였다. 본 논문 의 문제에서는 실험적으로 Dropout 값이 0.5이었을 때 가장 효과가 높음을 확인하였다.

2) DNN 학습 모델 최적화 과정

(1) 학습 데이터 범위의 유효성

도로의 외부 상황을 표현하는 여러 feature를 이용하여 예측 모델을 학습시켰다. Feature의 종류는 데이터 전처리를 통해 가공한 휴일 여부(IH), 요일(W), 시간(H), 기온(T), 강수량(R), 인근 지하철역 승하차 인구(SSP), 주변 집계구의 생활인구(LP)이다. <Table 3> 강우량과 적설량 (강설량)은 따로 구분하지 않고, 강수량으로 통 합하였다. 강우량과 적설량을 별도 인자로 구분하여 모델링하는 경우 특정 계절에 대한 데이터의 편중으로 인하여 과적합과 함께 예측 정확도의 저하가 발생하여 두 인자를 통합하여 정확도를 끌어올렸다.

이후 모든 모델의 평가 척도가 되는 정확도는 식(1)과 같이 계산하였다.

\sum_{i = 1}^{T} \frac{A_{i}}{T} (%)

(1)

T는 실험에 사용되는 링크의 개수이며, A_i는 i번째 링크의 속도를 예측하는 모델의 정확도이다. 연구에서는 링크별로 별도의 모델을 구성하였기 때문에, 각 모델별 정확도의 평균치를 평가하는 기준 척도로 삼고자 한다.

실험 결과 15년도의 데이터가 포함된 3년의 데이터를 사용한 모델이 1년이나 2년의 데이터를 사용한 모델 에 비해서 정확도가 낮음을 알 수 있다 <Table 4><Fig 6>. TOPIS 초기 데이터가 갖는 미완성 및 불안정성 요 인들이 이러한 결과를 가져오는데 일부 기여했을 것으로 추정된다. 실제로 신규 도로의 미반영, 기존 도로의 누락, 도로 고유 아이디의 변경 등이 포착되었고, 이를 정정하는 작업을 자체적으로 진행하였다.

실험 결과에서도 대부분의 3년의 데이터는 해당 기간의 통행 속도를 설명할 수 있는 데이터가 될 수 없다고 판단하여, 이후 실험에서는 2016년 1월 1일부터 2017년 12월 31일까지의 데이터를 이용하여 실험을 진행하였다.

(2) Epoch 조정

Epoch를 지나치게 크게 설정하게 되면 학습 데이터에 대해서는 정확하게 설명할 수 있지만, 과적합이 발생 하여 테스트나 신규 데이터를 활용할 때는 정확도가 떨어지는 문제가 발생할 수 있다. 따라서 Epoch를 5가지 로 조정하여 1년 치 데이터를 기반으로 하는 통행 속도 예측 모델에 최적화된 Epoch를 도출하고자 하였다.

실험 결과 Epoch를 높게 할수록 정확도가 개선되는 것을 알 수 있다 <Table 5>. 그러나 Epoch 2,000군과 Epoch 5,000군의 실험 결과를 비교하였을 때 소요 시간은 2배 이상이 되었지만, 정확도의 상승 폭이 미미하고, 32-Core 서버를 이용하여 실험하였을 때 Epoch 2,000은 모든 링크에 대해 학습하였을 때 약 39시간이 소요되었지만, Epoch 5,000 모델들의 경우 실험마다 약 91시간이 소요되기 때문에 앞으로의 실험에서는 Epoch 2,000의 설정 값을 이용하여 실험을 진행하였다. Table 4

(3) 은닉 계층 설정

인공신경망은 은닉 계층과 계층별 노드 수에 따라서 모형의 복잡도가 결정된다. 즉, 학습 대상 정보의 복 잡도에 따라서 다수의 은닉 계층을 구성하고 다수의 파라미터로 모델링해야 할 수 있다. 이 복잡도가 큰 경 우에는 훈련에 사용한 데이터에 대해서 과적합 되어 모형의 왜곡이 발생할 수 있기 때문에 모형에 최적의 은닉 계층의 수와 계층별 노드 수를 찾아내는 작업이 필요하다. 혼잡도의 예측 정확도를 향상하기 위해 <Table 6>와 같이 은닉계층의 구성을 달리하여 실험을 진행하였다. <Fig. 8>에 있는 결과에 따르면 [1024, 512, 256, 128]이 가장 정확한 모델을 구성하는 은닉 계층과 노드 수의 설정임을 확인할 수 있었다.

(4) Early Stoppage 적용

앞에서도 언급했지만 특정 데이터에 대해서 학습을 지나치게 오래 진행하게 되면 과하게 학습하여 테스 트 데이터나 실제 데이터에 대한 오차는 증가는 과적함의 문제가 발생할 수 있다. 이를 방지하고, 미래의 교 통 상황에 대한 예측 정확도를 높이기 위해 Early Stoppage를 적용하여 모델의 정확도를 개선하고자 하였다 (Prechelt, L., 1998). <Table 7>에서 보이는 바와 같이, Early Stoppage를 적용한 결과, 적용하기 전보다 4~5 %p 의 정확도가 개선되면서 정확도가 90%에 이르는 것을 확인하였다.

DNN 모델을 검증한 결과 생활인구 데이터를 학습 인자로 사용한 모델들이 사용하지 않은 모델들에 비해 정확도가 현저하게 감소함을 알 수 있다. 서울 열린 데이터 광장에서 제공하는 서울 생활인구에 대한 정의는 '서울의 특정 지역, 특정 시점에 존재하는 모든 인구'이다 (Seoul Metropolitan Government, 2018). 서울시와 KT가 생활 인구를 추정하는 데 있어 개인정보의 비식별화를 위해 3명 이하인 경우 몇 명인지 알 수 없고, 추정 데이터이기 때문에 각 값의 합이 전체 합계와 일치하지 않는 일부 오차가 존재한다. 이런 오차들과 누 적된 데이터 수의 부족, 생활인구가 가지고 있는 특성들로 인해 통행 속도를 예측하는 데 있어서 정확도를 저하시키는 원인이 되었을 것이라고 판단된다.

3) Random Forest 실험 결과

분류에 있어서 현재 가장 널리 사용되는 머신러닝 알고리즘인 Random Forest(Breiman L., 2001)를 이용한 예측 모델을 생성하여 심층 인공 신경망 기반 예측 모델과의 성능 차이를 비교하고자 하였다. Random Forest 의 경우 Bagging(Bootstrap Aggregating) 기법을 통해 N개의 기초 모델(트리)들을 훈련시켜 평균 또는 과반수 방식을 이용해 훈련된 서로 다른 특성을 가지는 N개의 기초 분류기(트리)를 하나의 분류기(Random Forest)로 결합하여 일반화 성능을 향상한다.

<Table 8>에서 보이는 바와 같이, Random Forest 기반 예측의 정확도는 심층인공신경망 기반 예측 결과에 비해 3%p 낮았다. 실험 결과, Random Forest 모형에서도 역시 생활인구 정보가 필히 정확도의 형상으로 이어 지지는 않는 것으로 확인되었다. 실험 결과 지하철 승하차 인구 역시 일반 도로의 통행 속도와 상관관계가 크다고 보이지는 않는다. 정적인 생활 인구 정보보다는 동적 유동인구 정보를 기반으로 사용자의 이동 패턴 을 고려한다면 정확도의 향상을 기대해볼 수도 있을 것으로 예상된다. Table 9

Ⅳ. 활용방안

앞서 실험 모델 중에서 가장 정확도가 높게 나온 [1024, 512, 256, 128]의 은닉 계층과 노드 수 기반으로, 휴 일정보, 요일 정보, 시간 정보, 기상정보를 인자로 사용해, Early Stoppage를 적용한 DNN 모델이 예측한 교통 혼잡도를 활용해 사용자가 원하는 미래 시점의 최적 경로를 제공하는 서비스를 예시하였다. <Fig. 9> TOPIS에 서 제공하는 혼잡도 분류 기준에 따라 통행 속도를 예측하기 때문에 혼잡도를 기반으로 링크의 속도를 추정 하여 사용자가 선택한 출발지에서 도착지까지의 최단 경로를 제공한다. 도로망 상의 각 링크는 혼잡도에 따 라 녹색 (원할), 노란색 (서행), 적색 (정체)로 표현하여 구간별 예상 혼잡을 예상해볼 수 있도록 했다.

Ⅴ. 결 론

본 논문에서는 시간 정보라는 한정적인 인자에만 의지하는 RNN 모델의 한계점을 극복하기 위해 TOPIS에 서 획득이 가능한 서비스 링크 주변의 외부 요인들을 고려한 DNN 모델을 제안하였다. 교통 혼잡 등에 외부 요인들이 얼마나 영향을 미치는지를 파악하기 위해 다양한 외부 요인들을 적용하여 실험을 진행하였다. 도 로의 혼잡도에 영향력을 미치는 다양한 요인들을 조합하여 모델로 구성하였고 모델의 정확도를 바탕으로 어 떤 외부 상황들의 조합이 도로의 교통 혼잡도를 잘 설명할 수 있는지 판단하였다.

TOPIS에서 제공하는 서비스 링크의 경우, 버스같이 승용차가 아닌 운송수단을 지원하기 위해 최적화된 링크로 재가공하였기 때문에 국토부에서 제공하는 표준 링크에 비해 많은 링크가 누락되었고, 작은 단위의 여러 표준 링크를 큰 단위로 통합하여 하나의 서비스 링크로 제공하기 때문에, 각 구간을 예측한 정보를 바 탕으로 교통량을 분배하는 과정에 있어서 정확도가 낮다는 단점을 가지고 있다. 한편, 연구 결과 TOPIS에서 관리하는 서울시의 주요 도로에 대한 통행 속도를 평균 90%에 이르는 정확도로 예측이 가능하였고, 교통사 고나 도로 공사 데이터를 추가로 확보할 수 있으면 정확도는 더욱 높아질 것으로 예상된다.

본 연구에서는 단순히 링크의 혼잡도를 예측하였기 때문에 현 단계에서 사용자가 자동차를 이용해 원하 는 출발지에서 도착지까지의 경로상 총 소요 시간을 정밀하게 산정하기에는 어렵다는 단점을 가지고 있다. 이를 보완하기 위해서는 혼잡도가 아닌 정확한 차량의 속도를 예측하는 모델을 연구하고 링크들의 인접 관 계와 시작점-도착점 (Origin-Destination, OD) 경로를 분석에 고려하고자 한다.

ACKNOWLEDGEMENT

본 연구는 국토교통부 교통물류연구사업의 연구비지원(과제번호 19TLRP-B148659-02)과 2019학년도 홍익 대학교 학술연구진흥비에 의하여 지원 하에 수행되었습니다.

Figure

<Fig. 1>.

TOPIS Service Link Map

<Fig. 2>.

Missing speed information

<Fig. 3>.

Invalid and unrealistic speed information

<Fig. 4>.

Correlating Temporal Local Population with each nearby Link

<Fig. 5>.

Correlating Temporal Subway Station Population with each nearby Link

<Fig. 6>.

DNN Structure

<Fig. 7>.

Accuracy by different feature sets

<Fig. 8>.

Hidden Layer Experiment Accuracy

<Fig. 9>.

Demo webpage: Prediction of each link on a OD path based on DNN

Table

<Table 1>.

Data Schema of the Original Data

<Table 2>.

Degree of congestion in terms of traffic speed

<Table 3>.

Feature types and value range

<Table 4>.

Accuracy by different feature sets

<Table 5>.

Accuracy by Epoch

<Table 6>.

Accuracy by hidden layer structure

<Table 7>.

Accuracy after applying early stoppage

<Table 8>.

Accuracy when Random Forest was used

<Table 9>.

Feature importance according to Random Forest

Reference

Breiman L. (2001), “Random forests,” Machine Learning, vol. 45, no. 1, pp.5-32.
Bridle J. S. (1990), “Training stochastic model recognition algorithms as networks can lead to maximum mutual information estimation of parameters,” In Advances in Neural Information Processing Systems, pp.211-217.
Chirigati F. , Doraiswamy H. , Damoulas T. and Freire J. (2016), “Data polygamy: the many-many relationships among urban spatio-temporal data sets,” In Proceedings of the 2016 International Conference on Management of Data, pp.1011-1025.
Jeon H. (2018), A Deep-learning Approach to Predict Short-term Traffic Speeds Considering City-wide Spatio-temporal Correlations.
Jung H. , Yoon J. and Bae S. (2017), “Traffic Congestion Estimation by Adopting Recurrent Neural Network,” The Journal of The Korea Institute of Intelligent Transport Systems, vol. 16, no. 6, pp.67-78.
Kim H. Y. (2010), “A geostatistical approach for improved prediction of traffic volume in urban area,” Journal of the Korean Association of Geographic Information Studies, vol. 13, no. 4, pp.138-147.
Kim H. , Park S. and Jang K. (2016), “Short-term Traffic States Prediction Using k-Nearest Neighbor Algorithm: Focused on Urban Expressway in Seoul,” Journal of Korean Society of Transportation, vol. 34, no. 2, pp.158-167.
Kingma D. P. and Ba J. (2014), “Adam: A method for stochastic optimizatio,” arXiv preprint arXiv:1412.6980.
Koesdwiady A. , Soua R. and Karray F. (2016), “Improving traffic flow prediction with weather information in connected cars: A deep learning approach,” IEEE Transactions on Vehicular Technology, vol. 65, no. 12, pp.9508-9517.
Korea Expressway Corporation,http://www.ex.co.kr, 2018.
Korea Meteorological Administration,http://data.kma.go.kr, 2019.
LeCun Y. , Boser B. , Denker J. S. , Henderson D. , Howard R. E. , Hubbard W. and Jackel L. D. (1989), “Backpropagation applied to handwritten zip code recognition,” Neural Computation, vol. 1, no. 4, pp.541-551.
Lee M. (2016), Forecasting short-term travel speed in a dense highway network considering both temporal and spatial relationship : using a deep-learning architecture.
Lee S. , Kim B. and Kwon H. (2004), “The study of Estimation model for the short-term travel time prediction,” The Journal of The Korea Institute of Intelligent Transport Systems, vol. 3, no. 1, pp.31-44.
Ma X. , Tao Z. , Wang Y. , Yu H. and Wang Y. (2015), “Long short-term memory neural network for traffic speed prediction using remote microwave sensor data,” Transportation Research Part C: Emerging Technologies, vol. 54, pp.187-197.
Ministry of Land, Infrastructure and Transport,http://www.index.go.kr, 2018.
Nair V. , and Hinton G. E. (2010), “Rectified linear units improve restricted boltzmann machines,” In Proceedings of the 27^th international conference on machine learning (ICML-10), pp.807-814.
Pedamonti D. (2018), “Comparison of non-linear activation functions for deep neural networks on MNIST classification task,” arXiv preprint arXiv:1804.02763.
Prechelt L. (1998), “Early stopping-but when?,” In Neural Networks: Tricks of the trade, pp.55-69.
Rumelhart D. E. , Hinton G. E. and Williams R. J. (1986), “Learning representations by back-propagating errors,” Nature, vol. 323, no. 6088, p.533.
Seoul Metropolitan Government,http://data.seoul.go.kr, 2018.
Seoul Transport Operation and Information Services,http://topis.seoul.go.kr, 2018.
Tang J. , Liu F. , Zou Y. , Zhang W. and Wang Y. (2017), “An improved fuzzy neural network for traffic speed prediction considering periodic characteristic,” IEEE Transactions on Intelligent Transportation Systems, vol. 18, no. 9, pp.2340-2350.
Yao H. , Wu F. , Ke J. , Tang X. , Jia Y. , Lu S. , Gong P. , Ye J. , Chuxing D. and Li Z. (2018), “Deep multi-view spatial-temporal network for taxi demand prediction,” In Thirty-Second AAAI Conference on Artificial Intelligence, pp.2588-2595.
Zhao Z. , Chen W. , Wu X. , Chen P. C. and Liu J. (2017), “LSTM network: a deep learning approach for short-term traffic forecast,” IET Intelligent Transport Systems, vol. 11, no. 2, pp.68-75.

Prediction of Traffic Congestion in Seoul by Deep Neural Network

Abstract

심층인공신경망(DNN)과 다각도 상황 정보 기반의 서울시 도로 링크별 교통 혼잡도 예측

초록

Ⅰ. 서 론

Ⅱ. 관련 연구 고찰