Ⅰ. 서 론
버스도착시간 예측은 도시 대중교통시스템의 정보기술을 실현하는데 중요한 요소로, 승객의 여행계획을 합리적으로 조정하고, 버스의 효율적인 운영을 통해 좋은 이미지를 확립과 대중교통의 매력을 높이도록 도 움을 주고 있다. 과거 2000년대 초반 현재 정거장과 다음 정거장 정보를 송출할 수 있는 수준이었으나 현재 이용자가 원하는 버스의 실시간 위치와 도착 시간까지 제공하고 있으며 스마트폰 앱을 통해 편리하게 정보 를 수득 할 수 있어 만족도가 높은 서비스를 제공하고 있다. 각종 보도자료에 의하면 BIS(Bus Information System) 서비스를 제공하고 있는 서울시, 부천시, 안산시 등 각 지자체 조사 결과 만족도 85%를 상회하고 있 고, 특히 버스도착시간 정보정확도는 이용자가 매우 중요하게 여기는 만족도 지표로 정확도 향상을 위한 관 련 연구가 지속적으로 진행되고 있다.
도착시간 분석 및 예측을 위한 알고리즘으로 대부분의 버스정보시스템(BIS)은 이력 및 실시간 데이터를 기반으로 칼만필터(Kalman Filter, 이하 KF), 신경망(Neural Network, 이하 NN), 회귀분석(Regression Analysis), 이동평균(Moving Average) 등이 이용되고 있으며 이외에도 여러 가지 방법들이 활용되고 있다. 반면 노선 구 간(정류소 to 정류소)별 도로환경과 시간대별 특성이 다르게 변화함에 따라, 실시간적 특성에 맞는 알고리즘 을 선택하여 적용하는 방안도 고려되어야 한다. 이는 특정 알고리즘이 모든 구간의 예측시간을 대표하기 어 려울 수 있기 때문이다. 또한 알고리즘의 경우 다양한 분야에서 머신러닝 활용이 지속적으로 증가, 버스도착 시간 예측 알고리즘으로 활용이 가능할 것으로 판단된다. LSTM(Long short-term memory Units, 이하 LSTM) 기계학습의 경우 시계열 또는 시퀀스 데이터를 처리할 때 매우 유용한 알고리즘으로, 버스도착시간 예측은 최신 자료 학습 기반으로 예측되어야 하므로 적절한 분석방법론으로 활용이 가능하다.
본 연구에서는 LSTM 러닝 머신을 활용하여 BIS 정확도를 기존 알고리즘과 비교하고자 한다. 도착 예정 정보는 실시간으로 제공되어야 하므로, 구간별, 시간대별 최적 알고리즘을 선정하기 위해 평균 제곱근 편차 (Root Mean Square Error, 이하 RMSE) 비교를 통해 정확도가 높은 알고리즘으로 선정하는 방안이 필요하다.
Ⅱ. 선행연구 고찰
버스정보 안내 시스템(BIS)의 신뢰성을 향상시키기 위해서는 버스도착시간 추정의 정확성이 요구된다. 주 로 가중이동평균법을 활용한 연구가(Kim et al., 2009;Roh et al., 2010) 수행되었으며 개별/단일노선추정보다 정확도가 향상되는 것으로 제시되고 있으나 버스정류소 서비스시간이 포함되지 않고 버스유형(광역,순환 등) 에 따라 모형 적용 결과가 상이함이 단점으로 지적되었다. 그 외 가중이동평균법과 칼만필터링이 결합한 퓨 전알고리즘 적용 정확도 추정 연구(Wi, 2013), 정류장·경로기반(Chen et al., 2009) 연구, 커널 회귀식을 적용한 (Baker and Nied, 2014) 공간적 특성 계량 연구 등 다양한 방법론을 적용한 연구가 진행되었으며 공통적으로 모든 시간대를 아우르는 정확도 산정의 어려움 극복과 과대·과속 추정에 따른 신뢰도 향상이 보완되어야 함 을 향후 연구로 제시하였다. 또한 칼만필터와 Support Vector Regression을 결합(K-SVR)하여 인접하는 두 버스 정류장의 예측 정확도를 향상(Zhang et al., 2021) 시킬수 있으나 버스 헤드웨이가 가급적 일정한 시간대 효과 가 있는 것으로 나타났다. 날씨와 같이 통행시간의 변동성이 큰 특수한 상황, 반복지연 및 비반복지연에 의한 낮은 버스도착시간 예측 정확성이 개선(Patricia et al., 2015;Yang et al., 2016) 되어야 함을 지적하고 있다.
최근 인공지능 학습 기반 정확도 예측 연구가 다양한 분야에서 수행되고 있다. 이와 관련하여 버스 통행 시간 예측시 비지도학습의 SOM 알고리즘을 활용한 연구에서 학습데이터로 예측시 정확도가 우수하며 패턴 분석을 통해 정밀도 높은 구간 통행속도 상태 예측이 가능함을 제시하였다.(Lee et al., 2017;Chang et al., 2019) 반면 주로 사용하고 있는 분석 알고리즘 대비 실증 데이터 기반 기계학습 알고리즘 비교 연구는 미흡 한 실정으로 기계 및 딥 러닝 알고리즘의 예측 정확도가 SVR, OLS보다 우수한 정확도를 나타내는 것으로 분석되고 있다.(Dancho and Titus, 2020;Ashwini et al., 2022) 인공지능 RNN(Recurrent Neural Network) 기반 Deep Feature 추출 프레임워크를 사용하는 경우 시공간 상관관계 포착이 가능하여 기존 SVR 모델 대비 4.82% 예측 정확도가 향상되는(Yuan et al., 2020) 것으로 분석되어 다양한 인공지능 및 기계학습 적용의 필 요성이 부각되고 있다.
Ⅲ. 연구 방법론
1. 기계학습 적용 및 데이터 연관 관계
머신러닝의 기본 개념은 데이터를 기반으로 해서 어떤 가설(공식)을 만들에 낸 다음, 그 가설에서 나온 값 이 실제 측정값과의 차이(Cost)가 최소한의 값을 가지도록 변수에 대한 값을 컴퓨터를 이용해서 찾은 후, 찾 아진 값을 가지고 학습된 모델을 정의해서 예측을 수행하는 것이다. 서울시 BIS의 정확도 향상을 위한 최적 의 기계학습 방법을 찾기 위해 데이터간의 연관관계를 파악하고, 이 관계를 바탕으로 기계학습 방법론별 성 능을 측정하고 기존 알고리즘과 비교를 하는 방식을 설정하였다.
정류소 출도착정보는 정류소 구간의 여행시간과 승하차인원, 앞차와의 시간간격등의 정보가 산출되는 시 점이며, 시민들에게 제공되는 도착정보가 생성되는 시점 정보이다. 본 연구에서도 이 정보를 활용하였으며 정류소 출발정보는 데이터간의 연관관계를 파악하고, 기존 알고리즘과 비교를 위하 정류소 도착정보로 기계 학습 성능을 측정하였다. 서울BIS의 정류소는 진입시 발생하는 “정류소도착(0x6200)” 정보와 승객의 승하차 후 차량이 출발하여 진출시 발생하는 “정류소출발(0x6300) 정보로 구분되며, 진입/진출의 거리는 원격센터에 서 지정하게 된다(기본값 50m).
버스도착정보는 특정 정류소를 통과한 차량들의 정보를 이용하여 다음 도착예정차량의 시간을 추정하는 것으로 현재 차량(v)의 정보는 입력값으로, 뒷차량(v-1)의 여행시간을 참(결과)값으로 사용하였다. 또한 데이터 속성간 연관관계로 입력값과 참(결과)값을 연결시켜 데이터간의 연관성을 파악하는 의사결정트리(Decision Tree)를 이용하여, 예측 정확도와 표준오차를 측정하고 속성간의 연관성 정도를 파악하고자 하였다.
2. LSTM 머신러닝 모델 구축 및 성능 측정
전통적 Neural Network는 이전에 일어난 사건을 바탕으로 나중에 일어나는 사건을 유추하지 못한다. 이를 개선한 Recurrent neural network (이하 RNN)은 스스로 반복하며 이전 단계의 정보를 지속되도록 한다. LSTM 은 RNN의 한 종류로 긴 의존 기간(시퀀스) 문제를 다루는데 적합하도록(Schmidhuber and Hochreiter, 1997) RNN을 변형하여 설계한 네트워크이다. LSTM의 구조는 RNN과 달리 게이트(Gate)라는 요소를 통해 정보를 더하거나 제거함으로써 선택적으로 정보를 저장할 수 있다. LSTM의 게이트는 크게 forget gate(ft), input gate(it), output gate(ot)의 3개로 구성되며, 모든 게이트는 sigmoid 연산을 수행하여 0에서 1사이의 값을 출력 한다. forget gate는 셀 상태에서 현재 정보의 제거 정도, input gate는 현재 정보의 반영 정도, output gate는 데 이터의 출력을 결정한다. 수식(3)과 수식(6)은 각각 셀 상태 갱신과 출력 결과를 나타낸다.
모델 구축은 Python과 keras LSTM을 사용하였다. 데이터셋 구축은 구간ID, 발생시각, 통행시간이며 학습 데이터 67%, 테스트 33% 비율로 구성하였다. 측정 기준은 테스트 데이터 중 입력값으로 “기준시각, 여행시 간”을, 참(결과)값으로 “뒷차량 여행시간”을 사용하여 예측값과 참값을 비교하였다.
기계학습 성능은 학습과 테스트로 구분하고 테스트 결과를 측정하며 최적 방법을 선정하기 위해 4가지 성 능 측정 모델을 사용하여 정확도와 RMSE를 측정하였다. 첫째, 서포트벡터머신(Support Vector Machine, 이하 SVM) 모델로 데이터 포인트와 구분하는 선형 결정 경계(초평면)을 찾아서 데이터를 분류하는 모델이다. 둘 째, 의사결정트리(Decision Tree, 이하 DT)는 예측자 값이 훈련된 가중치에 비교되는 분기 조건으로 구성되고 분기 수와 가중치 값은 훈련 프로세스에서 결정하며 셋째, 뉴럴 네트워크(Neural Network, 이하 NN)의 경우 연결성이 높은 뉴런 네트워크로 구성되어 입력을 원하는 출력에 연관시켜 입력이 정확한 응답에 매핑되도록 연결 강도를 반복 수정하는 방식으로 훈련을 통해 적용 가능하다. 넷째, 장단기 기억 네트워크 LSTM은 순환 신경망(Recurrent neural Newwork)의 장기학습 단점을 보완한 것으로 시계열 기반 순환신경망모델이다. 그 외 이동평균, 칼만필터, 신뢰평균은 서울BIS 도착정보를 생성한 이력자료 받아 활용하였다.
기계학습 성능과 기존 알고리즘의 비교는 BIS 정확도이력데이터로 정확도와 RMSE를 비교하였다. 정확도 의 경우 절대평가를 위해 현재 서울시 BIS의 정확도 기준인 ±120초와 비교하며 기준값 변경시의 정확도 변 화까지 포함하였다. 성능 측정에 사용한 모델은 <Table 2>와 같다.
Ⅳ. 기계학습 적용 분석 결과
1. 데이터 연관 관계 분석
기준시각과 여행시간은 학습과 예측에 대한 기본정보로 필수 요소이며 기준시각과 여행시간 외 정확도에 영향을 미치는 속성을 분석하였다. 정확도는 정확히 1초 단위까지 맞은 것을 기준으로 여행시간 예측에 영 향을 미치는 속성셋을 결정하기 위해 원시자료로부터 추출가능한 현재시각, 요일구분, 구간거리, 여행시간, 승하차인원, 재차인원, 앞차간격 속성을 Attribute set으로 조합·구분하여 정확도와 표준오차를 살펴보았다. 표 준오차 차이는 거의 없고 어느 한 속성이 절대 우위를 점하지 못하는 것으로 나타나 필수 요소 외 나머지 속성은 연관성이 아주 미미한 것으로 판단된다. Attribute1의 경우 정확도가 0.1% 향상되었으나 Attribute2와 비교하였을 때 큰영향을 미치치 않는 것으로 나타났다. 이는 특정 구간의 여행시간 예측에 가장 중요한 요소 로 Attribute2가 가장 중요하고 결정적인 속성임을 알 수 있다.
2. 모델별 정확도 및 표준오차 성능
알고리즘 모델별 학습과 테스트 과정을 거쳐 정확도를 측정하고 모델별 BIS 정확도와 비교하였다. 분석 대상은 109번 간선노선(우이동~광화문), 7016번 지선노선(수색동~상명대)을 대상으로 2021년 11월 7일에서 9 일까지 3일간 데이터를 분석하였으며 특정 정류소 구간에 도착하는 1전 정류소 차량으로 한정하였다. 109번 노선의 경우 총운행거리 28.16km이며 평일 기준 배차간격은 12~15분이다. 7016번 노선의 경우는 총운행거리 56.0km, 평일 기준 배차간격 5~12분이다.
분석 결과 LSTM 모델이 가장 안정적이고 우수한 것으로 나타났다. 오차 기준 변화(±20s 단위씩 증가)에 따라 정확도 차이가 커지고 있으며, 표준오차가 정확도에 영향을 미치는 것으로 나타났다.
알고리즘 모델별 학습 후 테스트 시행 결과 LSTM 모델이 36.4초로 표준오차가 가장 낮았으며, 총 162개 구간 중 109개 구간에서 67.3% 비중으로 우수한 것으로 도출되었다. 기존 알고리즘 중에서는 신뢰평균이 뉴 럴 네트워크모델 뒤를 이어 3위로 나타났다. 시계열기반의 순환신경망 모델인 장단기기억네트워크 LSTM 기 계학습방법이 기존 알고리즘에 비해, 정확도는 약 1% 높고, 표준오차는 약 10초 정도 낮은 것으로 분석되었 다. 이 결과는 1전 정류소에 위치한 차량에 대한 성능치로써, 평균 1~5전의 차량에 대한 도착정보를 생성하 는 서울시 BIS의 특성상 10~50초의 오차를 줄일 수 있는 것으로 나타났다.
3. LSTM 모델 적용 특성
장단기기억네트워크 LSTM 모델은 주기별 일정 패턴을 가지는 경우 학습과 예측이 우수한 것으로 판단된 다. LSTM 예측이 떨어지는 구간의 경우 NN > CA > MA 순으로 예측정확도가 높은 것으로 검토되었다. 학 습(TS Train)과 예측(TS Test)이 잘된 경우와 그렇지 않은 경우를 비교하면 진폭이 일정하고, 편차가 큰 경우 학습 결과가 좋지 않는 현상이 발생하는 것으로 나타났다. 이는 교통신호, 지정체로 이해 패턴이 불규칙한 경우 나타나는 특성으로 검토되었으며 일정한 진폭내에서 2~3가지의 일정값들이 반복적으로 출현함에 따라 예측에 적합하지 않는 결과로 학습되는 것으로 판단된다. 이 경우 평균에 가까운 값으로 예측되었으나 특정 몇 개 구간의 경우에만 10~20초의 차이가 발생하였을 뿐, 대부분은 구간별로 우수한 타 모델과의 예측값이 1~3초 사이의 편차를 나타내었다.
분석 결과를 요약하면 정확도 향상은 결과적으로 표준오차를 줄이는 것으로 LSTM은 1전의 차량예측시 표준오차가 10초 정도 낮고 모든 구간 대비 67%로 우수한 것으로 나타났다. 서울 시계내에의 도착정보 제공 시 대부분 차량은 1~5전 정류장에 위치하며 이는 평균적으로 10~50초 정도 도착정보 오차가 줄어들 것으로 예상된다. 속성과의 관계를 살펴보면 승하차/시격 등은 예측에 상관관계가 적다. 이는 정류소 도착정보에 반 영되어 있기 때문이며 상관관계가 큰 것은 시간대/여행시간으로 지역에 따라 시간대/노선ID/여행시간 등도 고려할 필요가 있다.
또한 기존 알고리즘 중 신뢰평균 방법이 모든 구간대비 9.3%로 이동평균 1.9%보다 우수한 것으로 신뢰평 균은 이동평균대비 민감도가 높아 도로의 상황이 적절히 반영되어 일부 구간에서 활용가치가 있다고 판단된 다. 보완점으로 버스도착시간 예측은 정류장 구간을 기준으로 하고 있으며, 정류장 구간별 도로 상황에 맞는 적절한 알고리즘을 반영 할 수 있어야 할 것이다. 다음으로 표준오차 결과에서 나타나듯 특정 구간들은 다른 모델이 우수한 특징을 보이고 있어, 구간별 특성에 따라 모델을 선택하는 방안도 필요하다. 선택의 기준은 특정 정류소 1개를 기준으로 5~10개 차량의 도착정보에 대한 표준오차를 산출하여 표준오차가 가장 적은 모 델을 자동 선택하도록 하는 방안이 효과적으로 판단되며 상시 표준오차를 측정하여 가장 우수한 알고리즘으 로 예측 여행시간을 제공하는 기술적 보완이 필요하다.
Ⅴ. 결 론
버스 도착 시간 예측은 도시 대중교통시스템의 정보기술을 실현하는데 중요한 요소로, 승객의 여행계획을 합리적으로 조정하고, 버스의 효율적인 운영을 통해 좋은 이미지를 확립과 대중교통의 매력을 높이도록 도 움을 주고 있다. 서울시 BIS는 2003년 버스종합사령실(BMS) 구축을 시작으로 현재 실시간 버스도착시간을 예측하여 제공하고 있으며 정보 정확도에 대한 다양한 평가가 진행되다. 분석 방법으로는 운행 이력 및 실시 간 데이터를 기반으로 칼만필터(KF), 신경망(NN), 회귀분석(Regression), 이동평균(MA) 등의 알고리즘이 주로 활용하고 있다.
LSTM은 시계열적 정보 기반 최신 자료를 학습하는 방식으로, 예측 및 추세분석의 장점이 있는 알고리즘 이다. 본 연구에서는 BIS 정확도에 대해 칼만필터 등 기존 분석방법론과 LSTM 기계학습방법의 예측 정확도 를 비교하였다. 분석 대상으로 서울시 109번, 7016번 2개 노선의 정류소 출도착정보를 사용하였고 BIS 정확 도 이력 데이터로 정확도와 평균제곱근오차(RMSE)를 비교한 결과 LSTM 기계학습방법이 기존 알고리즘에 비해, 정확도는 종합적으로 약 1% 높고, 표준오차는 약 10초 낮은 것으로 분석되었다. 그러나 LSTM이 모든 구간에서 적합함을 보이지는 않는 것으로 나타났다. 신호, 지정체로 인해 패턴이 일정하지 않은 경우가 특히 예측 정확도가 낮은 것으로 나타났으며 세부적으로는 버스 통행시간의 진폭이 일정하고, 편차가 큰 경우 학 습 결과가 좋지 않는 현상이 발생하는 것으로 나타났다. 서울시 BIS데이터는 원시수집자료의 경우 1일 6천 만건이 넘는 상황으로 본 연구에서는 전구간에 대한 데이터를 구축 및 알고리즘별 분석을 수행하지 못하였 다. 이에 지선 및 간선 각 1개 노선 분석으로 한정하여 분석 노선 확대를 통한 추가적 검증이 필요하다.
또한 세부 구간별 기하구조, 노선굴곡도, 버스 주행 방행 외부요인 등 본 연구에서 고려하지 못한 다양한 요인의 영향이 있을 것으로 향후 구간별 심층 특성분석을 예측 영향요인으로 반영해야 할 것이다. 이러한 점 을 고려시 정류소 구간별 도로상황에 맞는 적절한 알고리즘을 평가하여 LSTM 기계학습방법과 결합하여 사 용하는 최적화 융합 연구가 필요하다. 실무적으로 LSTM 적용에 대한 효과 구간과 비효과 구간에 대한 정의 가 필요하며 LSTM 대비 타 알고리즘 적용 구간에 대한 단계적 연구가 필요하다.