Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.25 No.2 pp.67-88
DOI : https://doi.org/10.12815/kits.2026.25.2.67

Analysis of a PPO-Based Idle Vehicle Relocation Strategy for the Gijang-gun Tabara DRT

Jae dong Kim^*, Sang hoon Bae^**†, Seung chan Lim^***

^*Master’s Student Dept. of Spatial Information Eng., Pukyong National University
^**Professor, Dept. of Spatial Information Eng., Pukyong National University
^***PhD Student Dept. of Spatial Information Eng., Pukyong National University

^† Corresponding author : Sang Hoon Bae, sbae@pknu.ac.kr

Received 18 March 2026 │ Revised 2 April 2026 │ Accepted 20 April 2026

Abstract

This study investigates the applicability and effectiveness of a PPO(Proximal Policy Optimization)- based idle vehicle relocation strategy for the Demand Responsive Transport (DRT) service “Tabara” in Gijang-gun, Busan, using a SUMO-based simulation environment calibrated with actual operational data. Based on approximately three months of service records, three representative demand scenarios were constructed: weekday peak, weekday offpeak, and weekend/holiday. The PPO-based policy was evaluated against a no-relocation baseline, a rule-based heuristic, and a DQN-based policy under identical episode conditions. The results indicate that the PPO-based relocation policy reduced average pickup waiting time by approximately 2.9–6.2% and cumulative unserved calls by approximately 2.5–5.3% relative to the baseline, with the largest improvement observed in the weekday offpeak scenario. However, its additional advantage over the heuristic and DQN policies was limited. These findings suggest that, under the operating conditions considered in this study, the main contribution of PPO lies not in clear absolute superiority, but in its potential as a learning-based adaptive relocation strategy for addressing dynamic demand–supply imbalances in DRT operations.

Key Words : DRT , PPO , Idle vehicle , SUMO

기장군 타바라 DRT의 PPO 기반 유휴차량 재배치 전략 효과 분석

김재동^*, 배상훈^**†, 임승찬^***

^*부경대학교 지구환경시스템과학부 공간정보시스템공학전공 석사과정
^**부경대학교 공간정보시스템공학전공 교수
^***부경대학교 지구환경시스템과학부 공간정보시스템공학전공 박사과정

초록

본 연구는 부산광역시 기장군 수요응답형 교통(Demand Responsive Transport, DRT) ‘타바라’ 를 대상으로 실제 운행자료를 반영한 SUMO(Simulation of Urban MObility) 기반 시뮬레이션 환 경을 구축하고, 근접 정책 최적화(Proximal Policy Optimization, PPO) 기반 유휴차량 재배치 전 략의 적용 가능성과 효과를 분석하였다. 실제 3개월 운행자료를 바탕으로 평일 첨두, 평일 비 첨두, 주말·공휴일 시나리오를 구성하였으며, PPO 정책을 재배치 미적용 정책, 규칙기반 휴리 스틱, DQN 기반 정책과 비교하였다. 분석 결과, PPO 기반 재배치 정책은 재배치 미적용 대비 평균 픽업 대기시간을 약 2.9~6.2%, 누적 미처리 호출 수를 약 2.5~5.3% 감소시키는 경향을 보 였으며, 특히 평일 비첨두 시나리오에서 상대적으로 큰 개선 효과가 나타났다. 반면 휴리스틱 및 DQN과 비교한 추가적 우월성은 제한적으로 나타나, 본 연구 환경에서는 PPO의 절대적 성 능 우위보다 학습기반 적응형 재배치 정책으로서의 적용 가능성이 더 크게 확인되었다.

키워드 : 수요응답형 교통 , PPO , 유휴차량 재배치 , SUMO

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

최근 대중교통 서비스는 고정 노선과 고정 시간표 중심의 공급 방식에서 벗어나, 이용 수요의 시공간적 변화에 유연하게 대응할 수 있는 형태로 확대되고 있다. 특히 저밀도 지역, 교통취약지역, 관광 수요의 변동성이 큰 지역 및 외곽 생활권에서는 기존 정규 노선 기반 대중교통만으로 이용자의 접근성과 이동 편의를 충분히 확보하기 어려운 경우가 많다. 실제로 서울연구원과 한국교통연구원은 기존 버스체계만으로 대응하기 어려운 서비스 취약 구간과 대중교통 부족 지역에서 수요응답형 교통(Demand Responsive Transport, DRT)이 유효한 대안이 될 수 있음을 제시한 바 있으며, 국내 다수의 지자체에서도 지역별 교통 여건에 맞춘 DRT 서비스를 도입·운영하고 있다(Im and Hong, 2024a;Ki, 2019).

DRT는 이용자 호출 또는 예약에 따라 차량의 경로와 정차 순서가 유동적으로 조정되는 유연한 교통서비스이다(Kim et al., 2024a;Höing et al., 2025). 그러나 호출이 특정 시간대와 권역에 집중될 경우 차량 공급의 불균형이 발생하여 일부 지역에서는 대기시간이 증가하고, 다른 지역에서는 유휴차량이 남을 수 있다(Park et al., 2023a). 선행연구에서도 호출 후 대기시간은 DRT 이용자 만족도와 선호를 좌우하는 핵심 요인으로 제시되므로, 이러한 수요-공급 불균형을 관리하는 것은 DRT 운영의 중요한 과제라 할 수 있다(Kim et al., 2024b;Park et al., 2023b).

실제 DRT 운영에서는 동일한 서비스 구역 내에서도 시간대별, 정류장별, 권역별 수요 편차가 반복적으로 나타난다. 이 경우 단순히 호출이 발생한 이후에만 차량을 배차하는 방식으로는 수요 변화에 충분히 대응하기 어렵다. 따라서 현재 수요뿐 아니라 향후 수요 집중 가능성까지 고려하여, 유휴차량을 적절한 위치로 선제적으로 이동시키는 재배치 전략이 필요하다. 유휴차량 재배치는 차량의 공간적 분포를 조정함으로써 향후 호출에 대한 대응성을 높이고, 평균 대기시간과 미처리 호출(Unserved)을 줄일 수 있는 운영 수단이 될 수 있다.

본 연구는 부산광역시 기장군 타바라 DRT 서비스를 대상으로, 실제 운영자료를 반영한 유휴차량 재배치 전략을 제안하고 그 효과를 분석하는 것을 목적으로 한다. 이를 위해 실제 운행 데이터를 기반으로 서비스 특성을 파악하고, 해당 서비스 영역과 정류장 체계를 반영한 교통시뮬레이션 프로그램 SUMO(Simulation of Urban MObility) 기반 시뮬레이션 환경을 구축하였다. 이후 유휴차량 재배치 문제를 강화학습 문제로 정식화하고, 근접 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘을 적용하여 시간대별·권역별 수요 변화에 대응하는 재배치 정책을 학습하였다. PPO는 정책 기반 강화학습 알고리즘으로, 정책 갱신 시 변화 폭을 제한하는 구조를 통해 비교적 안정적인 학습이 가능하다는 특징을 가진다. 이러한 특성은 특정 시점의 재배치 결정이 이후 차량 가용 수준, 승객 대기시간, 공차 이동거리 및 미처리 호출에 연쇄적으로 영향을 미치는 유휴차량 재배치 문제에 적용 가능성이 있는 것으로 판단된다. 또한 PPO는 허브별 수요와 차량 공급 상태, 시간 진행률, 시나리오 정보 등이 결합된 복합 상태를 바탕으로 정책을 학습할 수 있어, 고정된 규칙만으로 대응하기 어려운 동적 운영환경을 분석하는 데 유용한 대안이 될 수 있다. 이에 본 연구에서는 PPO를 핵심 학습 방법으로 적용하되, 그 효과는 재배치 미적용 정책뿐 아니라 규칙기반 및 다른 강화학습 기반 정책과의 비교를 통해 검토하고자 한다.

Ⅱ. 선행연구 고찰

본 연구는 DRT의 일반적 도입 필요성이나 이용 만족도 분석에 머무르지 않고, 실제 운영 단계에서 발생하는 수요-공급 불균형을 완화하기 위한 차량 운영 최적화 전략을 주요 관심 대상으로 설정하였다. 이에 따라 국내 DRT 연구 동향과 더불어, 유사한 운영 문제를 다루는 모빌리티 온 디맨드(Mobility on Demand, MoD) 및 차량호출 서비스 분야의 재배치 및 운영 최적화 연구를 함께 고찰하였다.

1. 국내 DRT 연구 동향과 운영전략 연구의 확장

DRT는 고정 노선·고정 시간표 기반 대중교통이 가지는 한계를 보완할 수 있는 유연한 교통서비스로 주목받고 있다. 특히 수요가 낮거나 시간대별·지역별 수요 변동성이 큰 지역에서는 기존 정규 노선 서비스보다 수요응답형 교통이 효율적으로 운영될 수 있으며, 이에 따라 운영 유형과 서비스 구조를 체계적으로 분류하려는 연구도 제시되고 있다. Vansteenwegen et al.(2022)은 수요응답형 공공 버스 시스템 전반을 종합적으로 검토하고, 수요 수준과 운영 방식에 따라 다양한 유형의 서비스가 존재함을 정리하였다. 이는 DRT가 단일한 형태의 서비스가 아니라, 지역 여건과 운영 목적에 따라 상이한 운영 방식이 요구됨을 보여준다.

국내에서도 실제 운영자료를 활용하여 수요응답형 교통의 서비스 특성을 분석하려는 연구가 증가하고 있다. Kim et al.(2024c)는 세종시 수요응답형 교통 운영자료를 활용하여 통행수요의 시공간적 특성을 분석하였으며, 수요응답형 교통이 도시 내 새로운 교통체계로 기능할 가능성을 제시하였다. 이용자 관점의 연구에서는 대기시간과 서비스 균등성이 핵심 변수로 반복적으로 도출되고 있다. Kim et al.(2024b)는 진술선호조사를 통해 중소도시 수요응답형 교통 이용자 선호를 분석한 결과, 출퇴근과 여가 상황 모두에서 호출 후 대기시간이 가장 중요한 선호요인임을 제시하였다. Park et al.(2023b) 역시 실제 수요응답형 교통 이용자 설문을 바탕으로 차량 대기시간 만족도와 서비스 균등성이 전반적인 만족도에 유의한 영향을 미친다고 보고하였다. 이러한 결과는 수요응답형 교통 운영에서 단순한 수송 실적뿐 아니라 이용자가 체감하는 서비스 품질 관리가 중요함을 시사한다.

한편 Son and Kim(2022)은 서울시 장애인 대상 DRT 자료를 활용하여 대기시간의 시공간적 차이를 분석하였으며, DRT 서비스가 시간적·공간적으로 균등하게 제공되지 않을 수 있음을 지적하였다. 이는 특정 권역 또는 특정 시간대에 차량 부족이 반복될 경우 서비스 형평성 문제가 발생할 수 있음을 보여준다. 이처럼 국내 DRT 연구는 실제 운영자료와 이용자 조사를 기반으로 수요 특성, 대기시간, 형평성 및 만족도 등 서비스 품질 분석을 중심으로 발전해 왔다. 그러나 최근에는 연구 흐름이 서비스 특성 분석을 넘어 운영 효율 제고를 위한 전략 연구로 점차 확장되고 있다.

2. 유휴차량 재배치 및 운영 최적화 전략 관련 선행연구

유휴차량 재배치와 운영 최적화 전략은 특정 시점에 즉시 서비스 중이지 않은 차량을 향후 수요가 집중될 가능성이 높은 지역으로 사전에 이동시키거나, 서비스 제한구역 및 운영 규칙을 조정함으로써 수요-공급 불균형을 완화하려는 접근으로 이해할 수 있다. 최근 국내에서도 이러한 운영전략을 다룬 연구가 나타나고 있다. Choi et al.(2024)는 수요응답형 대중교통 시스템을 대상으로 최소·최대 서비스 수준을 기준으로 한 차량 재배치 정책을 시뮬레이션 기반으로 검토하였다. 이 연구는 정류장 또는 서비스 지점별 유휴차량 수준을 일정 기준 범위 내에서 유지하도록 하는 재배치 정책의 효과를 분석하였다는 점에서, 국내 DRT 운영전략 연구 가운데 유휴차량 재배치 문제를 직접적으로 다룬 사례로 볼 수 있다. 또한 Kim et al.(2025)는 DRT 운영 과정에서 발생할 수 있는 늪 현상(Swamping)을 완화하기 위해 전환행렬과 유전알고리즘을 활용한 최적 레드존 설정 방안을 제안하였다. 이는 차량 재배치 자체를 직접 다루지는 않지만, 수요-공급 불균형 완화를 위한 운영 최적화 전략을 제시하였다는 점에서 국내 DRT 운영전략 연구의 확장을 보여준다.

해외 호출형 교통서비스 MoD 분야에서는 유휴차량 재배치가 대기시간, 공차 이동 및 서비스율에 직접적인 영향을 미치는 핵심 운영 의사결정 문제로 활발히 연구되어 왔다. 특히 초기 연구들은 주로 운영연구(Operations Research, OR) 및 최적화(Optimization) 기반 접근을 중심으로 발전하였는데, Pavone et al.(2011)은 모빌리티 온 디맨드 시스템의 부하균형(Load balancing) 문제를 수학적으로 정식화하였고, Smith et al.(2013)은 차량 및 운전자 재배치 문제를 선형계획(Linear programming) 기반으로 다루었으며, Zhang and Pavone(2016)은 자율주행 기반 모빌리티 온 디맨드 시스템을 대기행렬 이론(Queueing theory)과 최적화 관점에서 분석하였다. 이러한 접근은 수요-공급 불균형을 완화하기 위한 재균형 문제를 명시적으로 표현할 수 있고 해석 가능성이 높다는 장점이 있으나, 실제 운영환경처럼 수요와 교통상황이 빠르게 변하는 경우에는 반복적 재계산에 따른 계산부담과 예측오차 민감성이 한계로 작용할 수 있다.

이와 함께 학습기반 접근도 활발히 연구되고 있다. 가치기반(Value-based) 강화학습의 대표적 사례로 Oda and Joe-Wong(2018)은 심층 Q-네트워크(Deep Q-Network, DQN) 기반의 모델에 의존하지 않는 동적 차량군 관리(Dynamic fleet management) 방안을 제시하였으며, DQN 기반 정책이 무재배치 정책이나 계획기반 비교정책에 비해 미처리 요청 감소에 효과적일 수 있음을 보였다. 또한 Jiao et al.(2021)은 실제 차량호출 서비스 플랫폼을 대상으로 심층강화학습(Deep reinforcement learning)과 의사결정 시점 계획(Decision-time planning)을 결합한 차량 재배치 체계를 제안하여, 재배치 전략이 운영 효율 개선에 유의한 효과를 가질 수 있음을 제시하였다. 이러한 연구는 유휴차량 재배치가 단순 규칙 적용만으로 해결되기 어려운 순차적 의사결정 문제이며, 가치기반 강화학습이 이산적 재배치 행동을 다루는 데 유의미한 대안이 될 수 있음을 보여준다.

한편 여러 차량의 동시 의사결정과 상호작용을 직접 반영하기 위한 다중 에이전트 강화학습(Multi-Agent Reinforcement Learning, MARL) 연구도 제시되고 있다. Shou and Di(2020)는 평균 다중 에이전트 강화학습(Mean-field MARL)을 활용하여 재배치 문제를 모델링하였다. 이러한 접근은 차량 간 경쟁·협력 관계를 정교하게 반영할 수 있다는 장점이 있으나, 학습 불안정성, 보상배분 문제, 모델 설계의 복잡성도 함께 수반한다. 따라서 MARL은 대규모 차량군을 대상으로 한 연구에서는 유력한 방법이 될 수 있으나, 본 연구와 같이 제한된 차량 규모와 허브(Hub) 중심 의사결정 구조를 갖는 DRT 환경에서는 다소 과도한 설계가 될 수 있다.

이와 함께 정책기반 강화학습(Policy-based reinforcement learning) 역시 유휴차량 재배치 문제의 대안적 접근으로 고려될 수 있다. 정책기반 강화학습의 대표적 알고리즘인 PPO는 정책 갱신 시 변화 폭을 제한하는 대리 목적함수(Surrogate objective)를 활용함으로써 비교적 안정적인 학습이 가능하다는 특징을 가진다(Schulman et al., 2017). 또한 Qin et al.(2022)은 차량공유 서비스 분야의 강화학습 연구를 종합적으로 검토하면서 차량 재배치가 주문매칭, 합승, 경로결정, 요금조정과 함께 핵심 운영 의사결정 문제로 다루어지고 있음을 정리하였다. 이는 PPO와 같은 정책기반 강화학습이 유휴차량 재배치 문제에 적용 가능한 방법론임을 시사한다. 종합하면, 국내에서도 DRT 운영 효율 향상을 위한 최적화 및 정책 설계 연구가 점차 확대되고 있으며, 유휴차량 재배치와 운영구역 조정 등 다양한 운영전략 연구가 제시되고 있다. 다만 실제 운행자료를 기반으로 시간대별 수요 변화와 차량 가용 상태를 반영한 동적 유휴차량 재배치 전략을 규칙기반, 가치기반 강화학습, 정책기반 강화학습 간 비교를 통해 체계적으로 평가한 연구는 아직 많지 않다. 이에 본 논문은 기장군 DRT “타바라”의 실제 운행자료를 바탕으로 SUMO 기반 시뮬레이션 환경을 구축하고, 규칙기반 휴리스틱 정책과 DQN 기반 정책을 비교군으로 설정한 뒤, PPO 기반 유휴차량 재배치 전략의 적용 가능성과 효과를 비교·분석한다는 점에서 차별성을 가진다.

Ⅲ. 자료 수집 및 시뮬레이션 환경 구축

1. 분석 대상

분석 대상은 부산광역시 기장군 기장읍 일대 및 해운대구 송정동 일대에서 운영 중인 수요응답형 교통 “타바라”의 서비스 영역이다. <Fig. 1>은 연구대상지의 서비스 범위와 함께 주요 지점, 주요 교차로의 위치를 나타낸 것이다. 초기의 타바라는 대중교통 인프라가 취약한 오시리아역, 관광단지, 오랑대공원 등 15개 정류장을 중심으로 운영되었으며, 이후 부산시의 ‘빅데이터 기반 시내버스 노선 개편’과 연계하여 송정동 일대로 서비스 영역이 확장되었다(Munhwailbo, 2025).

Fig. 1

Service area of the Gijang-gun Tabara DRT

2. 자료 수집 및 전처리

분석에는 기장군 DRT “타바라”의 2025년 8월, 9월, 10월, 약 3개월간의 운행 데이터를 활용하였다. 원자료의 총 호출 수는 48,156건이며, 이 중 배차·운행이 성립되어 대기시간 및 탑승시간 분석에 사용된 호출은 38,385건이다. 이 데이터는 서비스 요청 시간 및 배차 시간, 운행 시간, 승·하차 정류장, 배차 성공 여부, 운행 차량 ID 등 운행 전반에 걸친 변수들을 포함하고 있다. 이를 통해 시나리오별로 평균 대기시간, 평균 탑승시간을 산출하였다.

또한, 분석의 신뢰성을 확보하고 실제 운영환경에서 발생할 수 있는 기록 오류와 비정상치를 완화하기 위해, 수집된 로그 데이터에 대해 상·하한 보정 방식의 이상치 처리를 적용하였다. 이는 극단값을 제거하는 대신 사전에 설정한 임계값으로 대체함으로써 표본 수를 유지하면서도 이상치의 영향을 완화하는 방법으로, 통계 자료 정제 과정에서 널리 활용되는 윈저화(Winsorization) 계열의 처리 방식에 해당한다. 이상치 및 결측치 관리가 분석 결과에 상당한 영향을 미칠 수 있으며, 윈저화가 표본의 손실 없이 극단값의 영향력을 줄일 수 있는 실용적인 방법이라는 점은 기존 통계 방법론 연구에서도 제시된 바 있다(Kwak and Kim, 2017).

전처리 이전 기술통계를 보면, 대기시간은 평균 496.9초, 표준편차 377.3초, 최소 9초, 최대 4,312초였으며, 탑승시간은 평균 555.8초, 표준편차 434.3초, 최소 4초, 최대 24,909초로 나타났다. 이처럼 일부 극단값이 포함되어 있어 실제 운영 상황을 대표하는 지표를 도출하기 위해 상·하한 보정이 필요하다고 판단하였다.

첫째, 대기시간은 1분 이상 30분 이하 범위로 보정하였다. 1분 미만의 기록 755건(분석 대상의 1.97%)은 호출 이후 차량 배차, 정차 및 승객 탑승에 필요한 최소 서비스 시간이 충분히 반영되지 않았거나 시스템 기록 오차가 포함된 경우로 판단하여 60초로 조정하였다. 이러한 하한값은 호출형 교통서비스의 물리적 처리시간과 실제 데이터 분포를 종합적으로 고려하여 설정한 기준이다. 반면, 30분을 초과하는 기록 350건(0.91%)은 비정상적 지연 또는 예외적 운영 상황이 반영된 극단값으로 보고 1,800초로 상한 처리하였다. 상한값은 국내 DRT 관련 운영 검토 자료에서 대기시간을 주요 서비스 성과지표로 관리하고 운영기준 설정 시 차량 대기시간을 고려할 필요가 있음을 제시한 점을 참고하되, 실제 운영 로그의 분산과 표본 보존의 필요성을 함께 고려하여 보다 완화된 30분으로 설정하였다. 즉, 본 연구의 30분 기준은 공식 기준치를 그대로 적용한 값이 아니라, 국내 운영기준 논의와 실제 데이터 분포를 종합적으로 반영한 연구상 보정 기준이다. 또한, 국내 선행자료에서는 DRT 도입 및 운영 과정에서 서비스 기준과 운영 가이드라인이 함께 제시되고 있다(Im and Hong, 2024b; MOLIT, 2025). 결과적으로 대기시간은 총 1,105건(2.88%)이 보정되었다.

둘째, 탑승시간은 2분에서 60분 사이의 값으로 보정하였다. 하한값 2분은 대상 지역 내 인접 정류장 간 최소 이동 가능 시간을 기준으로 설정하였으며, 이에 따라 2분 미만의 기록 435건(1.13%)은 실제 운행으로 보기 어려운 비정상치로 판단하여 120초로 보정하였다. 상한값 60분은 사고, 장시간 정체, 기록 누락 등 이례적 상황이 반영된 극단값의 영향을 줄이기 위한 연구상 기준으로 설정하였으며, 60분을 초과하는 기록 7건(0.02%)은 3,600초로 상한 처리하였다. 결과적으로 탑승시간은 총 442건(1.15%)이 보정되었다.

이러한 전처리를 통해 데이터의 손실 없이 전체 호출 건에 대한 분석의 정밀도를 향상시켰으며, 실제 서비스 가용 범위 내에서의 성과 지표를 도출하고자 하였다. 전처리 이후 시나리오별 기술통계는 <Table 1>과 같다.

<Table 1>

Descriptive statistics of waiting and riding times in the preprocessed Gijang-gun Tabara DRT data(unit:sec)

Scenario	Mean_waiting_time	SD_waiting_time	Mean_riding_time	SD_riding_time
Weekday_offpeak	460.9	328.7	520.9	328.6
Weekday_peak	456.2	334.0	521.3	361.2
Weekend/Holiday	555.3	404.3	610.4	397.5

3. 수요 및 교통 특성 분석

1) 수요 패턴 및 OD 분포 분석

본 연구에서는 실제 운행 데이터로부터 시나리오별 시간대 수요 패턴, 기종점(OD) 분포, 특정 정류장 편중 특성을 분석하여 시뮬레이션 입력자료를 도출하였다. 첫째, 시간적 수요 강도(Temporal demand intensity)를 분석하였다. 평일과 주말·공휴일을 구분하여 1시간 단위 호출 빈도를 집계함으로써 수요 변동의 변곡점을 식별하고, 이를 시나리오 분류의 근거로 활용하였다(Franco et al., 2020). 이는 DRT 수요가 시간대별로 상이하게 나타나므로, 실제 운영자료에 기반한 시계열적 수요 특성을 모형에 반영할 필요가 있다는 선행연구의 접근과 맥락을 같이한다. 둘째, 확률적 OD 행렬을 구축하고 수요 스케일링을 적용하였다. 수집된 개별 요청자료로부터 OD 행렬을 도출하고 각 노드 간 상대적 이동 비율을 산출한 뒤, 시뮬레이션에서는 전체 호출 총량만 시나리오 목적에 맞게 조정하되 사전에 정의된 OD 확률 분포는 유지하도록 하였다(Mahfouz et al., 2025). 이는 실제 교통흐름의 고유한 공간구조를 보존하면서도 다양한 수요 수준을 실험할 수 있게 한다. 셋째, 시나리오별 정류장 기반 수요 편중 패턴을 반영하였다. 출퇴근 및 관광 수요가 특정 거점에 집중되는 공간적 편향성을 반영하기 위해 정류장별 요청 빈도를 집계한 후 상대 비율로 정규화하였으며, 이를 통해 평일 첨두의 역 중심 수요, 주말·공휴일의 관광지 중심 수요와 같은 상이한 수요 집중 패턴이 시뮬레이션 상에서 재현되도록 설계하였다(Calabrò et al., 2023). 이러한 수요모형은 PPO 에이전트가 단순히 호출 총량 변화에 대응하는 수준을 넘어, 거점별 수요 불균형 상황에 최적화된 선제적 재배치 전략을 학습할 수 있는 환경적 기반을 제공한다.

2) 배경 교통량 산정

배경 교통량은 DRT 차량 외 일반 차량 흐름이 서비스 성능에 미치는 영향을 반영하기 위해, 대상지 인근 주요 거점의 교통량 자료를 참조하여 설정하였다. 교통량 산정을 위해 기장군 내 교리삼거리 및 기장일광 IC 등의 일교통량과 시간대별 통행량 자료를 활용하였다. 다만 해당 지점들은 국도 및 고속도로 접속부로서 연구 대상 구역 내부 도로망과 도로 위계 및 차로 수가 상이하므로, 식(1)과 같이 공간적 스케일링 계수 α와 시나리오별 교통량 조절 계수 β를 적용하여 간선도로 교통량을 서비스 구역의 배경 교통량으로 변환하였다.

Q_{b g} = α β Q_{r e f}

(1)

여기서 $Q_{b g}$ 는 서비스 구역의 배경 교통량, $Q_{r e f}$ 은 인근 간선도로의 관측 교통량을 의미한다. α는 외부 관측 교통량을 내부 도로망에 직접 적용하지 않고, 서비스 구역의 배경 혼잡 수준에 맞게 조정하기 위한 공간적 스케일링 계수이다. 본 논문에서는 대한민국 도로용량편람(KHCM) 계열 자료와 국내 도로설계기준에서 제시하는 도로 유형별 용량 및 설계서비스수준 개념을 참고하여, 내부 1~2차로 도로망과 외부 4~6차로 참조 지점 간 용량 수준 차이를 반영하는 단순화 계수로 $α = 0.3$ 을 적용하였다(Korea Transport Institute, 2007;MOLIT, 2020). 다만 이는 실측 기반의 정밀 환산계수라기보다, 외부 관측 교통량을 서비스 구역의 배경 혼잡 수준에 맞게 축소 적용하기 위한 근사적 설정값이다. β는 1시간 시뮬레이션 동안 생성되는 배경 차량 수를 기준으로 설정하였다. 교통량 계측 자료를 바탕으로 차량을 생성한 결과, 평일 첨두 시나리오에서는 시간당 약 1,724대, 평일 비첨두에서는 약 956대, 주말·공휴일에는 약 1,340대가 발생하는 것으로 나타났다. 이에 교통량이 가장 많은 평일 첨두 시나리오를 기준값(1.0)으로 두고, 나머지 시나리오를 상대적으로 정규화하여 β를 산정하였다. 이렇게 도출된 β는 시나리오별 배경 차량 발생률을 조정하는 입력값으로 활용하였다.

4. 시뮬레이션 환경 구축

1) 도로망 및 정류장 구성

시뮬레이션 프로그램으로는 SUMO(version 1.17.0)를 사용하였다. SUMO는 오픈소스 기반의 미시교통 시뮬레이터로, 실제 도로 구조와 교통 운영 특성을 반영한 네트워크 구축이 가능한 도구이다. 본 연구에서는 기장군 도로망과 DRT 정류장을 SUMO 상에 구현하여, 강화학습 기반 재배치 전략을 실험할 수 있는 시뮬레이션 환경을 구축하였다.

시뮬레이션 도로망은 OSM(OpenStreetMap)에서 기장군 일대의 도로 데이터를 추출한 후, SUMO의 네트워크 변환 도구인 넷컨버트(Netconvert)를 이용하여 구축하였다. 실제 교통 흐름을 반영하기 위하여 타바라 운행 데이터를 기반으로 도로 구간별 평균 주행 속도를 산정하고, 이를 네트워크에 적용하였다. 이를 통해 평일 첨두, 평일 비첨두, 주말·공휴일 등 시나리오별로 상이한 교통 혼잡 특성을 반영한 시뮬레이션 환경을 구성하였다.

DRT 정류장은 실제 기장군 DRT 서비스 거점을 바탕으로 총 21개소의 정류장을 네트워크 상에 구현하였다. 각 정류장은 실제 위치와 도로 연결성을 고려하여 배치하였으며, 승하차의 안정성과 차량 정차 운영을 반영하기 위해 정류장별 정차 길이와 정차 구간을 설정하였다. 이러한 실제 기장군 교통환경을 가상 환경에 반영함으로써, 재배치 전략의 효과를 보다 현실적으로 평가할 수 있도록 하였다.

<Fig. 2>는 연구대상지 도로망 추출에 사용한 OSM 활용화면 예시이며, <Fig. 3>은 Netconvert를 통해 구축한 SUMO 도로 네트워크를 나타낸다.

Fig. 2

OSM-based map of the study area

Fig. 3

SUMO road network constructed for the study area

2) 시나리오 설정

본 연구의 대상인 기장군 DRT “타바라”는 동해선 오시리아역과 송정역을 중심으로 운영되며, 기장해안로를 축으로 주요 관광 거점들을 연결하는 구조를 갖추고 있다. 서비스 운영 시간은 08:00부터 22:00까지이며, 최종 호출 가능 시간은 21:30으로 제한된다. 타바라 시범사업 성과에서 이용객의 약 28.7%가 출퇴근 목적으로 서비스를 이용하는 것으로 나타났다(Yu and Lee, 2024). 이는 본 서비스가 단순한 관광 셔틀의 기능을 넘어 지역 내 실질적인 생활 교통수단으로서 출퇴근 통행과 여가 통행이라는 이질적인 수요 층을 동시에 수용하고 있음을 보여준다. 특히 수요가 특정 시간대와 특정 거점에 과밀하게 집중되는 시공간적 불균형성이 뚜렷하게 관찰된다. 이를 반영하여 다음과 같이 세 가지 대표 시나리오로 설정하였다.

평일 첨두(weekday peak): 출·퇴근 수요가 집중되는 08~09시, 17~19시 구간
평일 비첨두(weekday offpeak): 통행이 분산되는 낮 시간대
주말·공휴일(weekend/holiday): 여가·관광 수요가 증가하는 시간대

3) DRT 수요 시나리오 생성

DRT 호출은 이용자의 개별 이동 수요에 의해 발생하는 사건으로서, 특정 시간 구간 내에서 호출이 발생할 가능성은 존재하나 각 호출의 정확한 발생 시점을 사전에 특정하기는 어렵다. 따라서 이러한 호출 발생 특성은 일정 시간 단위의 평균 발생률을 기준으로 수요를 생성하는 포아송 기반 접근으로 근사적으로 표현할 수 있다. 포아송 분포(Poisson Distribution)는 일정 시간 구간 동안 발생하는 사건의 횟수를 확률적으로 표현하는 대표적 모형으로, 교통수요와 대중교통 승객 도착, 그리고 호출형 교통서비스의 요청 발생을 모델링하는 데 활용되어 왔다(Wang et al., 2014;Dong et al., 2021). 앞 절에서 분석한 실제 수요 패턴과 OD 분포를 바탕으로, 본 절에서는 시뮬레이션 내 DRT 호출을 포아송 분포와 OD 확률 샘플링 방식으로 생성하였다.

본 연구에서는 DRT 호출을 개별 이용자에 의해 확률적으로 발생하는 사건으로 보았다. 이에 따라 짧은 시간 구간에서는 평균 호출률이 거의 일정하고, 각 시간 구간의 호출 발생은 서로 독립적으로 근사할 수 있다고 가정하였다. 또한 단위 시간 구간 동안의 호출 수는 포아송 분포를 따른다고 보았으며, 시나리오별 기본 수요율과 에피소드별 수요 스케일 계수를 통해 시간대별·에피소드별 수요 변동을 반영하였다.

포아송 분포의 모수 $λ$ 는 단위 시간당 평균 호출 발생률을 의미하며, 시나리오별 기본 수요율 $λ_{0}$ 에 수요 스케일 계수 $η$ 를 곱하여 설정하였다. 기본 수요율 $λ_{0}$ 는 약 3개월간의 기장군 DRT 실제 운행 로그를 분석하여 산정하였다. 또한, 에피소드별 수요 변동성을 반영하기 위해 수요 스케일 계수 $η$ 를 도입하였다. 실제 운행 데이터를 분석한 결과, 동일 시간대의 시간당 호출 수는 평균 대비 대체로 약 10~20% 수준의 변동을 보였다. 이에 따라 $η$ 를 0.8~1.2 범위의 균등분포에서 샘플링하도록 식(2)와 같이 설정하였다. 실제 시뮬레이션에서 적용되는 수요율 $λ$ 는 다음 식(3)과 같이 정의된다.

η ~ U (0.8, 1.2)

(2)

λ = λ_{0} • η

(3)

이때 시간 $t$ 에서 단위 시간 구간 $Δ t$ 동안 발생하는 호출 수 $N (t)$ 는 포아송 분포를 따른다고 가정하였으며, 호출이 $k$ 회 발생할 확률은 식(4)와 같이 표현된다.

\Pr [N (t) = k] = \frac{{(λ Δ t)}^{k}}{k!} e^{- λ Δ t}, k = 0, 1, 2 \dots

(4)

Pr[ $N (t) = k$ ]: 시간 구간 $Δ t$ 동안 호출이 $k$ 회 발생할 확률

$N (t)$ : 시간 구간 $Δ t$ 동안 발생하는 호출 수

$λ$ : 해당 에피소드에서 적용되는 단위 시간당 호출 발생률 (calls/sec)

$Δ t$ : 수요 발생을 관측하는 시간 구간

$k$ : 해당 시간 구간 동안 발생한 호출 횟수

포아송 과정에 의해 호출 발생 시점이 결정되면, 생성된 호출의 출발지와 목적지는 실제 기장군 DRT 운행 로그에서 관측된 정류장 간 OD 분포를 기반으로 확률적으로 선택하였다. 각 OD 쌍의 선택 확률은 실제 데이터에서 관측된 호출 비율을 기반으로 식(5)와 같이 정의하였다.

P_{i j} = \frac{D_{i j}}{\sum_{i} \sum_{j} D_{i j}}

(5)

$P_{i j}$ : 정류장 $i$ 에서 $j$ 로 이동하는 OD 쌍이 선택될 확률

$D_{i j}$ : 실제 운행 데이터에서 관측된 해당 OD 쌍의 호출 수

위 방식을 통해 실제 운행 데이터에서 관측된 수요 특성을 반영하여 DRT 호출 수요 시나리오를 생성하였다.

4) 배경 교통 시나리오 생성

앞 절에서 산정한 시나리오별 배경 교통량을 바탕으로, SUMO의 RandomTrips 도구를 이용하여 일반 차량을 생성하고 이를 시뮬레이션 네트워크에 주입하였다. RandomTrips는 네트워크 내 임의의 출발지와 목적지를 선택하여 차량을 생성하는 기능을 제공하며, 지정된 교통량 조건에 따라 차량 발생률을 조정할 수 있다. 본 연구에서는 앞 절에서 산정한 시나리오별 목표 교통량을 기반으로 RandomTrips를 이용하여 일반 차량을 생성하고, 이를 통해 DRT 차량 외 일반 차량 흐름을 시뮬레이션 환경에 반영하였다.

배경 교통 시나리오는 평일 첨두, 평일 비첨두, 주말·공휴일의 세 가지 시나리오로 구성하였다. 학습 및 평가 시에는 에피소드 시작 시 하나의 시나리오가 선택되며, 해당 에피소드 동안에는 동일한 시나리오의 교통 조건을 유지하도록 설정하였다. 본 연구의 기본 실험 설정에서 에피소드 길이는 1시간(3,600초)으로 설정하였으며, 시나리오별로 다수의 에피소드(예: 100회)를 반복 수행하여 정책의 성능을 비교하였다. 이를 통해 서로 다른 교통 혼잡 수준과 수요 환경이 DRT 운영 전략에 미치는 영향을 분석하였다. 앞 절에서 산정한 배경 교통량을 기반으로 시간대별 차량 발생률을 설정하여 시뮬레이션 네트워크에 차량을 주입하였다. 또한, 시나리오별 교통 혼잡 수준을 보다 현실적으로 반영하기 위해 도로 링크의 평균 주행 속도를 시나리오별로 다르게 적용하였다. 이와 같이 생성된 배경 교통 흐름은 시뮬레이션 환경에서 DRT 차량과 함께 운영되며, 도로 혼잡 수준을 반영한 상태에서 유휴차량 재배치 전략이 서비스 성능에 미치는 영향을 평가하는 데 활용하였다.

5) SUMO-TraCI 강화학습 연계 구조

시뮬레이션 환경은 SUMO와 교통 제어 인터페이스(Traffic Control Interface, TraCI)를 활용한 강화학습 연계 구조로 구성하였다. TraCI는 외부 프로그램이 SUMO 시뮬레이터와 실시간으로 상호작용할 수 있도록 하는 인터페이스로, 차량 상태 조회 및 제어 명령 전송 기능을 제공한다(Eclipse SUMO, 2022).

에피소드 시작 시 SUMO 서버가 실행되며, 선택된 시나리오에 해당하는 DRT 수요 및 배경 교통 파일을 로딩하여 시뮬레이션을 초기화한다. 이후 시뮬레이션은 일정 시간 간격으로 진행되며, 각 의사결정 시점마다 TraCI를 통해 현재 네트워크 상태 정보를 수집하고 이를 강화학습 에이전트의 상태(state)로 전달한다.

강화학습 에이전트는 현재 상태를 기반으로 유휴차량 재배치 행동(action)을 결정하며, 해당 행동은 TraCI를 통해 SUMO 시뮬레이터에 전달되어 차량 이동 명령으로 적용된다. 이후 시뮬레이션이 다음 단계로 진행되면서 승객 대기시간, 서비스 완료 여부, 차량 이동 거리 등의 정보를 집계하여 보상(reward)을 계산한다.

이와 같은 과정을 반복하여 에피소드가 종료될 때까지 시뮬레이션을 수행하며, 각 단계에서 관측된 상태와 보상을 기반으로 강화학습 정책을 학습한다.

5. 강화학습 기반 재배치 모형 설계

1) 마르코프 결정과정(Markov Decision Process, MDP) 정식화

본 연구에서는 유휴차량 재배치 문제를 특정 시점의 재배치 결정이 이후 차량 분포와 수요 대응에 영향을 미치는 순차적 의사결정 문제로 보았다(Shou et al., 2020). 따라서 이를 마르코프 결정과정(MDP)으로 정식화하고, 상태, 행동, 보상 요소로 구성하였다(Sutton and Barto, 2018;Puterman, 1994). 연구의 공간 단위는 타바라 서비스의 승·하차 정류장이며, 강화학습 기반 재배치 모형에서는 이를 차량의 수요·공급을 집계하고 재배치 의사결정을 수행하는 운영 거점으로 활용하였다. 이에 따라 이하에서는 각 정류장을 운영상 거점이라는 의미에서 허브로 통일하여 사용한다. 에이전트는 시뮬레이션 환경에서 관측되는 수요 및 교통 상태 정보를 기반으로 허브별 차량 재배치 행동을 선택하며, 그 결과로 발생하는 승객 대기시간 및 차량 이동 거리 변화를 통해 보상을 획득하고 정책을 반복적으로 학습한다. 본 연구에서 정의한 MDP의 구성 요소는 식(6)과 같다.

M = (S, A, P, R, γ)

(6)

S: 허브별 차량 수, 최근 수요·배차·통계, 주요 OD 간 추정 소요시간

A: 각 의사결정 시점에서 유휴차량의 재배치 목적 허브를 선택하는 행동 공간

P: DRT 요청 발생, 배차 결과, SUMO상의 차량 이동에 의해 결정되는 상태 전이 확률

R: 서비스 수준과 운영 효율성을 반영하는 단계 보상 함수

γ: 할인율 (본 연구에서는 0.99 사용)

강화학습에서 에이전트는 현재 시점의 즉시 보상뿐 아니라 미래 시점에 발생할 보상까지 고려하여 정책을 학습하며, 시점 $t$ 에서의 누적 할인보상은 식(7)과 같이 정의된다.

G_{t} = \sum_{k = 0}^{T - t - 1} γ^{k} r_{t + k + 1}

(7)

여기서 $G_{t}$ 는 시점 $t$ 에서의 누적 할인보상, $r_{t + k + 1}$ 는 미래 시점에서의 단계 보상, $T$ 는 에피소드 종료 시점을 의미한다. 할인율 $γ$ 는 미래 보상에 부여하는 가중치를 결정하며, $γ$ 가 1에 가까울수록 미래 보상을 현재 보상과 유사한 수준으로 반영하고, 0에 가까울수록 즉시 보상을 상대적으로 중시하게 된다. 본 연구의 유휴차량 재배치 문제는 특정 시점의 재배치 결정이 이후 승객 대기시간, 공차 이동거리 및 미처리 호출에 연쇄적으로 영향을 미치므로, 단기적인 대기시간 감소뿐 아니라 미래 수요에 대비한 선제적 차량 재배치의 효과를 함께 고려할 필요가 있다. 이에 따라 미래 성과를 충분히 반영하되, 유한한 에피소드 내에서 과도한 장기 의존성이 발생하지 않도록 $γ = 0.99$ 를 적용하였다.

2) PPO 알고리즘 개요

본 연구에서는 유휴차량 재배치 문제를 순차적 의사결정 문제로 보고, 정책 기반 강화학습 알고리즘인 PPO를 적용하였다. PPO는 현재 정책과 이전 정책의 차이를 확률비율로 계산하고, 그 변화 폭이 일정 범위를 넘지 않도록 제한하는 클리핑(Clipping) 기반 목적함수를 사용함으로써 안정적인 정책 갱신을 유도한다(Schulman et al., 2017). 시점 $t$ 에서의 정책 확률비율은 식(8)과 같이 정의된다.

r_{t} (θ) = \frac{π_{θ} (a_{t} ∣ s_{t})}{π_{θ_{o l d}} (a_{t} ∣ s_{t})}

(8)

여기서 $π_{θ} (a_{t} ∣ s_{t})$ 는 현재 정책이 상태 $s_{t}$ 에서 행동 $a_{t}$ 를 선택할 확률이며, $π_{θ_{o l d}} (a_{t} ∣ s_{t})$ 는 이전 정책의 선택확률을 의미한다. PPO의 클리핑 목적함수는 식(9)와 같이 정의된다.

L^{c l i p} (θ) = {\hat{E}}_{t} [\min (r_{t} (θ) {\hat{A}}_{t}, clip (r_{t} (θ), 1 - ϵ, 1 + ϵ) {\hat{A}}_{t})]

(9)

여기서 ${\hat{E}}_{t}$ 는 시점 $t$ 의 대한 경험적 기댓값을 의미하며, ${\hat{A}}_{t}$ 는 시점 $t$ 의 이점 추정치(Advantage estimate)이고, $ϵ$ 는 정책 변화 폭을 제한하는 클리핑 계수(Clipping coefficient)이다. 식(9)는 새로운 정책이 이전 정책에 비해 과도하게 변하는 것을 방지함으로써, 보상 분산이 크고 상태 변화가 빠른 환경에서도 비교적 안정적인 학습을 가능하게 한다. 본 연구의 유휴차량 재배치 문제에서는 특정 시점의 재배치 결정이 이후 허브별 차량 가용 수준, 승객 대기시간, 공차 이동거리 및 미처리 호출에 연쇄적으로 영향을 미치므로, 이러한 안정적 정책 갱신 특성이 중요하다.

또한 PPO는 정책을 직접 학습하는 방식이므로, 허브별 수요와 차량 공급 상태, 시나리오 정보, 에피소드 진행 상황 등이 결합된 복합적인 상태공간에서도 비교적 유연하게 적용할 수 있다. 본 연구에서는 PPO 에이전트가 시뮬레이션 환경으로부터 허브별 대기 승객 수, 유휴차량 분포, 시나리오 정보 및 시간 진행 정보를 상태로 입력받고, 각 의사결정 시점에서 재배치 목적 허브를 행동으로 선택하도록 설계하였다. 이후 선택된 행동의 결과로 나타나는 승객 대기시간, 공차 이동거리 및 미처리 호출 수준을 보상에 반영함으로써, 이용자 서비스 수준과 운영 효율을 함께 고려하는 정책을 학습하도록 하였다. 사용한 주요 PPO 하이퍼파라미터는 <Table 2>와 같다. PPO 에이전트는 MlpPolicy를 사용하였고, 총 학습 스텝 수는 200,000으로 설정하였다. 또한 단계 수(n_steps)는 256, 배치 크기(batch size)는 64로 설정하였으며, 그 외 학습률(learning rate), 에폭 수(n_epochs), 일반화 이점 추정 계수(Generalized Advantage Estimation, GAE)의 $λ$ 값(gae_lambda), 클리핑 범위(clip range) 등은 Stable-Baselines3의 PPO 기본 설정을 사용하였다.

<Table 2>

PPO Hyperparameters used in this study

Hyperparameter	Value
Policy	MlpPolicy
Learning rate	0.0003
Number of steps(n_steps)	256
Batch size	64
Number of epochs(n_epochs)	10
Discount factor(γ)	0.99
GAE lambda(gae_lambda)	0.95
Clip range(Clipping coefficient, ε)	0.2
Entropy coefficient	0.0
Value function coefficient	0.5
Max gradient norm	0.5
Total timesteps	200,000

3) 상태·행동·보상 설계

(1) 상태 설계

시간 $t$ 에서의 상태 $s_{t}$ 는 허브별 수요와 차량 공급 상황을 반영하도록 설계하였다. 상태 정보는 공간적 요소와 시간적 요소를 함께 고려하여 구성하였다.

먼저 공간적 요소로서 기장군 내 각 허브에 대해 대기 승객 수와 해당 허브에 배치되어 있거나 인접한 유휴차량 수를 집계하여 허브 인덱스(Index)순으로 배열한 벡터를 구성하였다. 이를 통해 각 허브의 수요 집중도와 차량 공급 수준을 표현하였다.

또한, 에피소드 진행률(현재 시간/에피소드 길이)과 평일 첨두, 평일 비첨두, 주말·공휴일을 구분하는 시나리오 정보를 상태 변수로 포함하여 동일한 공간 상태라도 시간대 및 운영 상황에 따라 다른 재배치 전략을 학습할 수 있도록 하였다. 각 상태 변수는 학습 안정성을 위해 사전에 설정한 기준값을 기준으로 정규화하였다.

이와 같이 허브별 수요-공급 상태와 시간 정보를 결합하여 상태 벡터 $s_{t}$ 를 구성하였으며, 이를 통해 PPO 에이전트가 시스템 전반의 수요-공급 불균형을 고려한 유휴차량 재배치 의사결정을 수행하도록 하였다.

(2) 행동 설계

에이전트의 행동 $a_{t}$ 는 의사결정 시점마다 유휴차량의 재배치 목적이 되는 허브를 선택하는 것으로 정의한다. 허브가 $N$ 개일 때 행동공간은 식(10)과 같은 이산 공간으로 구성된다.

A = {0, 1, 2, \dots, N - 1}

(10)

여기서 각 값은 사전에 정의된 특정 허브를 의미한다. 에이전트가 시점 $t$ 에서 행동 $a_{t} = i$ 를 선택하면, 해당 시점의 재배치 대상 차량은 허브 인근 도로 링크를 목적지로 하여 이동하도록 설정된다. 즉, 행동은 현재 시점에서 어느 허브를 우선적으로 지원할 것인가를 결정하는 역할을 한다. 이와 같은 단일 허브 선택 방식의 행동 설계를 통해 행동공간의 복잡도를 줄이고, 정책이 시간대별 수요 분포와 허브별 수요–공급 불균형을 고려하여 효과적인 재배치 방향을 학습하도록 하였다.

(3) 보상 설계

보상 함수는 승객의 대기시간을 최소화하는 것을 1차 목표로 하되, 과도한 유휴 이동거리 및 미처리 호출을 동시에 억제할 수 있도록 선형 결합 형태로 구성하였다. 이용자 서비스 수준을 가장 중요한 성능 지표로 보아 승객 대기시간 항에 가장 높은 중요도를 부여하고, 공차 이동거리와 미처리 호출 수는 운영 효율성과 서비스 실패를 반영하는 패널티 항으로 포함하였다. 이에 따라 보상은 식(11)과 같이 정의하였다.

r_{t} = - c (α W_{t} + β D_{t})

(11)

$r_{t}$ : 시점 $t$ 에서 에이전트가 환경으로부터 받는 단계 보상

$W_{t}$ : 시점 $t$ 부터 다음 의사결정 시점까지 요청 1건당 평균 대기시간(분)

$D_{t}$ : 같은 구간에서 요청 1건당 평균 재배치 이동거리(km)

$c$ : 전체 보상 스케일 계수

$α$ , $β$ : 각 항의 상대적 중요도를 나타내는 가중치

본 연구에서는 $c = 10.0$ , $α = 1.0$ , $β = 0.2$ 를 적용하였다. 이는 대기시간 감소를 최우선 목표로 두되, 과도한 재배치 이동은 낮은 수준의 패널티로 반영하기 위한 설정이다. 또한 에피소드 종료 시점에는 미처리 호출의 비율과 잔여 대기시간을 반영하기 위한 종료 시점 패널티(Terminal penalty)를 식(12)와 같이 추가하였다.

r_{T}^{t e r m i n a l} = - c (α_{u} U_{T} + β_{u} {\bar{W}}_{T}^{u})

(12)

$U_{T}$ : 에피소드 종료 시점의 미처리 호출 비율

${\bar{W}}_{T}^{u}$ : 미처리 호출의 요청 1건당 평균 잔여 대기시간(분)

종료시점 패널티는 $α_{u} = 0.5$ , $β_{u} = 0.05$ 로 설정하였다. 이를 통해 정책이 단기적인 대기시간 감소뿐 아니라, 종료 시점까지 해소되지 못한 호출 부담도 함께 고려하도록 하였다.

Ⅳ. 분석 결과

1. 평가 지표 및 비교 방법

본 연구에서는 SUMO 시뮬레이션을 통해 기장군 DRT 운영 환경을 구현하고, 재배치 미적용 정책, 규칙기반 휴리스틱 정책, DQN 기반 재배치 정책, PPO 기반 재배치 정책의 성능을 비교하였다. 수요 생성은 실제 운행 데이터를 바탕으로 도출한 시나리오별 시간대 수요 패턴과 허브별 OD 분포를 반영하여 구성하였으며, 각 시나리오에 대해 100회 에피소드 평가를 수행하였다. 평가는 동일한 에피소드 조건에서 네 가지 정책을 대응 비교하는 방식으로 수행하였다. 즉, 각 에피소드에서 발생하는 호출 수요와 취소·노쇼 이벤트가 모든 정책에서 동일하게 유지되도록 설정하여, 수요 실현의 차이가 아니라 정책 구조의 차이에 따른 성능 변화를 비교할 수 있도록 하였다. 휴리스틱 정책은 각 의사결정 시점에서 현재 관측된 허브별 대기수요가 가장 큰 허브를 재배치 목적지로 선택하도록 구성하였고, DQN 및 PPO 정책은 각각 학습 과정에서 저장된 best model을 사용하여 평가하였다.

주요 평가 지표는 평균 픽업 대기시간, 누적 미처리 호출 수, 서비스 완료 건수, 공차 이동거리로 설정하였다. 평균 픽업 대기시간은 이용자 서비스 수준을 나타내는 핵심 지표이며, 미처리 호출 수는 운영 과정 전반에서 누적된 서비스 부담을 반영하는 지표로 활용하였다. 서비스 완료 건수는 에피소드 종료 시점까지 완료된 호출 수의 평균으로 산정하였고, 공차 이동거리는 재배치에 따른 추가 운영비용을 평가하기 위한 지표로 사용하였다.

정책 간 차이의 통계적 유의성은 에피소드 단위 결과를 바탕으로 검토하였다. 본 연구의 데이터는 동일한 에피소드를 기준으로 여러 정책을 반복 측정한 구조이므로, 반복측정 비교에 적합한 검정이 필요하다. 또한 대기시간, 미처리 호출 수, 공차 이동거리와 같은 지표는 정규성을 만족한다고 보기 어려우므로, 4개 정책 전체 차이에 대해서는 비모수 반복측정 검정인 Friedman 검정을 적용하였고, 정책 간 쌍대 비교는 Wilcoxon signed-rank test를 이용하였다. 아울러 여러 정책 간 쌍대 비교를 반복할 경우 우연에 의해 유의한 차이가 나타날 가능성이 증가할 수 있으므로, 다중비교에 따른 제1종 오류를 완화하기 위해 Holm 보정을 함께 수행하였다.

2. PPO 학습 결과

<Fig. 4>와 <Fig. 5>는 각각 PPO와 DQN의 학습 과정에서 에피소드 평균 보상 변화를 나타낸다. 두 알고리즘 모두 주말·공휴일, 평일 비첨두, 평일 첨두 순으로 높은 보상 수준이 관찰되어, 시나리오별 수요 집중도와 차량 가용성의 차이에 따른 학습 난이도를 유사하게 반영하는 것으로 나타났다.

Fig. 4

Mean episode reward during PPO training

Fig. 5

Mean episode reward during DQN training

먼저 PPO 학습곡선을 보면, 세 시나리오 모두 학습 초기에 에피소드 평균 보상이 빠르게 상승한 이후 일정 범위 내에서 반복적으로 변동하는 양상을 보였다. 학습 후반부에도 보상 값의 진동이 완전히 소멸되지는 않았으므로, 본 연구는 이를 엄밀한 의미의 완전 수렴으로 해석하지는 않았다. 다만 후반부에서 평균 보상 수준이 일정 범위 내에서 유지되며 추가적인 상승 추세가 제한되었고, 급격한 발산이나 붕괴 없이 유사한 수준의 변동이 반복되었다는 점에서 PPO 정책은 실험적으로 안정화된 상태에 도달한 것으로 판단하였다. 이는 본 연구의 시뮬레이션 환경이 수요 발생, 취소 및 노쇼, 배경교통 등 확률적 요소를 포함하고 있기 때문에 에피소드 보상이 완전히 평탄한 형태로 수렴하기 어려운 특성과도 관련된다.

DQN 학습곡선과 비교하면, PPO는 전반적으로 더 높은 평균 보상 수준을 유지하는 경향을 보였다. 특히 평일 첨두 시나리오에서는 PPO의 평균 보상 수준이 DQN보다 상대적으로 높게 나타나, 수요 집중이 큰 환경에서 PPO가 보다 안정적으로 정책을 학습했을 가능성을 시사한다. 또한 PPO의 학습곡선은 DQN에 비해 변동 폭이 다소 완만한 양상을 보여, 정책 갱신 시 변화 폭을 제한하는 PPO의 특성이 학습 안정성 측면에서 일정 부분 작용한 것으로 해석할 수 있다. 반면 DQN 역시 전반적인 보상 추세는 PPO와 유사한 방향을 보였으며, 학습이 진행됨에 따라 일정 수준의 정책을 형성한 것으로 판단된다.

종합하면, PPO는 학습 과정에서 비교적 높은 평균 보상 수준과 완만한 학습 양상을 보였으며, 특히 수요 집중도가 높은 시나리오에서 이러한 경향이 상대적으로 두드러졌다. 따라서 본 연구에서는 PPO가 복합 상태를 반영한 재배치 정책을 안정적으로 학습할 수 있는 방법론적 가능성을 확인하였으며, 해당 정책의 최종 운영 성과는 다음 절에서 시나리오별 평가 결과를 통해 구체적으로 검토하였다.

3. 시나리오별 성능 비교 및 결과 분석

본 절에서는 시나리오별 100회 에피소드 평가 결과를 바탕으로 재배치 미적용(Baseline), 규칙기반 휴리스틱(이하 휴리스틱), DQN 기반 재배치, PPO 기반 재배치 정책의 성능을 비교·분석하였다. 비교 지표는 평균 픽업 대기시간, 누적 미처리 호출 수, 서비스 완료 건수, 공차 이동거리로 설정하였다. <Table 3>은 시나리오별 4개 정책의 평균 성능을 비교한 결과이며, <Table 4>는 에피소드 단위 결과를 바탕으로 수행한 Friedman 검정과 사후 Wilcoxon signed-rank test 결과를 요약한 것이다. 이를 통해 평균값 차이뿐 아니라, 관찰된 성능 차이가 개별 에피소드 수준에서도 일관되게 나타나는지를 함께 검토하였다.

<Table 3>

Comparison of performance metrics across four relocation policies

Scenario	Method	Mean pickup wait(s)	Unserved	Mean served count	Idle distance(km)
Weekday peak	Baseline	515.65	288.89	44.14	146.25
	Heuristic	502.62	282.44	44.45	147.11
	DQN	499.61	281.50	44.51	146.95
	PPO	500.53	281.70	44.47	146.97
Weekday offpeak	Baseline	502.99	323.81	51.02	137.46
	Heuristic	473.68	307.81	51.71	142.40
	DQN	472.25	307.16	51.67	141.49
	PPO	471.93	306.73	51.82	141.94
Weekend/Holiday	Baseline	482.49	276.12	47.44	134.46
	Heuristic	465.95	266.49	48.15	138.77
	DQN	466.32	268.74	47.89	138.23
	PPO	468.32	269.32	47.87	138.35

<Table 3>을 보면, 세 시나리오 모두에서 재배치 적용 정책은 대체로 Baseline 대비 평균 픽업 대기시간과 누적 미처리 호출 수를 감소시키는 경향을 보였다. 특히 평일 비첨두 시나리오에서는 세 재배치 정책 모두에서 개선 폭이 상대적으로 크게 나타나, 차량 운용 여유가 있는 시간대에서 선제적 재배치가 보다 효과적으로 작동할 수 있음을 보여준다. 반면 평일 첨두와 주말·공휴일 시나리오에서는 재배치 적용에 따른 개선은 확인되었으나, 휴리스틱, DQN, PPO 간 평균 차이는 전반적으로 제한적으로 나타났다. 또한 공차 이동거리는 대부분의 경우 Baseline보다 증가하여, 서비스 수준 개선과 함께 일정 수준의 추가 운영비용이 수반됨을 확인할 수 있다.

1) 평일 첨두

평일 첨두 시나리오에서 휴리스틱은 Baseline 대비 평균 픽업 대기시간을 13.03초(2.53%) 감소시켰고, 누적 미처리 호출 수를 6.45(2.23%) 감소시켰다. 서비스 완료 건수는 0.31건(0.70%) 증가하였으며, 공차 이동거리는 0.86km(0.59%) 증가하였다. DQN은 평균 픽업 대기시간을 16.04초(3.11%) 감소시키고, 누적 미처리 호출 수를 7.39(2.56%) 감소시켰으며, 서비스 완료 건수는 0.37건(0.84%) 증가하였다. 공차 이동거리는 0.70km(0.48%) 증가하였다. PPO는 평균 픽업 대기시간을 15.12초(2.93%) 감소시키고, 누적 미처리 호출 수를 7.19(2.49%) 감소시켰다. 서비스 완료 건수는 0.33건(0.75%) 증가하였으며, 공차 이동거리는 0.72km(0.49%) 증가하였다.

즉 평일 첨두에서는 세 재배치 정책 모두 Baseline 대비 대기시간과 미처리 호출 수를 감소시키는 방향으로 작동하였으나, 휴리스틱, DQN, PPO 간 평균 차이는 매우 작았다. <Table 4>의 통계검정 결과에서도 평균 픽업 대기시간, 누적 미처리 호출 수에서 전체적인 차이가 관찰되었으나, 다중비교 보정 후 개별 정책 간 뚜렷한 우열을 확인하기는 어려웠다. 이는 첨두 시간대에는 호출 수요가 집중되어 차량이 지속적으로 운행에 투입되므로, 재배치에 활용할 수 있는 유휴차량 자체가 제한되기 때문으로 해석된다. 평일 첨두는 실제 운영 상 가장 중요한 시간대이지만, 동시에 재배치의 필요성이 가장 큰 구간이면서도 정책이 개입할 수 있는 여지가 가장 작은 구간이기도 하다. 따라서 본 연구에서 확인된 상대적으로 작은 개선 폭은 재배치 정책의 실용성이 없음을 의미한다기보다, 첨두 시간대에는 유휴차량 부족이라는 구조적 제약으로 인해 재배치 단독 효과가 제한될 수 있음을 보여주는 결과로 해석할 수 있다. 즉, 첨두 시간대의 운영 개선을 위해서는 유휴차량 재배치와 함께 차량 공급 수준 조정, 배차 전략 개선, 예측 기반 선제 대응 등의 보완적 전략이 함께 검토될 필요가 있다. 따라서 평일 첨두 시나리오에서는 재배치 적용에 따른 평균적인 개선 효과는 확인되지만, 알고리즘 구조의 차이가 최종 성능 차이로 크게 확대되지는 않은 것으로 판단된다.

<Table 4>

Statistical test results for four-policy comparison

Scenario	Metric	Friedman p-value	Significant post-hoc pairs after Holm correction
Weekday peak	Mean pickup wait	<0.001	None
	Unserved	0.006	None
	Mean served count	0.867	None
	Idle distance	0.987	None
Weekday offpeak	Mean pickup wait	<0.001	Baseline vs Heuristic; Baseline vs DQN; Baseline vs PPO
	Unserved	<0.001	Baseline vs Heuristic; Baseline vs DQN; Baseline vs PPO
	Mean served count	<0.001	None
	Idle distance	<0.001	Baseline vs Heuristic; Baseline vs DQN; Baseline vs PPO
Weekend/Holiday	Mean pickup wait	0.203	None
	Unserved	<0.001	Baseline vs Heuristic; Baseline vs DQN; Baseline vs PPO
	Mean served count	0.006	None
	Idle distance	<0.001	Baseline vs Heuristic; Baseline vs DQN; Baseline vs PPO

2) 평일 비첨두

평일 비첨두 시나리오에서는 휴리스틱이 Baseline 대비 평균 픽업 대기시간을 29.31초(5.83%) 감소시키고, 누적 미처리 호출 수를 16.00(4.94%) 감소시켰다. 서비스 완료 건수는 0.69건(1.35%) 증가하였으며, 공차 이동거리는 4.94km(3.59%) 증가하였다. DQN은 평균 픽업 대기시간을 30.74초(6.11%) 감소시키고, 누적 미처리 호출 수를 16.65(5.14%) 감소시켰으며, 서비스 완료 건수는 0.65건(1.27%) 증가하였다. 공차 이동거리는 4.03km(2.93%) 증가하였다. PPO는 평균 픽업 대기시간을 31.06초(6.18%) 감소시키고, 누적 미처리 호출 수를 17.08(5.27%) 감소시켰다. 서비스 완료 건수는 0.80건(1.57%) 증가하였으며, 공차 이동거리는 4.48km(3.26%) 증가하였다.

평일 비첨두는 본 연구에서 재배치 효과가 가장 뚜렷하게 나타난 시나리오이다. <Table 4>의 통계검정 결과에서도 평균 픽업 대기시간과 누적 미처리 호출 수는 Baseline 대비 세 재배치 정책 모두에서 유의한 차이가 확인되었다. 또한 서비스 완료 건수는 소폭 증가하였으나, 사후 쌍대 비교에서는 정책 간 유의한 차이가 확인되지 않았다. 그러나 휴리스틱, DQN, PPO 상호 간 차이는 핵심 지표 대부분에서 유의하지 않아, 비첨두 시나리오에서는 특정 알고리즘의 절대적 우월성보다 재배치 적용 자체가 더 중요한 요인으로 작용한 것으로 해석된다. 이는 평일 비첨두 시나리오가 첨두 시간대에 비해 배경 교통량이 낮고 차량 운용 여유가 상대적으로 크기 때문에, 재배치 가능한 유휴차량을 활용한 선제적 대응이 실제 서비스 수준 개선으로 연결되기 쉬웠기 때문으로 해석된다. 즉, 단순 규칙기반 방법과 학습기반 방법 모두 이러한 운영 여건에서는 기본적인 수요-공급 불균형 완화에 효과적으로 기여할 수 있음을 시사한다.

3) 주말/공휴일

주말·공휴일 시나리오에서는 휴리스틱이 Baseline 대비 평균 픽업 대기시간을 16.54초(3.43%) 감소시키고, 누적 미처리 호출 수를 9.63(3.49%) 감소시켰다. 서비스 완료 건수는 0.71건(1.50%) 증가하였으며, 공차 이동거리는 4.31km(3.20%) 증가하였다. DQN은 평균 픽업 대기시간을 16.17초(3.35%) 감소시키고, 누적 미처리 호출 수를 7.38(2.67%) 감소시켰으며, 서비스 완료 건수는 0.45건(0.95%) 증가하였다. 공차 이동거리는 3.77km(2.80%) 증가하였다. PPO는 평균 픽업 대기시간을 14.17초(2.94%) 감소시키고, 누적 미처리 호출 수를 6.80(2.46%) 감소시켰다. 서비스 완료 건수는 0.43건(0.91%) 증가하였으며, 공차 이동거리는 3.89km(2.89%) 증가하였다.

주말·공휴일 시나리오에서도 재배치 적용은 전반적으로 Baseline 대비 서비스 수준을 개선하는 방향으로 작동하였다. 다만 <Table 4>를 보면 평균 픽업 대기시간의 경우 정책 간 전체 차이가 통계적으로 뚜렷하지 않았으며, 누적 미처리 호출 수에서는 세 재배치 정책 모두 Baseline 대비 유의한 감소가 확인되었다. 공차 이동거리의 경우에는 휴리스틱 정책에서만 Baseline 대비 유의한 증가가 나타났다. 평균 성능만 보면 휴리스틱이 대기시간, 미처리 호출 수, 서비스 완료 건수 측면에서 가장 양호한 값을 보였고, DQN과 PPO는 이와 유사한 수준을 나타냈다. 이는 주말·공휴일 수요가 특정 시간대와 권역에 집중되더라도, 현재 관측된 허브별 대기수요에 반응하는 비교적 단순한 규칙만으로도 상당 수준 대응이 가능했기 때문으로 해석된다. 따라서 주말·공휴일 시나리오에서는 복잡한 학습정책의 추가적 이점이 크게 나타나지 않은 것으로 판단된다.

종합하면, 세 시나리오 모두에서 재배치 적용 정책은 Baseline 대비 평균 픽업 대기시간과 누적 미처리 호출 수를 감소시키는 경향을 보였다. 특히 평일 비첨두 시나리오에서 이러한 효과가 가장 뚜렷하게 나타나, 차량 운용 여유가 있는 시간대에서 선제적 재배치가 보다 효과적으로 작동할 수 있음을 확인하였다. 반면 휴리스틱, DQN, PPO 간 차이는 전반적으로 제한적으로 나타났으며, 시나리오에 따라 특정 방법이 일관되게 우월하다고 보기는 어려웠다. 이는 본 연구 환경에서 관찰된 핵심 효과가 특정 알고리즘의 절대적 우월성이라기보다, 유휴차량 재배치 적용 자체에서 비롯된 측면이 크다는 점을 시사한다.

Ⅴ. 결 론

본 연구는 부산광역시 기장군 DRT “타바라”를 대상으로, 실제 운행자료를 반영한 SUMO 기반 시뮬레이션 환경에서 PPO 기반 유휴차량 재배치 전략의 적용 가능성과 효과를 분석하였다. 이를 위해 실제 운행자료를 바탕으로 평일 첨두, 평일 비첨두, 주말·공휴일 시나리오를 구성하고, 유휴차량 재배치 문제를 마르코프 결정과정으로 정식화한 뒤 PPO를 적용하여 재배치 정책을 학습·평가하였다. 또한 동일한 에피소드 조건에서 재배치 미적용 정책, 규칙기반 휴리스틱 정책, DQN 기반 정책, PPO 기반 정책을 함께 비교함으로써 유휴차량 재배치 적용의 효과와 PPO의 상대적 특성을 검토하였다.

분석 결과, 재배치 적용 정책은 전반적으로 재배치 미적용 대비 평균 픽업 대기시간과 누적 미처리 호출 수를 감소시키는 경향을 보였으며, 평균 픽업 대기시간은 약 2.5~6.2%, 누적 미처리 호출 수는 약 2.2~5.3% 감소한 것으로 나타났다. 이러한 효과는 평일 비첨두 시나리오에서 가장 뚜렷하게 나타났으며, 이는 비첨두 시간대에는 첨두 시간대보다 차량 운용 여유가 상대적으로 크고, 재배치 가능한 유휴차량을 활용한 선제적 대응이 실제 서비스 수준 개선으로 연결되기 쉬웠기 때문으로 해석된다. 반면 평일 첨두에서는 유휴차량 자체가 부족하여 재배치 단독 효과가 제한되었고, 주말·공휴일에서는 수요의 시공간적 불규칙성으로 인해 알고리즘 간 성능 차이가 크게 확대되지 않은 것으로 판단된다. 통계검정 결과 역시 이러한 해석과 대체로 일치하였다. 평일 비첨두 시나리오에서는 재배치 적용 정책이 재배치 미적용 정책 대비 보다 뚜렷한 개선 효과를 보였으나, 평일 첨두와 주말·공휴일 시나리오에서는 정책 간 차이가 상대적으로 제한적으로 나타났다.

한편 PPO는 허브별 수요, 유휴차량 분포, 시나리오 정보, 시간 진행률이 결합된 복합 상태를 반영하고 정책을 비교적 안정적으로 갱신할 수 있다는 점에서 방법론적 장점이 기대되었으며, 학습 과정에서도 DQN보다 비교적 완만한 학습 양상을 보였다. 그러나 이러한 특성이 최종 시뮬레이션 운영 성과에서 휴리스틱 및 DQN 대비 뚜렷한 우월성으로 이어지지는 않았다. 이는 본 연구 환경에서 재배치 효과의 상당 부분이 특정 알고리즘의 구조적 차이보다 유휴차량 재배치 적용 자체에서 비롯되었고, 시나리오별 차량 가용성과 수요 집중 특성이 방법 간 성능 차이를 제한하였기 때문으로 해석된다. 따라서 본 연구에서 확인된 PPO의 의의는 절대적 성능 우위 자체보다, 실제 DRT 운영 환경을 모사한 조건에서 학습기반 적응형 재배치 전략으로 적용 가능함을 확인하였다는 점에 있다.

본 연구는 국내 실제 DRT 운영사례를 대상으로 유휴차량 재배치 문제를 규칙기반, 가치기반 및 정책기반 강화학습의 비교 틀 속에서 검토하고, 실제 운행자료와 미시교통 시뮬레이션을 결합하여 그 효과를 정량적으로 평가하였다는 점에서 의의를 가진다. 특히 실제 운행자료를 기반으로 수요 패턴, OD 분포, 시간대별 교통 특성을 반영한 시나리오를 구축하고, 동일한 에피소드 조건에서 여러 재배치 정책을 비교하였다는 점에서 실증적 의미가 있다. 다만 본 연구는 단일 지역 사례를 대상으로 한 시뮬레이션 기반 분석이라는 한계가 있으며, 실제 운영 환경의 다양한 외부 요인을 충분히 반영하지 못하였다. 향후에는 보다 장기간의 실제 운행자료를 활용하는 한편, 실시간 링크 속도, 구간 통행시간, 혼잡도와 같은 도로 운영 상태 정보와 미래 수요 예측값을 상태 및 보상 설계에 함께 반영함으로써, 보다 현실적인 예측 기반 선제 재배치 전략으로 확장할 필요가 있다.

Figure

Fig. 1.