Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.20 No.5 pp.157-171
DOI : https://doi.org/10.12815/kits.2021.20.5.157

A Study on the Mitigation of Taxi Supply and Demand Discrepancy by Adjusting Expected Revenues of Platform Taxi Calls

Jaein Song*, Min Hee Kang**, Kee yeon Hwang***
*Research Institute of Science and Technology, Univ. of Hongik
**Dept. of Smart-city, Univ. of Hongik
***Dept. of Urban Planning, Univ. of Hongik
Corresponding author : Kee Yeon Hwang, keith@hongik.ac.kr
2 August 2021 │ 10 August 2021 │ 5 October 2021

Abstract


As smartphones spread and ICT technologies develop, taxi services have changed from hovering to platform-based calls and reservations. This has improved the mobility and accessibility of taxi users but caused problems, such as digital observing (no-responses to calls) for either short-distance services or services during the peak-demand periods. Digital Observing means ignoring and not accepting calls when they occur, which require improvement. Therefore, this study aims to derive measures to mitigate discrepancies in taxi supply and demand by adjusting the expected revenue of each taxi service using reinforcement learning based on the Taxi operation data. The results confirmed that the average complete response rate to calls would increase from 50.29% to 54.24% when incentives are applied, and an improvement of 5.86% can be achieved in short-distance sections of less than 5,000 won incentives. It is expected that the improvement will increase profitability for drivers, reduce the waiting time for passengers, and improve satisfaction with taxi services overall.



택시호출 간 기대수익 조정을 통한 택시 수급불일치 완화방안 연구

송 재 인*, 강 민 희**, 황 기 연***
*주저자 : 홍익대학교 과학기술연구소 연구교수
**공저자 : 홍익대학교 일반대학원 산업융합협동과정 스마트도시전공 박사과정
***교신저자 : 홍익대학교 도시공학과 교수

초록


스마트폰 보급과 ICT 기술을 발전에 따라 택시영업의 형태는 배회영업에서 플랫폼 기반 영 업으로 변화해왔다. 이는 이용자의 이동성 및 접근성을 향상시키는 장점을 갖고 있지만 반대 로 단거리 및 첨두수요 시간대의 간접 승차거부 등의 문제를 지속적으로 발생시키고 있다. 간 접승차거부는 호출이 발생했을 때 이를 무시하고 수락하지 않는 경우를 의미하며 이를 개선할 필요가 있다. 이에 본 연구에서는 택시 운행 데이터를 통해 강화 학습 기반 호출 간 기대수익 조정 시뮬레이션을 수행하여 택시 수급의 불일치 완화 방안을 도출하고자 한다. 분석 결과 운 행 완료율에 따라 인센티브 지급을 할 경우 평균 운행 완료율이 50.29%에서 54.24% 수준까지 증가함을 확인하였으며 5,000원 미만 단거리 구간에서 5.86%의 개선 효과를 도출하였다. 운행 완료율의 개선으로 운전자에게는 수익성 개선, 승객에게는 대기시간 감소의 편익을 줄 수 있 을 것으로 기대되며, 택시 서비스 전반의 만족도 향상이 나타날 것으로 사료된다.



    Ⅰ. 서 론

    우리나라의 택시 공급은 과거 배회영업을 중심으로 운영되어 왔으나, 최근 스마트폰의 보급에 따라 플랫 폼 기반 호출 중심으로 운영되고 있다. 이는 전화로 택시를 부르는 ‘콜택시’와 달리 모바일 앱을 이용하여 택시를 호출하는 시스템으로 이용객의 현재 위치와 목적지만을 입력하여 보다 편리한 서비스를 제공받을 수 있는 장점을 갖고 있다. 국토교통부에 따르면, 21년 1월 기준 면허를 받은 6개 운송사업자가 운영하는 브랜 드 택시가 30,539대로 19년말 대비 18배 증가하였으며 향후 지속적으로 확대될 것을 전망하고 있다1). 택시 플랫폼 서비스가 도입됨에 따라 빠른배차, 쾌적성 및 안전성 등의 긍정적 효과(Kim and Kim, 2019)가 발생하 였으며 이는 이용자의 이동성 및 접근성을 향상시킬 수 있는 방안으로 주목받고 있음을 의미한다(Jittrapirom et al., 2018).

    이러한 긍정적인 효과에도 불구하고 ‘단거리 승차거부’, ‘특정 시간대 배차 불가’, ‘운전 중 스마트폰 알림 (배차 알림) 확인으로 인한 사고 위험(안전성 문제)’, ‘운행 중 모드를 선택하여 콜을 받지 않아야 하나 다음 배차를 위해 해당 기능을 사용하지 않는 문제’, ‘양측 간의 일방적 콜 취소’ 등의 다양한 문제점들이 발생하 고 있다. 또한, 택시에 대한 수요가 오전 · 오후 첨두시 및 대중교통이 종료되는 심야 시간에 집중됨에 비해 공급은 심야시간 운행 기피 등으로 인해 시간대별 수요에 맞는 탄력적 공급이 어려운 실정이어, 초과수요 시 간대에는 한정된 택시를 이용하기 위한 이용자들의 승차 경쟁이 높아져 불법적 승객 유치나 간접 승차거부 문제 등이 지속적으로 발생하고 있다(An, 2015). 이 중 특히 빈번하게 발생하는 문제는 플랫폼 사용에 의한 간접승차거부(Digital Observing)현상으로, 이는 택시 운전자의 경험에 따라 스스로 배차 승낙 요인(Drivers’s Decision Factors & Behavior)을 수립하여(Yazici et al., 2013;Tong et al., 2017;Xu et al., 2016) 선호하는 호출 과 비선호하는 호출을 차별적으로 운행함을 의미한다. 간접승차거부 현상의 가장 큰 요인은 운행 당 예상되 는 기대수익(SUZUKI and HINO, 2016)이 소득에 직접적으로 영향을 미치기 때문에 지속적으로 발생함을 알 수 있다. 이러한 문제를 해결하기 위해 목적지 미표시, 자동배차, 탄력요금제, 호출 인센티브 등 다양한 전략 이 제안되고 있으며, 이를 통해 택시 시장의 시 · 공간적 수급 불일치 문제 완화 방안이 모색되고 있다.

    다양한 전략 중 목적지 미표시나 자동배차 전략의 경우, 단기적으로는 간접승차거부를 완화시킬 수 있을 것으로 예상되나 장기적으로는 플랫폼 이탈 및 배회영업으로의 퇴화 등 전체적인 편익을 감소시킬 것으로 판단된다. 특히, 목적지 미표기는 법적 강제가 어려워 일부 플랫폼에 한정하여 시행할 경우 운전자의 플랫폼 이탈을 초래할 수 있다. 또한 자동배차 방안의 경우 단순 호출만 활용하는 일반택시에 강제화 하기가 어렵고 자동배차 방안을 제공한다 하더라도 운전자의 자체적 판단(배차 선호 콜과 비선호 콜2)의 구분 등)으로 인해 자동배차 방식을 신뢰하지 않을 수 있다는 한계가 존재한다. 이처럼 직접적인 배차 전략은 부정적인 효과가 발생할 수 있으므로 요금 조정이나 호출 인센티브 제공 등의 간접적인 전략 적용방안을 검토할 필요가 있을 것으로 판단된다.

    이에 본 연구에서는 택시의 수요공급의 불일치 및 간접승차거부를 완화할 수 있는 방안으로 카카오 모빌 리티의 택시 운행 데이터를 통해 강화학습 기반의 운행 인센티브 전략을 제시하고자 한다. 본 연구의 흐름은 다음과 같다. 2장에서 택시 요금 인센티브 및 교통분야 내 강화학습 방법론 적용 연구를 고찰하고, 3장에서 방법론의 설명 및 분석환경을 구성하고자 한다. 이후 4장에서 데이터 분석결과를 도출하고, 5장에서 결론 및 시사점을 제시하고자 한다.

    Ⅱ. 이론적 고찰

    본 장에서는 택시 및 유사서비스(승차공유 등)에서 호출 인센티브에 대한 연구와 교통 분야에서 적용된 강화학습 기반의 연구를 고찰하고자 한다.

    1. 호출 인센티브 관련 선행연구 고찰

    먼저 택시의 대기시간 감소와 배차문제를 해결하고 전체적인 효용을 증대시키기 위해 인센티브 지급의 필요성에 대한 연구를 고찰하였다. Richard Arnott(1996)은 택시 운행 환경에서 택시의 미작동 시간(the taxi’s idle time)에 따라 발생하는 잠재 비용이 승객의 대기시간을 증가시키는 현상(The shadow cost)으로 전이됨을 주장하였으며 총 효용 증가를 위해 운전자 인센티브 제공의 필요성을 시사하였다. 또한, Billhardt et al.(2019) 는 최근 플랫폼 기반 서비스로 운행효율성 증대 및 대기시간 감소와 같은 긍정적 효과가 발생하였으나 여전 히 택시와 승객의 매칭에 따른 배차문제를 지적하였다. 이에 다음 배차에 대한 예측을 진행하였으며 인센티 브를 통해 다음 배차 계획에 동의를 얻는 방안을 제안하여, 인센티브 지급이 전체적 편익을 제공한다고 주장 하였다.

    인센티브 제공에 따른 평가와 관련한 연구를 살펴보면, Wen et al.(2017)는 택시의 공차율에 따른 인센티브 제공에 대한 영향 평가 연구를 진행하였다. 분석결과, 택시의 공차율과 승객의 대기시간이 음의 상관관계가 있음을 확인하였으며, 평균 택시 운행시간이 길수록 공차율이 높은 것으로 나타났다. 승객과 운전자의 인센 티브에 대한 영향을 평가한 결과 승객에게 인센티브을 제공할 경우 택시 배차에 어려움이 존재하였으나 택 시에게 인센티브을 제공할 경우 배차의 한계가 해소되고 전체적으로 공차율 및 대기시간이 감소하는 것을 확인하였다. He et al.(2018)은 E-hailing에서 PSLP3) 평형 모델에 따라 승객의 예약취소에 따른 가격전략 수립 을 연구하였다. PSLP모델을 통해 예약취소에 대한 적절한 과금과 공차에 대한 보상을 설정하여 플랫폼 수익 의 최대화, 사회적 편익(The social welfare)를 최대화는 두 가지를 베이징 사례를 통해 제시하였다.

    위와 같이 호출 인센티브 제공방안과 관련하여 예상 효과 및 솔루션 모델 등 다양한 연구가 수행되고 있 으며, 실제로 2014년 중국 기업(디디추싱, 콰이디다처)에서 인센티브4) 지원 경쟁이 있었으며, 이에 따른 다양 한 연구사례를 추가적으로 고찰하였다. Su et al.(2018)는 인센티브 제공 기간에 따라 공간적 불형평성 (Inequality)이 변화하는 것을 확인하였다. 승하차 위치, 특히 택시 당 일일 승하차 수, 승하차 중심 지역 당 평균 환승거리, 승하차 장소의 지역적 분배의 확산정도 지표를 사용하여 인센티브 지급에 따른 지역적 형평 성 변화를 분석하였으며 인센티브 지급이 택시 서비스의 도시 내 지역적 불균형을 완화시키는 것으로 나타 났다. 전체적으로 인센티브에 의해 통행 행태 및 패턴이 변화하며, 도심 및 외곽지역에 양상이 변화하는 것 으로 나타났다. Leng et al.(2015)는 인센티브 경쟁 기간 동안 택시의 통행행태의 변화를 실제 데이터를 기반 으로 분석하였다. 저자는 베이징의 9천대 이상, 40일 동안의 택시 데이터를 활용하여 인센티브에 따른 택시 의 통행행태 변화를 확인하였다. 분석결과, 모든 택시의 하루 통행 수(특히 단거리)가 증가하였으며, 평균 택 시 공차 시간이 감소하는 것을 확인하였다. Fang et al.(2018)는 인센티브 경쟁에 따른 택시의 운행영역의 변 화를 분석하였다. 인센티브 지급에 따른 운행구역 및 운행패턴의 변화, 운행거리 및 탑승시간에 미치는 영향 을 분석하였으며 인센티브 제공 기간에 따라 집단을 분류하고 집단별 운행거리 및 평균 탑승시간을 확인하 였다. 확인결과, 택시와 승객에게 인센티브를 제공하는 정책은 택시 운행에 영향을 미치는 것으로 나타났으 며, 가장 높은 인센티브를 지급하는 기간에 단거리 승차거부가 최소화 되었으며 보다 효율적으로 승객을 찾 는 현상이 나타났다. 또한, 택시에 한정하여 인센티브를 지급한 기간에는 택시의 운행반경이 보다 넓어진 것 으로 확인되었으며 이는 승객에게 제공되는 인센티브가 없어 전체 수요가 감소함에 따라 운행반경을 넓힌 것으로 분석되었다. 결과적으로 인센티브가 전체 운행거리 및 평균탑승시간에 비례한 효과를 보였으며 인센 티브 정책 종료 후 일부 택시들은 인센티브 제공 이전에 행태로 변화한 것을 확인하였다.

    Fang et al.(2019)는 공유 플랫폼에서의 가격과 인센티브의 전략수립(설계)에 대한 연구를 수행하였다. 저자 는 수익성을 극대화하는 모델과 사회적 편익을 극대화하는 모델의 장단(tradeoff)이 존재함을 확인하였으며, 플랫폼은 강한 인센티브 전략을 통해 공유를 활성화시킬 수 있음을 제시하였다. 반면, Hang et al.(2019)는 인 센티브 제공에 따라 유발되는 부정적인 요인에 대해 분석하였다. 상하이 AutoNavi 데이터를 통해 인센티브 경쟁의 전후 비교분석 하였으며 혼잡계수(Congestion Delay Index, CDI) 및 운행시간의 증가와 운행속도의 감 소를 확인하였다. 이에 과도한 인센티브 지급이 시장을 와해시키는 정책으로 변질될 수 있어 사회적 편익의 감소로 이어지므로 적정한 인센티브의 책정이 매우 중요할 것으로 판단되었다. 과거부터 택시 인센티브의 필요성은 지속적으로 제기되어왔으며, 공유경제의 등장에 따라 승객의 편익 및 택시의 편익을 증대시키고자 인센티브를 제공하는 다양한 전략이 제시되고 있음을 확인하였다.

    2. 교통분야의 강화학습 기반 연구 고찰

    교통 분야에서 강화학습은 도로 시스템의 최적화와 모빌리티 서비스 제공을 위한 의사결정지원시스템의 학습 방법론으로 다수 사용되었다. 이때 개별 학습 개체인 에이전트별로 각기 다른 정책을 부여할 수 있어 신호 혹은 개별 차량 등의 미시적인 행태를 다룰 수 있으며, 변화 주기가 짧은 교통 분야의 수요공급 특성을 반영한 마르코프 연쇄 속성의 방법론으로 적용이 가능하다. 특히 강화학습은 교차로를 포함한 도로네트워크 환경에서 도심지의 교통혼잡 완화를 위한 신호시스템 제어정책의 학습 방법론으로써 다수 사용되었다. (Choi et al., 2014;Kim and Jung, 2019;Joo and Lim, 2020).

    승차공유 및 택시 등 서비스 분야에서는 실시간으로 변동하는 수요에 대응하여 공급량을 배차하기 위한 차량관리방안으로써 강화학습을 적용한 연구가 다수 수행되었다. 운전자와 승객 간의 매칭 최적화를 위해 수요공급 상황 및 도로 주변 상황 등을 포함한 상태 변수를 정의하고, 이를 토대로 모빌리티 서비스 운영자 는 최적의 차량 배차 전략을 수립할 수 있다(Wei et al., 2017;Xu et al., 2018).

    한편 강화학습은 탄력요금제를 요금전략으로 적용한 다수의 분야에서 그 학습 방법론으로 적용되었다. 그 중 교통 분야에서는 플랫폼 택시나 승차공유 서비스 등에서 수요공급 불균형 완화 및 수익 최적화와 전기자 동차의 충전을 위한 연구가 다수 진행되었다(Lei et al.,2019;Rambha and Boyles, 2016;Chen et al., 2017). 특 히 승차공유 서비스에서 차량의 효율적인 분포와 이용 극대화 방안으로써 탄력요금 결정을 위한 MDP(Markov Decision Process)를 구성하고 강화학습 기반의 최적요금 정책을 도출하였다(Wu et al., 2016;Guan et al., 2019;Kamatani et al., 2019;Song et al., 2020).

    이와 같이 강화학습은 현실에서 직접 취하기 어려운 다양한 행동(Action)을 가상의 환경에서 적용함으로 써 보상을 극대화할 수 있으며 교통 시스템 및 운영, 배차, 탄력 요금 등의 교통 분야 전반에서 활용이 가능 한 것을 알 수 있었다.

    3. 연구의 차별성

    플랫폼 택시 서비스에서 직접적으로 운행을 규제하는 전략 보다는 운전자에 대한 지나치지 않은 수준의 인센티브 제공을 통해 간접적으로 운행완료 및 승하차량을 증가시키는 방향으로 유도하는 것이 간접승차거 부 및 다양한 문제(수요밀집 지역만으로의 이동 등)를 완화시킬 수 있는 적절한 대안으로 판단된다.

    이에 앞서 고찰한 연구들을 통해 호출 인센티브의 제공이 배차완료율을 증가시켰으며 특히 단거리 운행 에 효과적임을 확인하였다. 또한, 수요가 밀집되는 지역에 대한 분산과 공차율 감소, 승객 대기시간 감소 등 의 긍정적 현상이 나타나는 것을 알 수 있었다. 실제로 2014년 중국 인센티브 과열경쟁 사례에서 운전자에게 인센티브를 제공할 경우 운행완료 및 예약 증가가 나타났으며 인센티브 제공에 따라 택시 운행 지역/승하차 량 변화, 인센티브를 지속적으로 받기 위해 단거리 운행 증가 등의 긍정적인 영향이 나타났다. 그러나 일부 연구에서 인센티브를 지급하는 것은 교통혼잡을 야기하여 사회 전체적 편익을 저해시키며 진정한 의미의 공 유경제 실현을 방해하는 요소로 작용할 것이라고 지적하였으며, 이에 따라 적정한 인센티브의 산정이 필수 적으로 요구됨을 확인하였다.

    이처럼 다양한 연구들에서 제시된 것과 같이 택시에 적정 인센티브를 제공할 경우 보다 긍정적인 효과가 나타나는 것을 확인하였으며, 강화학습의 경우 현실에서 직접적으로 행하기 어려운 다양한 행동을 가상 환 경에 취함으로써 실제 현실 적용에 따른 리스크 최소화할 수 있어 교통분야에서 활용됨을 알 수 있었다. 이 에 본 연구에서는 카카오모빌리티의 택시 운행 데이터를 기반으로 적정 호출 인센티브를 도출하기 위해 강 화학습 방법론으로 인센티브 제공환경을 시뮬레이션하고자 한다. 또한 산정지표인 운행완료율의 변화를 파 악하여 적정 인센티브를 도출하고 택시 수급의 불일치 완화정도 제시하는 것에 기존 연구들과 차별성을 갖 는다.

    Ⅲ. 분석방법론

    1. 강화학습 방법론

    1) 강화학습의 개념

    강화학습(Reinforcement Learning)이란 기계학습(Machine Learning)의 한 영역으로 환경(Environment)과의 상 호작용을 바탕으로 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하고 선택 가능한 행동들 중 보상 (Reward)을 최대화하는 행동(Action)과 정책(Policy)을 학습시키는 방법을 의미한다(Sutton and Barto, 2018). 학 습을 위해 입력값과 라벨(Label) 값이 필요한 지도학습(Supervised Learning) 및 데이터의 집합 안에서 숨겨진 구조를 찾는 비지도학습(Unsupervised Learning)과는 다르게 보상의 최대화를 목표로 효과적인 행동을 발견하 도록 학습하는 것에 차이가 있다. 주어진 시뮬레이션 환경에서 강화학습이 진행되는 상호작용 과정은 아래 그림과 같이 나타낼 수 있으며 스스로 학습하는 컴퓨터이자 지적 개체인 에이전트(Agent)는 환경에 대해 사 전지식이 없는 상태에서 학습을 진행한다. 에이전트는 자신이 놓인 환경에서 현재 자신의 상태(St )를 인식한 후 행동(At )하며, 환경은 에이전트에게 행동에 대한 보상(Rt )을 주고 다음 상태(St + 1 )로 전이하게 된다. 에 이전트는 이 보상값을 좋은 행동에 대한 간접적인 신호로써 받아들이며, 지속적인 보상을 통해 좋은 행동을 학습할 수 있도록 한다.

    <Fig. 1>

    Reinforcement Learning Framework

    KITS-20-5-157_F1.gif

    2) Q-learning 학습방법론

    강화학습 방법론 중 Q-learning은 Q-table의 업데이트를 통해 최적값을 찾는 방법으로 초기에 고정된 임의 의 값을 갖게 되며 매 step(t)마다 에이전트가 행동(at )을 선택하게 되고, 그때 발생하는 즉각적인 보상(rt )를 받으며 새로운 상태(st + 1 )로 전이되면서 Q를 갱신하게 된다. 이전의 값과 새로운 정보의 가중 합을 통해 가 치 반복 갱신(Value Iteration Update)하는 것이 가장 큰 특징을 갖으며 Q함수의 식은 다음과 같다.

    Q ( S , A ) Q ( S , A ) + α ( R + γ a max Q ( S , A ) Q ( S , A ) )
    (1)

    여기서, α는 Learning rate로 가치함수에 따라 Q값을 업데이트 할 때 현재의 Q에 업데이트 되는 (보상 + 미래기대값 – 현재값)을 업데이트 하는 학습률을 의미한다. γ는 Discount Factor로 학습에서 매번의 행동을 취할 때 마다 보상의 값이 결정될 때 현재 얻은 보상과 미래 보상 간의 가치의 차이를 설명하기 위한 변수 로써 할인율의 개념이다. 학습을 진행할 때, 따라 각 상태에서 행동을 취하기 위한 탐색과 활용(Exploration and Exploitation)전략이 필요하다. 어떤 행동을 취했을 때 최적임을 알 수 없기 때문에 ε(epsilon)값을 0~1사이 로 설정하고 랜덤한 수를 골라서 그 수 보다 ε가 작으면 랜덤한 행동을 취하고 그렇지 않으면 Q-table을 따 르는 형태가 E-greedy 정책을 활용하였다.

    본 연구에서 강화학습의 적용은 플랫폼(agent)이 운전자(Driver‘s)에게 인센티브를 지급하였을 때 운전자의 선택확률에 따라 받는 Reward값 도출하고, 이를 Q-table에 업데이트 하는 학습의 방법을 통해 각 시간대별 O-D별 적정 인센티브를 도출하고자 한다.

    2. 강화학습 시뮬레이션 환경구성

    1) 분석 데이터 개요

    본 분석에 활용된 데이터는 카카오모빌리티의 택시 운행 데이터로 공간적 범위는 수도권(서울/경기/인천) 이며 시간적 범위는 코로나 19의 영향을 받지 않는 2019년 10월 ~ 12월(4분기)이다. 해당 데이터는 행정동 O-D 기준으로 정제되었다.

    전체 O-D의 수는 13,756쌍이며, 1시간 기준으로 호출수가 100건 미만인 O-D의 정보는 제외되어 시간대의 정보가 확인된 데이터의 개수는 총 58,312개이다. 데이터의 구성은 <Table 1>과 같다. 여기서, 뒤에 분석될 운행완료율을 정의하면 호출한 수요자의 수(Unique call) 대비 실제 운행 완료 건수(Operations completed)이다.

    <Table 1>

    Composition of Data

    KITS-20-5-157_T1.gif

    2) 강화학습 적용을 위한 환경구성

    Q-Learning기반의 강화학습 시뮬레이션을 수행하기 위해서는 State, action을 통해 Q-table을 정의할 필요가 있다. Q-table은 모든 상태(state)와 행동(action)에 대해 누적된 보상(Reward)의 값으로 정리하고 학습에 따라 업데이트 하는 표라고 할 수 있다. Agent는 Action을 취하는 주체로 인센티브의 가격을 결정하는 플랫폼을 의미하며, Action은 인센티브의 각 범위를 뜻한다. Action Space의 범위의 최소값은 최저요금의 50% 수준으 로 설정5)하였으며, 최대값은 운행요금 중앙값(Unique콜의 수를 고려함) 5,700원 수준과 1,000원 단위로 정리 했을 때 최빈값으로 도출된 5,000원을 고려하여 설정하였다. 이때, 인센티브의 구분은 (+)인센티브와 (-)인센 티브와 인센티브 없음으로 개념을 나눌 수 있으며 (+)인센티브는 플랫폼에서 운전자에게 지급하는 인센티브 로 운행완료율이 낮은 O-D를 개선하기 위한 장치이고, (-)인센티브는 운행완료율이 충분히 높은 지역에 부여 하여 수익성 악화를 완화시키는 장치로 정의할 수 있다. 여기서, 호출 인센티브의 부여는 각 O-D가 독립적으 로 움직임을 가정하였으며, 할인율, 학습률, 앱실론의 감가율은 기존 연구자료 등을 활용하여 조정하였다.

    <Table 2>

    Type and value of hyperparameters used in analysis

    KITS-20-5-157_T2.gif

    Action에 따를 보상함수를 결정하기 위해 금액에 따른 운전자의 선택확률을 조정할 수 있도록 모델링 하 였다. 승객의 경우 기본 금액(O-D별 택시요금)에서 이동을 목표로 호출을 하는 것이며 분석시 실제 가격변동 이 발생하지 않기 때문에 선택확률은 100%로 별도의 확률모형을 적용하지 않았다. 1번의 학습에서 100명의 운전자에게 운전여부를 확인하며 운전자는 확률모델에 따라 1 또는 0을 선택한다. 이에 따라 각 O-D별 시간 대별 Agent의 Action에 따른 매칭률(운행완료율)을 도출하게 된다. 운전자의 선택확률 모형은 (3)으로, Φ는 누적확률분포함수(Cumulative distribution function)로 μ는 1이며, 운행완료율이 높은 지역의 경우 동일한 금액 에서 하락하는 확률의 차이가 있을 것으로 판단하여, 인센티브가 양인 경우 σ는 0.5, 음인 경우 σ는 1로 적 용하였다. BP는 특정 시간대 O-D에서 운행예상비용, IP는 특정 시간대 O-D에서 Action에 따른 인센티브 지 급 금액(Action Space, -2,000 ~ 5,000)을 의미한다.

    Φ ( x ) = P ( Z x ) x 1 2 π e z 2 2 d z
    (2)

    P ( a c c e p t | d r i v e r ) i = Φ ( ( B P + I P ) B P ) μ σ ) 0.5
    (3)

    R e w a r d = ( ( 0 100 M a t c h i / 100 O R a v g ) 2 )
    (4)

    보상함수는 (4)의 식과 같이 설정하였으며 Matchi는 특정 Action에서 도출되는 운전자의 매칭여부로 100회 중 매칭값에 따라 Action에 따른 운행완료율을 도출하였으며, ORavg (목표)는 특정시간대 특정 O-D가 포함되 는 시도별(지역내, 지역간) 평균 운행완료율이다. 강화학습은 Reward의 Maximize를 목표로 하기 때문에, 변 화되는 운행완료율과 특정시간대의 평균 운행완료율 차이의 제곱근의 차이가 최소화 되는 지점이 최적의 목 표달성치로 하여 음수화 하였다.

    <Fig. 2>

    Q-learning Algorithm pseudo code

    KITS-20-5-157_F2.gif

    Ⅳ. 분석의 결과

    1. 시간대별 택시 호출데이터 운행완료율 분석

    시간대별 지역별(시도별) 운행완료율을 살펴보면(Fig. 3), 새벽시간(4시-8시) 및 낮 비첨두시(10시-18시)에서 운행완료율이 높게 분포되었으며, 대중교통 운행의 종료에 따라 수요가 급증하는 심야시간과 첨두시(오전 및 오후 첨두)에 운행완료율이 다소 떨어지는 것으로 나타났다. 지역별로 살펴보면 서울 내 통행의 경우 대 다수 시간대에서 전체 평균 대비 낮은 운행완료율을 보였고, 특히 심야시간대 운행완료율이 매우 낮아 간접 승차거부의 비율이 높을 것으로 예상된다.

    <Fig. 3>

    The Distribution of Operation Completion Rate(OCR) by Time and Zone

    KITS-20-5-157_F3.gif

    <Fig. 4>와 같이 심야시간 중 0시 ~ 1시를 기준으로 운행완료율을 분석하여 10% 미만인 O-D의 분포를 살 펴보면 종로, 강남, 마포 등 심야시간 수요가 높은 지역에서 출발하여 관악, 성북 양천, 은평 등으로 가는 통 행이나 강남-서초, 강남-강남, 마포-서대문 등 단거리 구간에서 많은 분포를 보였다. 60%이상인 분포를 살펴 보면 목적지의 수요가 높은 지역의 통행에서 주로 나타났으며 중장거리통행비율이 높은 것을 확인하였다. 또한 공항(인천, 김포), 강남, 마포(홍대), 이태원 등으로 도착하는 O-D가 다수 확인되어 목적지의 행정동이 주요 상업지역(심야시간 영업비율이 높은 상업밀집 지역) 비율이 높은 지역인 것을 볼 수 있었다.

    <Fig. 4>

    Midnight (0:00 – 1:00) OCR Sub-region and upper region distribution

    KITS-20-5-157_F4.gif

    또한 <Fig. 5>와 같이, 낮 비첨두시의 경우 13 – 14시 데이터를 표출하였으며 새벽시간 대비 운행완료율 이 전체적으로 높기 때문에 낮은 O-D 비율을 60%, 높은 비율을 85% 이상으로 도식화하였다. 운행완료율이 60% 미만인 O-D는 인접존으로 이동하는 단거리 통행 비율이 높았으며, 1개의 O-D(가평군 청평 – 성동구 성수동)에서 운행이 완료되지 않아 완료율 0 인 O-D로 표출되었고, 동일 O-D는 137개에서 60% 미만인 것을 확인되었다. 운행완료율이 85% 이상인 통행을 살펴보면 업무 및 상업지역이 높은 여의도, 강남, 분당 등으로 이동하는 통행이 주로 분포하는 것으로 나타났다.

    <Fig. 5>

    Non-peak time(13:00-14:00) OCR Sub-region and upper region distribution

    KITS-20-5-157_F5.gif

    이처럼 운행완료율을 기준으로 통행을 확인하였을 때, 심야시간의 경우 주요 상권지역으로 유입되는 통행 이 보다 많은 것으로 확인되었으며, 낮 비첨두시의 경우에는 업무 및 상업지역으로의 통행이 많은 것으로 나 타났다. 지역적으로 택시 운행 시 수요가 많을 것으로 예상되는 업무 및 상권 도착지를 중점적으로 통행하는 것으로 확인되었다. 또한 단거리 통행의 이동은 두 시간대 모두 상대적으로 낮았으나 중장거리 통행의 완료 율은 높은 것으로 표출되었다. 이는 택시 운행시, 다음 승차에 대한 수요. 즉 지역적 요인을 고려함과 동시에 이동 거리를 함께 고려하는 것으로 판단된다. 이에 따라 인센티브를 도입하여 지역적 요인 및 거리로 인해 발생하는 간접승차거부를 완화시키고자 한다.

    2. 강화학습 시뮬레이션 분석결과

    앞서 구성한 시뮬레이션 설계방법에 따라 학습을 진행하였으며, Reward Function 값을 음의 2차식으로 구 성하였기 때문에 Max값이 0을 초과할 수 없으며, 0에 수렴할수록 최적의 Reward를 가짐을 알 수 있다. 학습 횟수별 각 O-D에서 도출된 Reward의 변화 및 평균값은 <Fig. 6>와 같다.

    <Fig. 6>

    Change in Reward value by number of learning

    KITS-20-5-157_F6.gif

    <Fig. 6>에서 진한 붉은색 선이 각 O-D의 학습 횟수별 Reward의 평균값이며, 뒤는 개별 O-D에 대한 Reward 결과값을 나타낸다. 모든 O-D에서 0에 가깝게 수렴하는 것을 볼 수 있으며, 일부 지역에서는 0에 수 렴하지 않은 경우도 나타났으나 이는 모델 설계 시 Action Space의 금액 범위를 한정하였기 때문으로 판단해 볼 수 있다. 약 3,000회 이상의 학습부터 각 O-D의 최적값으로 수렴해가는 결과를 확인할 수 있었으며, 각 O-D별 최적 Action 값을 도출할 수 있다.

    각 O-D별 학습결과에서 도출된 최적 Action값을 기반으로 운행완료율을 재산정한 결과 운행완료율이 평 균 50.3%에서 54.3%까지 약 4%정도 증가하는 것으로 나타났다. 이는, 운행완료율이 높아지는 시간대의 (-)인 센티브의 결과를 포함한 수치로, (+)인센티브를 부여한 O-D의 경우 평균 29.1%에서 47.8%까지 증가하고 (-) 인센티브 부여 O-D의 경우 70.3%에서 61.6% 수준으로 감소하는 것을 확인하였다(Table 3).

    <Table 3>

    Comparison of Changes in OCR by Incentive Classification

    KITS-20-5-157_T3.gif

    O-D별 운행 금액대별로 구분하여 살펴봤을 때(Table 4), 전체적으로 운행완료율이 개선됨을 확인할 수 있 었으며, 특히 단거리 구간에서의 개선도가 높은 것으로 나타났다. 인센티브의 규모를 살펴보면 (-)인센티브와 (+)인센티브율에 따라 전체적으로 변화하는 것을 알 수 있으며, 완료율의 개선과 수익성의 개선이 동시에 발 생하는 것으로 분석되었다.

    <Table 4>

    Comparison of Changes in OCR by Actual Fare

    KITS-20-5-157_T4.gif

    강화학습 적용시 Reward는 운행비용에 추가적으로 부여되는 인센티브에 따라 시간대별 시도별 평균에 근 접하게 만드는 것을 목표로 하였으며, 적용 비용은 정액의 형태로 -2,000원~ 5,000원을 적용하였다. 여기서 (-)인센티브는 운행완료율이 높은 지역에 적용6)되며, (+)인센티브는 운행완료율이 낮아 완료율을 높일 필요 가 있는 O-D에 적용하였다. 분석결과, 전체 O-D를 기준을 봤을때 약 4% 운행완료율의 증가를 보였고 (+)인 센티브가 적용된 O-D에서 18%의 수준의 증가. (-)인센티브가 적용된 O-D에서 8.5%수준의 감소를 보였다. 금 액대 별로 살펴 보면 정액제로 인센티브를 부여하였기 때문에 상대적으로 낮은 금액대의 O-D에서 개선 비 율이 높게 나타났다. 시뮬레이션 결과를 토대로 인센티브의 적용에 따라 전체적인 운행완료율 및 특히 운행 완료율이 낮은 O-D의 개선이 가능할 것으로 판단된다. 다만, 본 시뮬레이션의 경우 현실적인 다수의 요인들 이 통제된 상태로 실제 적용과 상이한 결과를 보일 수 있으며, 실제 공급량을 고려한 추가적인 분석이 필요 할 것으로 사료된다.

    Ⅴ. 결론 및 향후 연구과제

    과거 택시 이용객들은 배회영업 택시를 길가에서 잡거나 손짓으로 불러 탑승하는 환경이었으나, 스마트폰 의 등장과 함께 플랫폼 택시 서비스가 제공되기 시작하였다. 이는 기존 전화를 통해 택시를 부르는 ‘콜택시’ 와 달리 모바일 앱을 이용하여 택시를 호출하는 시스템으로 변화하였으며, 이는 이용객의 현재 위치와 목적 지만을 입력하여 보다 편리하게 택시를 이용할 수 있게 되었다. 과거 불편함을 해소하기 위해 등장한 택시 플랫폼 서비스에서 주로 심야 택시수요 첨두시 단거리 및 외곽지역 등으로 이동하는 승객에 대한 승차거부 가 사회적 문제로 대두되기 시작하였다. 특히 과거 직접 승차거부와 달리 콜을 요청하여도 배차가 되지 않는 현상이 지속적으로 발생하였으며, 이는 운전자가 목적지를 확인하고 지나치는 간접승차거부(Digital Observing)의 문제로 확인되었다.

    본 연구에서는 실제 택시 승차거부 문제의 현황을 파악하고 개선방안을 모색하기 위해 택시 호출 데이터 를 분석하여 강화학습을 기반으로 인센티브 시뮬레이션을 수행하였다. 시간대별 택시 호출 데이터 표출결과, 새벽시간과 오후 비첨두 시간에서 높은 운행완료율이 확인되었으나 심야시간 및 첨두시간에 상대적으로 낮 은 운행완료율이 나타났다. 이는 수요 공급 불균형이 기인한 문제로, 특히 심야시간의 경우 단거리나 운행이 어려운 장거리(서울-경기외곽 이동 등)에서 운행완료율이 다소 낮은 것을 확인하였다. 비첨두시에는 전체적 으로 운행완료율은 높으나 상대적으로 단거리에서 운행완료율이 낮았으며, 심야시간에 비해 대체이동수단 (대중교통)이 가능하여 중장거리 이용량이 낮게 나타났다. 시도 O-D로 분포 확인결과, 서울시내 통행에서 모 든 시간대에 낮은 운행완료율을 보여 경기 및 인천지역에 비해 간접승차거부 비율이 높을 것을 예상해 볼 수 있었다. 또한, 시간대별 운행비용 분포의 경우, 대다수의 시간대에서 운행완료 통행비용이 비완료 통행비 용에 비해 비슷하거나 약간 높은 수준으로 나타났다. 다만, 심야시간 일부 지역에서 역전되는 현상이 나타났 으며, 이는 운전자가 원하는 목적지가 아닌 경우 수익성이 높은 구간이어도 회차 수요가 낮을 것으로 예상되 어 콜을 거부하는 것으로 판단해 볼 수 있다. 이에 따라 앞서 고찰한 것과 같이, 간접승차거부를 해소하기 위해 택시데이터의 운행완료율을 기반으로 행정동별 O-D의 인센티브 적용에 대한 강화학습 시뮬레이션을 수행하였다.

    강화학습 적용시 Reward는 운행비용에 추가적으로 부여되는 인센티브에 따라 시간대별 시도별 평균에 근 접하게 만드는 것을 목표로 설정하였으며, 적용 비용은 정액의 형태(-2,000원~5,000원)로 적용하였다. 분석결 과, 전체 O-D를 기준으로 약 4% 운행완료율의 증가를 보였고 (+)인센티브가 적용된 O-D에서 18%의 수준의 증가. (-)인센티브가 적용된 O-D에서 8.5%수준의 감소가 나타났다.

    운행완료율의 개선은 즉각적인 택시 및 승객의 편익의 향상으로 이어질 것으로 예상되어 보다 적합한 간 접승차거부 해결책일 것으로 판단된다. 승객의 입장에서 간접승차거부의 완화로 대기시간이 보다 감소하여 편익이 증대할 것으로 예상되며 택시의 입장에서 인센티브를 제공 받음으로써 배회(대기)시간이 보다 감소 할 것으로 예상되어 편익이 증대할 것으로 기대해 볼 수 있다.

    본 연구의 한계는 데이터 구득 제약에 따라 실시간 공급량, 운전자의 개인특성 등을 통제한 상태에서 결 과를 산출했다는 점과 행정동 및 시간대 단위의 데이터 정제에 따라 실제 교통흐름이나 날씨 등의 외적요인 이 일부 희석되는 한계점을 지닌다. 또한, 강화학습 방법론이 통계적 기법에 의한 시뮬레이션이 아니기 때문 에 결과물에 대한 통계적 검증에 한계가 있다고 판단된다. 이에 향후에는 이러한 요인들을 추가로 고려한 분 석을 수행할 필요가 있다고 사료된다.

    Figure

    KITS-20-5-157_F1.gif

    Reinforcement Learning Framework

    KITS-20-5-157_F2.gif

    Q-learning Algorithm pseudo code

    KITS-20-5-157_F3.gif

    The Distribution of Operation Completion Rate(OCR) by Time and Zone

    KITS-20-5-157_F4.gif

    Midnight (0:00 – 1:00) OCR Sub-region and upper region distribution

    KITS-20-5-157_F5.gif

    Non-peak time(13:00-14:00) OCR Sub-region and upper region distribution

    KITS-20-5-157_F6.gif

    Change in Reward value by number of learning

    Table

    Composition of Data

    Type and value of hyperparameters used in analysis

    Comparison of Changes in OCR by Incentive Classification

    Comparison of Changes in OCR by Actual Fare

    Reference

    1. An G. (2015), Seoul’s Taxi Usage and Operation Status and Improvement Plan, Policy Report 186, Seoul Institute: Seocho-gu, Seoul, Korea.
    2. Arnott R. (1996), “Taxi Travel Should Be Subsidized,” Journal of Urban Economics, vol. 40, no. 3, pp.316-333.
    3. Billhardt H. , Fernández A. , Ossowski S. , Palanca J. and Bajo J. (2019), “Taxi dispatching strategies with compensations,” Expert Systems with Applications, vol. 122, pp.173-182.
    4. Chen M. , Shen W. , Tang P. and Zuo S. (2017), Optimal vehicle dispatching schemes via dynamic pricing, arXiv preprint arXiv: 1707.01625.
    5. Choi J. , Cho Y. and Jeong I. (2014), “Multiple-Intersection Traffic Signal Control based on Traffic Pattern Learning,” Journal of the Society of Information and Sciences: Practical and Letters in Computing, vol. 20, no. 3, pp.171-179.
    6. Fang Z. , Huang L. and Wierman A. (2019), “Prices and subsidies in the sharing economy,” Performance Evaluation, vol. 136, 102037.
    7. Fang Z. , Su R. and Huang L. (2018), “Understanding the effect of an E-hailing app subsidy war on taxicab operation zones,” Journal of Advanced Transportation, vol. 2018, 7687852.
    8. Guan Y. , Annaswamy A. M. and Tseng H. E. (2019), Towards Dynamic Pricing for Shared Mobility on Demand using Markov Decision Processes and Dynamic Programming, arXiv preprint arXiv: 1910.01993.
    9. Hang C. , Liu Z. , Wang Y. , Hu C. , Su Y. and Dong Z. (2019), “Sharing diseconomy: Impact of the subsidy war of ride-sharing companies on urban congestion,” International Journal of Logistics Research and Applications, vol. 22, no. 5, pp.491-500.
    10. He F. , Wang X. , Lin X. and Tang X. (2018), “Pricing and penalty/compensation strategies of a taxi-hailing platform,” Transportation Research Part C: Emerging Technologies, vol. 86, pp.263-279.
    11. Jittrapirom P. , Marchau V. , Van der Heijden R. and Meurs H. (2018), “Future implementation of Mobility as a Service (MaaS): Results of an international Delphi study,” Travel Behaviour and Society, vol. 21, pp.281-294.
    12. Joo H. and Lim Y. (2020), “Distributed Traffic Signal Control at Multiple Intersections Based on Reinforcement Learning,” Journal of the Korea Communications Association, vol. 45, no. 2, pp.303-310.
    13. Kamatani T. , Nakata Y. and Arai S. (2019), “Dynamic pricing meth to maximize utilization of one-way car sharing service,” In 2019 IEEE International Conference on Agents (ICA), October, IEEE, pp.65-68.
    14. Kim D. H. and Jung O. (2019), “A Study on Cooperative Traffic Signal Control at multi-intersection,” Journal of Electrical and Electronic Society, vol. 23, no. 4, pp.266-271.
    15. Kim J. H. and Kim S. I. (2019), “A study on User Experience of Mobility Platform Service-Focused on kakao Taxi and Tada-,” Journal of Digital Convergence, vol. 17, no. 7, pp.351-357.
    16. Lei C. , Jiang Z. and Ouyang Y. (2019), “Path-based dynamic pricing for vehicle allocation in ridesharing systems with fully compliant drivers,” Transportation Research Part B: Methological, vol. 38, pp.77-97.
    17. Leng B. , Du H. , Wang J. , Li L. and Xiong Z. (2015), “Analysis of taxi drivers' behaviors within a battle between two taxi apps,” IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 1, pp.296-300.
    18. Minister of Land, Infrastructure and Transport,https://www.molit.go.kr, 2021.07.15.
    19. Rambha T. and Boyles S. D. (2016), “Dynamic pricing in discrete time stochastic day-to-day route choice models,” Transportation Research Part B: Methodological, vol. 92, pp.104-118.
    20. Song J. , Cho Y. J. , Kang M. H. and Hwang K. Y. (2020), “An Application of Reinforced Learning-Based Dynamic Pricing for Improvement of Ridesharing Platform Service in Seoul,” Electronics, vol. 9, no. 11, p.1818.
    21. Su R. , Fang Z. , Xu H. and Huang L. (2018), “Uncovering spatial inequality in taxi services in the context of a subsidy war among E-hailing apps,” ISPRS International Journal of Geo-Information, vol. 7, no. 6, p.230.
    22. Sutton R. S. and Barto A. G. (2018), Reinforcement learning: An introduction, MIT Press.
    23. Suzuki Y. and Hino S. (2016), “Study of Price Sensitivity of Taxi Fare and Feeling of Satisfaction on Using a Taxi,” Journal of the City Planning Institute of Japan, vol. 51, no. 3.
    24. Tong Y. , Chen Y. , Zhou Z. , Chen L. , Wang J. , Yang Q. and Lv W. (2017), “The simpler the better: A unified approach to predicting original taxi demands based on large-scale online platforms,” In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August, pp.1653-1662.
    25. Wei C. , Wang Y. , Yan X. and Shao C. (2017), “Look-ahead insertion policy for a shared-taxi system based on reinforcement learning,” IEEE Access, vol. 6, pp.5716-5726.
    26. Wen J. , Zou M. , Ma Y. and Luo H. (2017), “Evaluating the influence of taxi subsidy programs on mitigating difficulty getting a taxi in basis of taxi empty-loaded rate,” International Journal of Statistics and Probability, vol. 6, no. 2, pp.9-20.
    27. Wu T. , Joseph A. D. and Russell S. J. (2016), Automated pricing agents in the on-demand economy, Electrical Engineering and Computer Sciences University of California at Berkeley.
    28. Xu T. , Zhu H. , Zhao X. , Liu Q. , Zhong H. , Chen E. and Xiong H. (2016), “Taxi driving behavior analysis in latent vehicle-to-vehicle networks: A social influence perspective,” In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August, pp.1285-1294.
    29. Xu Z. , Li Z. , Guan Q. , Zhang D. , Li Q. , Nan J. and Ye J. (2018), “Large-scale order dispatch in on-demand ride-hailing platforms: A learning and planning approach,” In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, July, pp.905-913.
    30. Yazici M. A. , Kamga C. and Singhal A. (2013), “A big data driven model for taxi drivers' airport pick-up decisions in new york city,” In 2013 IEEE International Conference on Big Data, October, IEEE, pp.37-44.

    저자소개

    Footnote

    • 국토교통부 보도자료, 21.01.29, 플랫폼과 결합한 택시의 혁신은 계속됩니다.
    • 일반적으로 운행을 거절하거나 간접승차거부를 하는 콜
    • Penalty Successive Linear Programming
    • 원문은 대부분 Subsidy, Incentive 등으로 혼용되어 있으나 본 연구에서 용어 통일을 위해 인센티브로 표기함
    • 서울시(2017) 택시운송원가 분석 및 요금체계 개선 학술용역 보고서의 유류비(12.1%) 및 인건비(36.8%)를 고려함
    • (-)인센티브를 주더라도 운행완료율이 평균대비 높을 것으로 예상되는 O-D