Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.22 No.4 pp.63-77
DOI : https://doi.org/10.12815/kits.2023.22.4.63

Study on the Development of an Expressway Hard Shoulder Running Algorithm Using Reinforcement Learning

Harim Jeong*, Sangmin Park**, Sungkwan Kang***, Ilsoo Yun****
*Dept. of Transportation System Eng., Ajou University
**Dept. of Road Transport Research, Korea Transport Institute
***Construction Div. Korea Expressway Corporation
****Corresponding author: Professor, Department of Transportation System Engineering, Ajou University
Corresponding author : Ilsoo Yun, ilsooyun@ajou.ac.kr
12 May 2023 │ 2 June 2023 │ 26 June 2023

Abstract


This study applies reinforcement learning to effectively operate expressway hard shoulder running (HSR). An HSR algorithm was developed, and its effectiveness was evaluated using the VISSIM microscopic simulation program. The simulation evaluated two aspects: mobility and safety. The DQN-based HSR algorithm found speed improvement of up to 26 km/h. Compared to the current method, the difference in the number of conflicts was not significant. Considering the results, a DQN-based HSR operation has a clear effect, and it is necessary to consider adjusting the current operational criteria.



강화학습 기반 고속도로 갓길차로제 운영 알고리즘 개발 연구

정 하 림*, 박 상 민**, 강 성 관***, 윤 일 수****
*주저자 : 아주대학교 교통시스템공학과 연구조교수
**공저자 : 한국교통연구원 도로교통연구본부 부연구위원
***공저자 : 한국도로공사 건설처 차장
****교신저자 : 아주대학교 교통시스템공학과 교수

초록


본 연구는 고속도로 상의 반복적인 교통 혼잡 문제를 해결하기 위한 현실적인 대안 중 하나 인 고속도로 갓길차로제를 효과적으로 운영하기 위해 강화학습 기법을 적용하고자 하였다. 강 화학습의 DQN을 활용한 갓길차로제 운영 알고리즘을 개발하였고 미시교통시뮬레이션 프로그 램 VISSIM을 활용하여 경부선 기흥IC-수원IC 구간의 데이터를 활용하여 강화학습 에이전트를 학습시켰고 그 효과를 평가하였다. 효과평가는 크게 이동성과 안전성의 두 가지 측면에서 진 행하였다. 분석 결과 DQN 기반 갓길차로제 운영을 통해 시간당 최대 26km/h의 속도 개선 효과 가 발생하였으며, DQN 에이전트는 기존 운영 기준인 60km/h 보다 약 10km/h 높은 속도로 갓길 차로제를 운영하였다. 안전성 효과의 경우 기존 운영 방식과 DQN 기반 운영을 통해 발생되는 차량 간 상충건수를 비교하였고 산출된 상충건수의 차이가 크지 않아 10km/h의 운영 기준 속 도의 차이가 큰 영향을 주지 않은 것으로 판단하였다. 이러한 결과를 종합적으로 고려할 때 강화학습 기반 고속도로 갓길차로제 운영은 이동성 측면에서는 분명한 효과가 존재하였고 현 재 운영 기준 속도의 조정을 고려해볼 필요가 있을 것으로 판단된다.



    Ⅰ. 서 론

    1. 연구의 배경 및 목적

    우리나라를 비롯하여 세계 여러 나라에서 수도권 및 대도시에 인구가 집중되는 현상이 나타났고, 이로 인 한 반복적인 교통 혼잡 문제 역시 심화되고 있다. 이러한 문제를 해결하기 위한 대안을 찾기 전에 먼저 현재 우리 사회의 전반적인 환경 변화를 살펴볼 필요가 있다.

    우선 우리나라는 지속적으로 인구가 감소하는 추세이다. 우리나라에 등록된 인구는 2022년 12월 기준 약 5,144만 명이며, 2020년 동월 기준 5,183만 명과 비교하여 약 39만 명이 감소하였다(Ministry of the Interior and Safety, 2023). 또한 출산율은 2011년 1.24명에서 2022년 0.78명으로 꾸준하게 감소하고 있다(Statistics Korea, 2023). 그러나, 인구 감소와 달리 1인 가구의 자동차 구매 증가 등으로 인해 자동차의 수는 증가하고 있다. 자동차 등록대수를 살펴보면 2018년 약 2,320만 대에서 2022년 약 2,550만 대로 증가하였다(Korean Statistical Information Service, 2023). 이렇듯 차량의 수가 지속적으로 증가하고 있는 현재와 인구 및 출산율 감소가 예상되는 미래를 종합적으로 고려할 때 단순히 교통 혼잡에 대한 대책으로 추가적인 도로 건설은 신 중하게 고려할 필요가 있다. 그리고 막대한 비용과 시간이 소요되는 도로 건설이 아닌 교통운영관리 기법의 고도화를 통해 교통 혼잡 문제를 해결하는 것이 현재 시점에서 적절한 것으로 판단된다.

    본 연구는 교통 혼잡 문제가 발생되는 대표적인 도로 중 하나인 고속도로를 대상으로 고속도로 갓길차로 제를 효과적으로 운영하기 위한 방법을 찾고자 하였다. 고속도로 갓길차로제는 본선의 교통량 증가로 인해 지·정체가 발생할 경우 일반 차량이 갓길을 본선 차로처럼 이용할 수 있도록 허용하는 기법이다. 갓길차로의 개방, 폐쇄는 본선의 속도를 기준으로 판단하며, 이 기준은 2013년 60km/h로 지정된 이후 변하지 않고 있다 (Korea Expressway Corporation, 2018). 이러한 갓길차로의 시행속도 기준은 실제 도로의 운영실정에 맞지 않 아 대부분 운영자의 판단에 따라 개방·폐쇄가 결정되는 실정이다(Kim, 2017).

    따라서, 본 연구는 앞서 말한 목적과 현재 상황을 고려하여 고속도로 갓길차로제에 최근 다양한 분야에 적용되어 우수한 성능을 보인 인공지능(artificial intelligence, AI) 기법을 적용하여 교통상황을 고려할 수 있는 AI 기반 갓길차로제 운영 알고리즘을 개발하고자 하였다.

    2. 연구의 범위 및 절차

    본 연구의 공간적 범위는 현재 공용 중인 고속도로 중 갓길차로제가 운영되고 있으며, 상습적으로 지정체 가 발생되는 기흥IC–수원IC 구간으로 설정하였다. 해당 구간의 경우 현재 갓길차로제가 시행되는 구간 중 차로 개방 및 폐쇄 이력 자료 확보와 본선, 램프 교통량 등 관련 자료 확보가 용이하였으며, 수도권에 위치 하고 있어 지방부 고속도로에 비해 갓길차로제의 필요성이 상대적으로 크다는 점을 고려하였다. 시간적 범 위는 갓길차로제 신호기 개폐 이력 정보가 존재하는 기간 중 평일이고 특별한 기상 이벤트가 발생하지 않은 날 중 하루를 임의로 선정하였으며, 그 결과 2020년 12월 11일로 설정하였다.

    본 연구에서는 먼저 갓길차로제 운영에 관한 현황을 조사하였으며, 관련 연구를 고찰하였다. 또한 갓길차 로제에 적용하기에 적합한 AI 기법을 조사하였다. 다음으로 앞서 조사된 내용을 바탕으로 AI 기반 갓길차로 제 운영 알고리즘을 개발하였다. 이때 AI 기법은 강화학습의 Deep Q Network(DQN)을 사용하였다. 그리고 미 시교통시뮬레이션 프로그램 VISSIM을 활용하여 개발한 AI기반 갓길차로제 운영 효과를 평가하였다. 마지막 으로 본 연구의 결론과 한계를 제시하였으며, 이를 바탕으로 향후 필요한 연구를 제시하였다.

    Ⅱ. 관련 이론 및 문헌 고찰

    1. 고속도로 갓길차로제

    1) 갓길차로제 개요

    고속도로 갓길차로제(Hard shoulder running, HSR)는 교통혼잡 또는 돌발상황과 같은 이벤트가 발생한 상 황에서 응급차량이 아닌 일반차량에게도 한시적으로 갓길 통행을 허용하여 일시적으로 도로용량을 증대시 키는 교통운영 기법이다(Korea Expressway Corporation, 2018). 고속도로 갓길차로제는 도로 확장, 신규 노선 신설과 같은 대규모의 비용과 시간이 소요되는 방법과 달리 단기간에 저비용으로 도로의 확장 및 신설과 유 사한 효과를 나타낼 수 있다(Kim, 2017). 이러한 갓길차로제는 미국, 영국, 독일, 네덜란드 등 다수의 국가에 서 시행되고 있다. 국내에서는 2007년 9월 영동선 여주IC-여주JC의 5.6km 구간에 최초로 시범운영 되었으며, 2021년 6월 기준 경부선, 수도권제1순환선, 영동선 등 10개 노선의 총 253.68km 구간에서 운영되고 있으며, 운영 현황은 <Table 1>과 같다.

    <Table 1>

    Hard shoulder running facilities in Korea

    KITS-22-4-63_T1.gif

    2) 고속도로 갓길차로제 운영 방법

    고속도로 갓길차로제 설치 및 운영에 관한 가장 기본적인 사항은 도로의 구조ㆍ시설에 관한 규칙에서 정하고 있으나 실제 운영을 위한 차로 개방 및 폐쇄 조건과 같은 세부적인 사항은 갓길차로제 운영 업무 매뉴얼(Korea Expressway Corporation, 2018)에 제시되어 있다. 갓길차로제 운영 업무 매뉴얼에 따르면 갓 길차로의 차로 개방 및 폐쇄는 기본적으로 운영시스템을 통한 자동개방을 원칙으로 하고 있으며 운영자의 판단에 따라 필요시 수동으로 개방하는 방법으로 운영되고 있다.

    차로 개방 및 폐쇄 기준은 <Table 2>와 같으며, 기본적으로 갓길차로가 설치된 구간의 본선의 지점속도를 기준으로 한다. 지점속도가 60km/h 이하로 감소하거나 감소가 예상되는 경우 개방하게 되며, 갓길차로 개방 을 통해 지점속도가 60km/h를 초과한 상태로 1시간이 경과한 경우 갓길차로를 폐쇄하게 된다.

    <Table 2>

    Lane control criteria

    KITS-22-4-63_T2.gif

    2. 갓길차로제 관련 연구

    Coffey and Park(2018)은 미국 펜실베니아 주(州) I-476 고속도로의 IC 1~IC 9 사이의 13.4km 구간을 대상으 로 갓길차로제 도입 시 예상되는 효과를 분석하고자 하였다. 분석을 위해 미시교통시뮬레이션 프로그램 VISSIM을 활용하였다. 분석은 northbound와 southbound의 2개 방향에 대하여 수행되었으며, 분석 결과 northbound의 경우 통행시간이 약 60% 감소하였고 southbound의 경우 약 43%의 통행시간이 감소하는 효과가 나타났다. Bauer and Harwood(2004)는 미국 캘리포니아 주(州) 도시부 고속도로의 78.7km 구간을 대상으로 갓길차로제 운영에 따른 안전성 효과를 분석하였다. 해당 연구에서는 갓길차로제 시행 전·후에 대한 각 5년 간의 통계자료를 경험적 베이즈 방법(empirical Bayes method, EB method)을 통해 분석하였다. 분석대상 구간 의 사고 통계의 경우 갓길차로제 운영 후 증가한 것으로 나타났다. 하지만 EB method 분석결과, 해당 구간에 서 증가한 사고건수가 통계적으로 유의미하지 않아 갓길차로제가 교통사고 증가에 실질적인 영향이 있다고 판단하기 어려운 것으로 나타났다. Ma et al.(2016)는 고속도로에서 공사, 교통사고 등의 돌발상황으로 인한 지·정체를 감소시키기 위한 대책으로 동적 갓길차로제(dynamic hard shoulder running)를 제안하였으며, 그 효 과를 분석하였다. 분석을 위해 미시교통시뮬레이션 프로그램 VISSIM을 활용하였고 VISSIM의 Com-interface 기능을 활용하여 사고 차량을 구현하였다. 분석결과 갓길차로제의 시행으로 평균 지체가 약 30%~80% 감소 하였으며, 통과교통량이 15%~40%까지 증가하는 효과가 나타났다. Kim(2017)은 갓길차로제의 효율적인 운영 을 위한 적정 시행 속도를 제시하고자 하였다. 해당 연구는 2014~2015년 동안 갓길차로제가 운영된 8개 노 선의 222.6km를 대상으로 해당 구간의 교통량, 속도 자료 등을 이용하였다. 갓길차로 적정 시행속도를 산출 하기 위해 Greenshield 모형을 사용하였으며, 분석결과 서비스 수준 C~F의 경우 갓길차로를 운영할 때 용량 증가 효과가 더 크게 나타나며, 산출된 임계속도 값을 통해 70km/h를 적정시행 속도로 제시하였다. Ko et al.(2020)는 고속도로 내 상습 지·정체 구간에 대한 갓길차로제 운영 효과를 분석하고자 하였다. 이를 위해 시 공도 기반 개별 갓길차로 운영 구간에 대한 전·후 효과분석을 하였다. 해당 연구의 공간적범위는 경부선 안 성JC-남사IC, 동탄JC-기흥IC의 두 구간으로 설정하였다. 분석결과 갓길차로제 운영 전에 반복적으로 발생하 던 교통 정체가 해소된 것을 확인할 수 있었으며, 안성JC-남사IC 구간은 7.2km/h, 동탄JC-기흥IC의 경우 11.7km/h의 속도가 증가한 것으로 나타났다.

    3. 강화학습

    1) 강화학습 개요

    강화학습(Reinforcement learning)은 순차적 의사 결정 문제를 해결하는 기법으로 기계학습(machine learning) 의 한 분야이다(Sutton and Barto, 2007). 또한 외부환경과 상호작용하며 목표를 달성하는 목표 지향적인 방법 으로 인공지능 분야, 로봇 공학 분야, 제어 분야 등 다양한 분야에서 사용하고 있다. 특히 교통분야에서는 가 변속도제어, 갓길차로제, 램프미터링 등과 같은 능동적 교통관리(active traffic management)에 강화학습을 적 용하기 위한 연구들이 진행되고 있다(Zhou et el., 2020;Vrbanic et al., 2021;Greguric et al., 2022). 강화학습의 구성요소는 에이전트(agent), 환경(environment), 상태(state), 행동(action), 보상(reward), 정책(policy)이 있으며, 에이전트가 환경과 상호작용을 통해 보상을 최대화하는 방향으로 학습하게 된다. 행동은 에이전트가 취할 수 있는 동작을 의미하며, 본 연구의 경우 갓길차로를 개방하거나 폐쇄하는 것으로 볼 수 있다. 상태는 에이 전트가 가지는 정보를 의미하며, 에이전트는 이 정보를 통해 상황에 적합한 행동을 결정하게 된다. 보상은 에이전트가 수행한 행동을 평가하는 지표로 사용되며, 이를 통해 행동의 적절성을 평가할 수 있고 이를 통해 다양한 상황별로 적합한 행동을 학습할 수 있다(Lee et al., 2017). 정책은 모든 상태에 대한 에이전트의 행동 을 의미하며, 상태라는 입력값에 대하여 행동을 출력하는 함수의 개념으로 볼 수 있다(Lee et al., 2017). 이러 한 순차적 행동 결정 문제는 마르코프 결정 프로세스(markov decision process, MDP)를 통해 식(1)과 같이 정 의할 수 있다(Park, 2020). MDP의 상태전이는 현재 상태에서 행동을 결정할 때 이전 이력을 고려하지 않는 의미를 가지고 있으며, 새로운 상태 s′는 현재 상태 s와 에이전트의 행동 a에만 영향을 받는다.

    M D P = ( S , A , P , R , γ )
    (1)

    where,

    • S = set of states

    • A = set of actions

    • P = state transition probability

    • R = reward function

    • γ = discount factor

    상태 집합 S 는 에이전트가 관찰 가능한 상태의 집합으로 St 는 특정 시간 t에서의 상태 집합을 의미한다. 행동 집합 A 는 상태 St 에서 에이전트가 가능한 행동의 집합으로 At 는 특정 시간 t에서 에이전트가 A에서 선택한 행동을 의미한다. 전이 확률 행렬 P 는 어떤 상태에서 행동을 취했을 때의 상태 변화를 나타낸다. 에 이전트가 행동을 취하게 되면 환경은 전이 확률을 통해 에이전트가 행동할 다음 상태를 알려주게 되고 다음 식(2)와 같이 표현할 수 있다(Park, 2020).

    P s s a = P [ S t + 1 = s | S t = s , A t = a ]
    (2)

    보상함수 R은 시간 t, 상태 St = s, 행동 At = a의 조건에서 받을 보상에 대한 기댓값을 나타내며 다음 식 (3)과 같다(Park, 2020).

    R s a = E [ R t + 1 | S t = s , A t = a ]
    (3)

    감쇠인자 γ는 0과 1사이의 값을 가지며 보상에 곱해져 보상을 감소시키게 된다. 만약 시간 t로부터 k만큼 지난 후의 미래에 받을 보상 Rt+k 의 가치는 γk - 1만큼 감가된다. 이러한 감쇠인자는 뒤에서 설명할 가치함수 를 통해 향후 받을 보상에 대한 기댓값을 표현하기 위해 사용된다.

    강화학습은 앞서 말한 것과 같이 에이전트와 환경의 상호작용을 통해 보상을 확인하며 정책을 발전시킨 다. 하지만 이 정책 공간은 실제로 방대하기 때문에 정책 공간을 직접 탐색하는 대신 가치함수를 이용하는 전략을 사용한다. 가치함수(value function)는 특정 정책을 평가하는 함수로 에이전트가 실제로 환경을 탐색하 며 받은 보상의 합을 추정한 것으로 식 (4)와 같다(Lee et al., 2017;Park, 2020).

    G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 +
    (4)

    가치함수는 상태 가치함수(state-value function)과 행동 가치함수(action-value function)으로 구분된다. 행동 가치함수는 상태 s에서 행동 a를 선택한 후 정책 π를 따라 동작할 때 받게 될 기댓값을 식 (5)와 같이 추정 하며, 특별히 Q 함수(Q function)라고 한다(Park, 2020).

    q π ( s , a ) = E π [ G t | S t = s , A t = a ]
    (5)

    강화학습 알고리즘은 크게 가치기반학습(value-based learning)과 정책기반학습(policy-based learning)으로 구 분할 수 있다. 가치기반 알고리즘은 환경과 행동이 어느 정도의 보상을 가져올 것인지를 예측하는 가치함수 (value function)를 학습을 통해 최적화하는 것으로 볼 수 있으며, 가치함수가 완벽할 경우 각 상태에서 가장 높은 보상을 가져오는 행동을 선택하게 된다. 대표적인 가치기반 강화학습 알고리즘은 Q-러닝, DQN(Deep Q Network) 등이 있다. 정책은 앞서 말한 바와 같이 각 상태에 대응하여 행동을 출력하는 함수이며, 정책기반 알고리즘은 이러한 정책을 직접 찾는 방법으로 가치함수를 사용하지 않고 정책만을 학습하게 된다. 대표적 인 정책기반 강화학습 알고리즘으로는 actor-critic, proximal policy optimization(PPO) 등이 있다.

    2) Deep Q Network

    Deep Q Network는 Q-러닝을 기반으로 발전한 알고리즘이다. Q-러닝 알고리즘은 Q 함수를 이용하여 최적 정책을 찾는 방법이다. 행동 가치함수는 최적의 행동 가치함수가 정해지면 환경의 정보가 필요하지 않고 직 접 최적 정책을 도출할 수 있다는 장점이 있다. Q-러닝은 다음 식 (6)과 같이 Q 함수를 갱신한다(Lee et al., 2017;Park, 2020).

    Q ( S t , A t ) Q ( S t , A t ) + α ( R + + γ max Q ( S t + 1 , a ) Q ( S T , A t ) )
    (6)

    이러한 Q-러닝은 상태와 행동에 대한 정보를 포함한 Q-테이블을 생성하여 사용하며, 이는 Q-러닝의 또다 른 특징이다. 다음 상태의 최대 Q값을 이용하여 Q값을 갱신하게 되며, 연속적인 상태 및 행동 공간이 방대 한 실제 문제에 대하여 Q-테이블의 값을 계산하고 생성하는 것은 어려움이 존재한다. DQN은 Q-러닝의 이러 한 한계를 극복하고자 고안된 것으로 Q-테이블 대신 심층 신경망(deep neural network, DNN)을 사용한 Q-네 트워크(Q-network)를 통해 Q 함수를 추정하는 방법을 사용한다.

    또한 DQN은 경험재생(experience replay)기법과 목표 신경망(target network) 경험재생 기법을 이용하여 에 이전트가 환경과 상호작용하여 얻은 경험(st,at,rt,st + 1 )을 메모리에 저장한 후, 저장된 경험을 랜덤하게 추출 하여 Q 함수 업데이트에 사용한다. 이를 통해 과적합을 억제하고 안정적인 학습을 할 수 있다. 목표 신경망 의 경우 기존 Q-네트워크를 복제한 형태를 가진다. Q-네트워크의 파라미터가 학습을 통해 매 스탭마다 업데 이트 될 경우 학습의 목표 값 또한 함께 업데이트 되어 원하는 방향으로 학습되지 않는 문제가 발생할 수 있다. 이때 목표 신경망은 정해진 구간동안 학습의 목표를 고정하여 해당 구간동안 원하는 방향으로 학습할 수 있도록 한다.

    4. 시사점

    고속도로 갓길차로제 운영 기준은 60km/h의 속도를 기준으로 하고 있다. 하지만 도로용량편람에서 제시 하는 속도-교통량 그래프를 살펴볼 때 60km/h의 속도는 용량을 초과로 인한 통행 와해(breakdown) 상태에 해 당하여 60km/h의 속도에 근접하여 차로를 개방할 경우 용량 초과로 인한 통행 와해 상태로 진행될 가능성 이 높을 것으로 예상된다. Kim and Park(1998) 연구에 의하면 이러한 통행 와해로 인해 발생한 혼잡은 쉽게 해소되지 않는다. 따라서 현재 기준의 적정성을 살펴볼 필요가 있다.

    고찰한 여러 연구에 의하면 고속도로 갓길차로제의 시행으로 인해 통행시간 감소, 통과교통량 증가 등의 개선효과는 분명히 존재하는 것으로 판단된다. 이러한 점을 종합적으로 볼 때 현재 고속도로 갓길차로제의 운영 기준은 조정이 필요하며, 적정한 기준을 찾는 것이 필요한 것으로 판단된다. 그리고 교통상황을 고려한 갓길차로제 적정 운영 기준을 찾는 문제에는 에이전트가 처한 환경에 따라 적절한 행동을 찾는 강화학습 기 법이 적절한 것으로 판단된다.

    본 연구의 DQN 기반 에이전트는 주어진 조건에서 스스로 여러가지 행동을 시도하고 이에따라 받는 보상 을 통해 최적의 행동을 결정하고 학습하게 된다. 이는 시뮬레이션을 활용한 기존 연구들이 갓길차로제, 가변 속도제어와 같은 운영 방법의 효과를 평가하기 위해 사람이 정한 시나리오에 따른 효과를 평가하고 이 결과 를 통해 최적의 조건을 찾는 방법과는 차이가 있다.

    Ⅲ. 강화학습 기반 갓길차로제 운영 알고리즘 개발

    1. 알고리즘 개요

    본 연구에서는 앞서 언급한 연구의 목적과 관련 문헌 고찰 내용을 바탕으로 강화학습 기반의 갓길차로제 운영 알고리즘을 개발하였다. 갓길차로제를 운영한다는 것은 교통상황에 따라 갓길차로를 개방 혹은 폐쇄하 는 것을 의미한다. 강화학습을 통한 에이전트가 갓길차로제를 제어하는 방법은 도로에 설치된 검지기로부터 정해진 시간단위로 교통정보를 수집하고 이 정보를 바탕으로 교통상황이 악화될 경우 갓길차로를 개방하고 회복될 경우 다시 차로를 폐쇄하도록 하는 것이다. 강화학습 알고리즘에는 가치기반 학습 알고리즘인 DQN 을 사용하였다.

    알고리즘의 개발은 프로그래밍 언어 파이썬(python)과 파이토치 라이브러리를 이용하였다. 파이썬의 경우 개발한 알고리즘의 평가를 위해 미시교통시뮬레이션과 연동이 가능하다는 장점이 있다. 파이토치는 파이썬 을 위한 오픈소스 라이브러리로 기계학습, 강화학습 등의 학습에 GPU를 사용할 수 있어 빠르게 학습시킬 수 있다는 장점이 있다.

    2. 갓길차로제 운영 방법론

    앞서 설명한 전체적인 방향에 따라 에이전트를 학습시키고 동작할 수 있도록 강화학습의 구성요소인 상 태, 보상, 행동을 정의하였다. 이를 바탕으로 에이전트는 다음 <Fig. 1>와 같이 고속도로 갓길차로제 운영 구 간에서 수집되는 교통정보에 따라 차로를 개방, 폐쇄하게 된다. 구성요소는 해결하고자 하는 문제의 목표에 맞도록 적절하게 설정하는 것이 중요하다. 본 연구에서는 이 목표를 본선 통행속도 유지로 설정하였다.

    <Fig. 1>

    Reinforcement learning based HSR operating algorithm overview

    KITS-22-4-63_F1.gif

    상태(State)는 강화학습의 에이전트에게 환경의 현재 정보를 주는 것을 의미한다. 에이전트는 갓길차로 제 어기이며, 환경은 고속도로 갓길차로제 운영 구간의 시뮬레이션 네트워크를 의미한다. 본 연구에서는 에이전 트에게 속도, 교통량, 시간을 상태정보로 제공하도록 설정하였다.

    행동(Action)은 갓길차로제 운영 알고리즘에서 에이전트가 환경에 가하는 행동을 의미하며, 본 연구에서는 갓길차로 개방, 폐쇄의 두 가지로 정의하였다. 행동의 경우 어떤 주기로 어떤 행동을 할 것인가를 판단하는 것이 중요하다. 갓길차로의 경우 단순히 교통상황만을 기준으로 빈번하게 개방 및 폐쇄를 반복하는 것이 부 적절할 수 있다. 따라서 본 연구에서는 이러한 행동을 1시간 단위로 결정하도록 설정하였다.

    보상(Reward)은 에이전트가 목표에 맞게 행동할 수 있도록 지도하는 것으로 목적함수의 역할을 한다. 본 연구에서는 갓길차로제가 운영되는 구간의 중간 지점의 속도 변화를 보상으로 설정하였다.

    Ⅳ. 강화학습 기반 갓길차로제 운영 알고리즘 효과 평가

    1. 효과 평가를 위한 시뮬레이션 네트워크 구축

    본 연구에서는 현재 갓길차로제를 운영하는 방법과 강화학습을 통해 학습한 에이전트가 운영하는 방법의 효과를 비교 평가하고자 하였다. 이를 위해 미시교통시뮬레이션 VISSIM을 활용하였고 실제 고속도로 구간 을 시뮬레이션 상에 구현하였다. 본 연구에서 효과 평가를 위해 사용한 실제 구간은 기흥IC-수원신갈IC(서울 방향) 구간으로 국내 고속도로 갓길차로제 운영구간 중 본선 교통량, 램프 교통량, 갓길차로 신호기 운영 이 력 자료 등의 효과 평가에 필요한 데이터 수집의 용이성을 고려하여 선정하였다.

    분석 대상인 기흥IC-수원신갈IC 단방향(서울방향) 구간은 총 5.9km의 구간으로 이 중 3.7km에서 길어깨를 가변차로로 사용하고 있다. 또한 해당 구간은 총 5개 차로로 1차로는 버스전용차로, 2~4차로는 일반차로로 운영되고 있다. 5차로는 갓길차로이며, 모든 차종이 통행 가능하다. 추가적으로 본선 이외에 교통량 유출입 시설은 총 3개소가 있으며, 기흥IC에 진입 램프 1개, 수원신갈IC에 진입 램프 1개, 진출 램프 1개가 위치하고 있다. 구축한 시뮬레이션 네트워크는 다음 <Fig. 2>와 같다(Korea Expressway Corporation, 2022).

    <Fig. 2>

    Target expressway segment for analysis(Giheung IC–Suwonsingal IC)

    KITS-22-4-63_F2.gif

    2. 시뮬레이션 네트워크 정산

    시뮬레이션 네트워크 정산(calibration)은 구축한 시뮬레이션 모형이 실제 교통상황을 정확하게 묘사할 수 있도록 모형의 파라미터를 조정하는 것을 말한다. 이러한 정산 과정 없이 파라미터의 기본값을 그대로 사용 할 경우 기하구조, 교통량과 같은 자료를 실제와 동일하게 구현하였음에도 속도, 통행시간 등의 지표가 실제 와 차이가 날 수 있으며, 이러한 경우의 분석 결과는 신뢰할 수 없다.

    본 연구에서는 갓길차로 신호기 개폐 이력이 존재하는 기간 중 하루인 2020년 12월 11일의 자료를 사용하 였으며, 해당 일의 오전 6시부터 오전 10시까지 4시간을 대상으로 네트워크 정산을 하였고 이 시간동안의 교 통량과 속도는 <Table 3>와 같다. 교통량 자료의 경우 한국도로공사 고속도로 공공데이터 포털의 VDS 구간 교통량 자료를 사용하였다.

    <Table 3>

    Data for calibration

    KITS-22-4-63_T3.gif

    분석 구간인 기흥IC-수원신갈IC는 경부선으로 평일에는 오전 7시부터 오후 9시까지 버스전용차로가 운영 된다. 그리고 갓길차로 신호기 개폐 이력을 살펴본 결과 오전 7시부터 갓길차로가 개방된 것으로 나타났으 며, 오전 10시 이전에는 폐쇄되지 않은 것으로 나타났다. 본 연구에서는 이러한 교통상황을 구현하기 위해 VISSIM의 Com-interface 기능을 활용하여 갓길차로제와 버스전용차로를 구현하였으며, 실제 시간과 동일하게 운영하도록 설정하였다.

    네트워크 정산 지표로는 평균통행속도를 사용하였으며, 미국 위스콘신, 루이지애나, 버지니아 주의 DOT에 서 정산에 사용하는 값을 참고하였다(WS DOT, 2021;La DOTD, 2022;VDOT, 2020). 본 연구에서는 시행착 오방법(trial and error)을 통해 파라미터를 조정하였고 10회의 멀티런(multi-run)을 통해 실제 속도와 비교하는 방법을 사용하였다.

    조정한 파라미터의 종류와 설정값은 <Table 4>와 같으며, 차량의 종방향 제어에 관련된 CC0(Standstill distance), CC1(Gap time), CC2(Following distance oscilliation)를 조정하였다. 추가적으로 일시적 부주의(temporary lack of attention)관련 파라미터를 조정하였으며, 이외의 파라미터는 기본값을 사용하였다.

    <Table 4>

    Simulation model parameter range and selected values for calibration

    KITS-22-4-63_T4.gif

    앞서 선정한 파라미터 값을 사용하여 시뮬레이션 상의 평균통행속도를 측정하였고 그 결과는 <Table 5>와 같이 나타났다. VISSIM의 경우 기본적으로 네트워크를 통행한 전체 차량에 대한 평균통행속도를 산출할 수 있다. 하지만 실제 수집한 속도 자료의 경우 기흥IC-수원신갈IC 구간에 대하여 버스전용차로와 일반차로로 구분된다는 점을 고려하여 차로별 교통량 가중평균한 속도를 비교하였으며, <Table 6>과 같다. 정산 후 시뮬 레이션에서 측정된 속도가 실제 교통량 가중평균 속도와 유사하게 나타나 조정한 파라미터가 적절한 것으로 판단하였다.

    <Table 5>

    Results after model calibration – Average speed(km/h)

    KITS-22-4-63_T5.gif
    <Table 6>

    Comparison of actual speed data and simulation results

    KITS-22-4-63_T6.gif

    3. 강화학습 기반 갓길차로제 운영 효과 분석

    앞서 구축과 정산이 완료된 기흥IC-수원신갈IC 구간에 대한 시뮬레이션 네트워크에 본 연구에서 개발한 강화학습 기반 갓길차로제 운영 알고리즘을 적용하여 운영 효과를 분석하였다. 운영 효과는 크게 이동성과 안전성 측면의 두 가지 방향에서 진행하였다.

    먼저 이동성 효과를 살펴보았다. 이동성 효과의 비교 분석을 위해 기존 60km/h 속도 기준의 운영 방식과 강화학습 DQN으로 학습한 에이전트에 의한 운영 방식에 대하여 24시간 동안의 시간대별 평균통행속도를 비교하였으며, random seed를 변화시키며 총 5회의 멀티런 결과를 산술평균하였고 그 결과는 <Table 7>과 같 다. 그리고 DQN기반 에이전트가 갓길차로를 개방하고 폐쇄한 시점의 속도는 <Table 8> 및 <Fig. 3>와 같이 나타났다. 분석 결과, 평균적으로 볼 때 기존 운영방식과 DQN 기반 운영방식은 시간당 1.56km/h의 차이가 나타나 DQN 기반 운영방식의 효과가 크게 부각되지 않았다. 하지만 1시간 단위로 변화를 살펴볼 때 최대 26.04km/h의 속도 개선 효과가 나타났다. 이 효과는 오전 8시부터 9시 사이에 해당하며, <Fig. 3>을 볼 때 DQN 에이전트가 기존 운영 방식보다 빠른 시점에 갓길차로를 개방한 것에 따른 효과인 것으로 판단된다. 또한 <Table 8>과 <Fig. 3>을 보면 DQN 에이전트는 기존 운영 방식의 개방 기준인 60km/h에 비해 약 10km/h 높은 속도에서 갓길차로를 개방하는 것으로 나타났으며, 차로 폐쇄 또한 동일하게 약 70km/h 속도 부근에서 이루어진 것으로 나타났다.

    <Table 7>

    Mobility effect of reinforcement learning based HSR operating algorithm

    KITS-22-4-63_T7.gif
    <Table 8>

    States for opening and closing the shoulder lane of DQN based agent

    KITS-22-4-63_T8.gif
    <Fig. 3>

    Time comparison of shoulder lane opening and closing

    KITS-22-4-63_F3.gif

    다음으로 안전성 효과를 살펴보았다. 본 연구에서 개발한 DQN 기반 에이전트는 기존 운영방식에 비해 약 10km/h 높은 속도에서 차로를 운영하는 것으로 나타났다. 이러한 운영은 이동성 개선 효과는 발생시켰으나 사고 및 상충과 같은 안전성 측면으로 좋지 않은 영향을 미칠 수 있다. 따라서 본 연구에서는 미국 연방고속 도로관리국(Federal Highway Administration, FHWA)에서 개발한 대리안전척도 모델(surrogate safety assessment model, SSAM)을 이용하여 상충 발생건수의 변화를 비교하였다. 운영 방식별로 산출된 상충건수는 <Table 9> 와 같다. 분석 결과 시간당 발생하는 상충건수의 차이가 약 19건으로 나타났으며, DQN 기반 에이전트의 약 10km/h 높은 갓길차로제 운영 기준은 안전성 측면에 큰 영향을 주지 않는 것으로 판단된다.

    <Table 9>

    Comparison of safety effects by HSR operation method

    KITS-22-4-63_T9.gif

    Ⅴ. 결론 및 향후 연구과제

    본 연구에서는 고속도로 교통 혼잡 문제를 해결하기 위한 가장 현실적인 대안인 갓길차로제를 보다 효과 적으로 운영하기 위하여 강화학습 기법을 적용하고자 하였다. 이를 위해 적절한 강화학습 기법 중 본 연구의 주제에 적합한 DQN을 선정하였다. 다음으로 선정된 강화학습 기법인 DQN 기반 갓길차로제 운영 알고리즘 을 개발하였다. 개발한 DQN 기반 갓길차로제 운영 알고리즘의 효과를 평가하기 위해 미시교통시뮬레이션 프로그램인 VISSIM을 활용하여 경부선 기흥IC-수원신갈IC 구간의 실제 고속도로 네트워크를 구축하였다. 구 축된 시뮬레이션 네트워크는 정산과정을 통해 실제 교통량, 속도와 유사하도록 세팅하였다. 구축한 네트워크 를 활용한 갓길차로제 운영방식별 효과평가는 크게 이동성과 안전성의 두 가지 측면에서 진행하였다. 이동 성 분석 결과 DQN 기반의 운영 방식의 경우 오전 첨두 시 발생한 정체가 빠르게 회복되는 효과가 나타났으 며, 이때 시간당 최대 26km/h의 속도 개선 효과가 발생되었다. 또한 DQN 기반 에이전트는 기존 운영 기준 속도보다 10km/h 높은 약 70km/h의 속도를 기준으로 갓길차로제를 운영하도록 학습되었다. 안전성 분석은 FHWA에서 개발한 SSAM을 활용하여 운영 방식별 상충건수를 비교하였다. 분석 결과 기존 두 가지 운영 방 식에서 산출된 상충건수의 차이가 크지 않아 10km/h 높은 운영 기준이 안전성에 큰 영향을 주지 않는 것으 로 판단하였고 선행 연구들과 유사한 결과가 도출되었다. 따라서 현재 사용되고 있는 고정된 수치 기반의 갓 길차로제 운영 방식에 비해 본 연구에서 개발한 DQN 기반 에이전트가 갓길차로제를 운영하는 것이 고속도 로 이동성 관리 측면에서 적절한 것으로 판단된다. 또한 본 연구의 결과를 종합적으로 고려할 때 현재 갓길 차로제 운영 기준 속도의 조정을 고려해볼 필요가 있다. 그리고 본 연구에서 나아가 갓길차로제 운영 에이전 트를 학습시키는 과정에서 갓길차로의 개폐 여부를 결정하는 시간간격, 속도 등 보다 최적화된 운영을 위해 추가적으로 고려할 수 있는 요소를 찾고 반영될 필요가 있다. 그리고 이러한 요소는 실제 도로에서 정보 수 집의 용이성 측면에서 함께 고려되어야 한다.

    이와 함께 본 연구는 몇 가지 한계가 존재한다. 첫 번째로 본 연구에서 개발한 알고리즘은 고속도로 1개 구간을 대상으로 분석하였다. 따라서 현재 갓길차로제가 운영되는 모든 구간을 대표할 수 없고, 다른 고속도 로 및 구간에 추가적으로 적용하여 분석할 필요가 있다. 두 번째로 갓길차로제는 가변적인 차로 운영을 통해 일시적으로 용량을 증대시키는 교통운영관리 기법으로 갓길차로제가 운영되는 구간에서 해소된 지정체가 인접구간으로 전이될 가능성이 있다. 본 연구는 갓길차로제의 직접적인 영향만을 분석하였으며, 갓길차로제 운영이 상류부 및 하류부에 미치는 영향은 고려하지 못하였다. 따라서 향후 연구를 통해 이러한 영향을 분석 할 필요가 있다. 세 번째로 본 연구에서는 갓길차로제의 운영이 안전성에 미치는 영향을 분석하기 위해 SSAM을 활용하였다. 하지만 SSAM의 경우 사고로 연결되기 쉬운 상충이라는 대리 지표를 분석한 것으로 이 를 통해 안전성의 영향을 단정짓기에는 부족하다. 그리고 실제 교통사고에는 상충 이외에 사고 발생에 영향 을 줄 수 있는 여러가지 요인이 존재할 수 있다. 따라서 향후 연구를 통해 안전성에 대한 정밀한 분석이 수 행될 필요가 있다.

    마지막으로 본 연구에서 개발한 알고리즘의 효과는 미시교통시뮬레이션 프로그램을 통해 도출된 것이다. 시뮬레이션 상의 차량들은 차량추종모형, 차로변경모형과 같은 모형에 따라 움직이며, 실제 도로를 주행하는 운전자의 주행 패턴과 차이가 존재하게 된다. 마찬가지로 본 연구에서 사용한 VISSIM의 경우 차로폭, 도로 구배 등의 기하구조가 시뮬레이션 상의 차량의 움직임에 영향을 주지 않는다. 하지만 차로폭의 감소와 같은 변화는 실제로 운전자의 횡방향 주행이격과 같은 운전 안정성에 큰 영향을 줄 수 있는 중요한 요소이며, 고 려되어야 할 요소이다. 향후 이러한 시뮬레이션의 한계를 보완한 연구를 통해 신뢰성 높은 연구 결과를 도출 할 수 있을 것으로 판단된다.

    ACKNOWLEDGEMENTS

    본 논문은 한국도로공사가 수행한 ‘AI를 활용한 길어깨차로제 설치 및 운영기준 연구’의 연구 결과를 바 탕으로 작성되었습니다.

    Figure

    KITS-22-4-63_F1.gif

    Reinforcement learning based HSR operating algorithm overview

    KITS-22-4-63_F2.gif

    Target expressway segment for analysis(Giheung IC–Suwonsingal IC)

    KITS-22-4-63_F3.gif

    Time comparison of shoulder lane opening and closing

    Table

    Hard shoulder running facilities in Korea

    Lane control criteria

    Data for calibration

    Simulation model parameter range and selected values for calibration

    Results after model calibration – Average speed(km/h)

    Comparison of actual speed data and simulation results

    Mobility effect of reinforcement learning based HSR operating algorithm

    States for opening and closing the shoulder lane of DQN based agent

    Comparison of safety effects by HSR operation method

    Reference

    1. Bauer, K. M. and Harwood, K. (2004), “Safety Effects of Using Narrow Lanes and Shoulder-Use Lanes to Increase the Capacity of Urban Freeways”, Journal of the Transportation Research Board, vol. 1897, no. 1, pp.71-80.
    2. Coffey, S. and Park, S. (2018), “Operational Evaluation of Part-Time Shoulder Use for Interstate 476 in the State of Pennsylvania”, Advanced in Civil Engineering, vol. 2018, article ID. 1724646, pp.1-8.
    3. Greguric, M. , Kusic, K. and Ivanjko, E. (2022), “Impact of Deep Reinforcement Learning on Variable Speed Limit strategies in connected vehicles environments”, Engineering Applications of Artificial Intelligence, vol. 112, 104850.
    4. Kim, J. S. (2017), Evaluation of Traffic Flow Efficiency and Safety Hard Shoulder Runnings for Freeway, Doctoral Dissertation, University of Seoul, Seoul, Republic of Korea.
    5. Kim, S. G. and Park, C. H. (1998), “An Analysis of Breakdown Cause at Freeway Merge Area”, Journal of Korean Society of Transportation, vol. 16, no. 2, pp.53-65.
    6. Ko, E. , Lee, S. and Kim, H. (2020), “Comparison Before and After Implementation of Travel Speed in Shoulder-Use Lanes on Expressway”, Journal of Korea Institute of Intelligent Transportation Systems, vol. 19, no. 2, pp.36-47.
    7. Korea Expressway Corporation (2018), Hard shoulder running operation manual.
    8. Korea Expressway Corporation (2022), Study on the installation and operation standards of hard shoulder running using AI.
    9. Korean Statistical Information Service,https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1YL20731, 2023.04.20.
    10. Lee, W. , Yang, H. , Kim, K. , Lee, Y. and Lee, U. (2017), Reinforcement Learning with Python and Keras, Wikibooks.
    11. Lousiana Department of Transportation & Development (2022), DOTD VISSIM parameters.
    12. Ma, J. , Hu, J. , Hale, D. K. and Bared, J. (2016), “Dynamic Hard Shoulder Running for Traffic Incident Management”, Journal of the Transportation Research Board, vol. 2554, no. 1, pp.120-128.
    13. Ministry of the Interior and Safety(MOIS)https://www.mois.go.kr/frt/bbs/type010/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000008&nttId=97993, 2023.04.20.
    14. Park, S. (2020), Development of Traffic Signal Control Model using AI Technique, Doctoral Dissertation, Ajou University, Suwon, Republic of Korea.
    15. Statistics Korea,https://kostat.go.kr/board.es?mid=a10301020300&bid=204, 2023.04.20.
    16. Sutton, R. S. and Barto, A. G. (2007), Reinforcement Learning An Introduction, The MIT Press, England.
    17. Virginia Department of Transportation (2020), VDOT VISSIM User Guide.
    18. Vrbanic, F. , Ivanjko, E. , Mandzuka, S. and Miletic, M. (2021), “Reinforcement Learning Based Variable Speed Limit Control for Mixed Traffic Flows”, 29th Mediterranean Conference on Control and Automation, Bari, Italy, pp.560-565.
    19. Wisconsin Department of Transportation (2021), Vissim Calibration Parameters.
    20. Zhou, W. , Yang, M. , Lee, M. and Zhang, L. (2020), “Q-Learning-Based Coordinated Variable Speed Limit and Hard Shoulder Running Control Strategy to Reduce Travel Time a Freeway Corridor”, Journal of the Transportation Research Board, vol. 2674, no. 11, pp.915-925.

    저자소개

    Footnote