Ⅰ. 서 론
1. 개요
교통이 집중되는 도심 지역에서의 주차 공간 부족 문제가 심화되며 제한된 공간에서 효율적으로 주차 공 간을 활용하는 것이 중요한 과제로 대두되고 있다. 이는 도로 혼잡, 주차 공간 탐색 시간 증가, 에너지 낭비 와 같은 부정적인 영향을 발생시키며, 운전자들에게 피로와 스트레스를 유발한다. 특히 공간이 협소하거나 차량이 많은 환경에서는 주차 과정이 더욱 어려워져 운전자 편의성을 높이고 주차 관련 문제를 완화할 수 있는 자율주차 기술의 필요성이 커지고 있다.
현재 상용화된 자율주차 시스템은 좁은 공간이나 차량이 많은 환경과 같은 복잡한 시나리오에서는 성능 이 크게 저하되거나 자율주차를 지원하지 못하는 문제를 보인다. 특히, 실시간으로 경로를 계획하고 최적의 주차 공간을 탐색하는 데 있어 한계를 드러내고 있어 자율주차 시스템의 고도화가 필요하다. 자율주차 기술 은 단순히 개별 차량의 주차 문제를 해결하는 것을 넘어, 교통 흐름의 최적화 및 도심 내 주차 공간의 효율 적 이용 등 교통공학적 문제 해결에도 기여할 수 있다.
자율주차 기술의 핵심은 차량이 주차 공간까지 안전하고 효율적으로 이동할 수 있도록 경로를 계획하는 능력에 있다. 그러나 복잡한 주차 환경에서의 경로계획은 실시간성과 정확성, 그리고 충돌 회피와 같은 안전 성을 동시에 보장해야 한다. 본 연구는 복잡한 주차 환경에서도 실시간성과 정확성을 갖춘 경로계획 알고리 즘을 제안함으로써, 자율주차 기술의 고도화를 통해 도심 내 주차 문제 해결에 기여하고자 한다. 주차 경로 계획 알고리즘은 오토발렛, 충돌 회피 등 다양한 측면에서 연구가 진행되고 있다. 본 연구는 이중 현재 상용 기술에 대한 높은 응용성을 위해 현재 상용화되고 있는 차량 주변 주차 공간에 대한 자율주차 시스템에서의 경로계획을 목표로 한다.
본 연구는 자율주차 경로계획에 있어 높은 실시간성을 보장하기 위해 중간 목표를 활용한 알고리즘을 제 안한다. 중간 목표는 알고리즘이 경로를 탐색할 때, 목표 지점 이전 우선으로 탐색하는 지점으로 정의한다. 본 연구는 논홀로노믹 시스템을 반영할 수 있어 차량의 경로계획에 주로 활용되는 하이브리드 A*와 리즈-쉐 프 알고리즘을 활용한다. 하이브리드 A* 알고리즘은 경로 탐색 시 다음 지점을 선택할 때, 목표 지점과의 거 리 등 목표 지점에 얼마나 가까운지를 추정하는 휴리스틱 비용을 활용한다. 하지만 휴리스틱 비용은 논홀로 노믹 시스템을 반영하기 어려워 주차 환경과 같은 장애물이 많은 복잡한 환경에서 실제 이동 가능성이 고려 되지 않아 비용 산정의 최적성이 크게 저하된다. 이때 중간 목표는 목표 지점 이전의 휴리스틱 비용 산정의 기준으로 활용되며, 장애물을 피해 우선으로 탐색해야 할 공간을 지시하고, 이후 목표 지점으로의 탐색을 유 도해 불필요한 탐색을 축소해 연산 비용을 감소시킨다.
논문의 목표 연구 범위는 대부분 주차장에서 활용되는 주차 형태인 직각주차 환경으로, 장애물이 없는 상 황부터 이중 주차 등에 의해 좁고 복잡해진 고난도 환경까지 직각주차 환경에서 발생할 수 있는 다양한 상 황을 고려한다. 이러한 연구를 통해 도심 내 주차 문제 해결에 있어 기존 시스템 대비 좁은 공간 및 복잡한 환경에서의 경로계획에 필요한 연산 시간을 대폭 감소시켜 자율주차 기술의 실용성을 높이고자 한다.
Ⅱ. 관련 연구
기존 경로계획 알고리즘의 성능을 향상시키며 복잡하고 좁은 주차 환경에서 강건한 알고리즘을 개발하기 위해 다양한 연구가 활발히 진행되고 있다. 논홀로노믹 시스템은 비선형적인 차량 모션과 장애물 등에 의해 경로의 급격한 곡률 변화나 불연속성이 나타나며, 이로 인해 좁고 복잡한 환경은 경로 품질과 안정성을 저하시킬 뿐만 아니라, 실시간성을 보장하지 못할 가능성이 커 해당 환경에서의 강건성 확보는 자율주차 시스템의 고도화 를 위해 필수적이다. 이러한 문제를 해결하기 위해 Zhang et al.(2018, 2020)은 최적화 기반의 충돌 회피 알고리즘인 OBCA를 하이브리드 A* 알고리즘에 적용해 주차 환경 내 다수의 장애물을 고려해 충돌이 없는 안정적인 경로를 생성하였고, Wu et al.(2023)은 현재 지점과 목표 지점 사이의 공간 정보를 활용해 호와 직선의 조합을 통해 경로를 생성하며, 입자 군집 최적화 기법을 활용해 차량의 현재 위치와 각도를 매개변수로 최적의 주차 위치와 각도를 찾는 연구를 진행하였다. Sedighi et al.(2019)는 주차 공간 내 주행 경로를 클로소이드 곡선을 활용해 조향 변화를 선형적으로 발생시켜 복잡하거나 좁은 주차 환경에서도 부드러운 경로를 유지할 수 있도록 하였으 며, Jhang et al.(2021)은 경로 품질 향상을 위해 출발 지점과 목표 지점으로부터 순방향, 역방향으로 2번의 경로계 획을 통해 공통되는 최적 지점을 찾아 경로계획에 활용하는 방법을 활용하였다.
1. 인공신경망 기반 경로계획 알고리즘 연구
Nair and Supriya(2020)는 다익스트라 알고리즘으로 도출한 최적 경로를 인공신경망이 학습하는 연구를 진 행하였고, Shahi and Lee(2022)는 경로를 MPC를 통해 추종하고, 이때 차량이 움직인 실제 경로를 인공신경망 이 학습하여 추종 시 실제 차량의 움직임이 고려된 경로를 인공신경망이 학습하는 등 인공신경망이 직접 경 로를 생성하는 연구를 진행하였다. 이처럼 인공신경망이 경로 자체를 직접 출력하는 방식 외에도 경로계획 에 인공신경망이 경로계획에 유용한 정보를 도출하여 활용하는 간접적인 방식의 연구 또한 활발히 진행되고 있다. Kim and Kim(2024)은 인공신경망이 경로로부터 목표 지점 진입 전 최적의 전·후진 전환점을 학습하는 연구를 진행하였으며, Molina et al.(2020)는 경로 탐색 시 필수적으로 지나야 하는 영역을 인공신경망이 학습 하는 연구를 진행하였다. Kuo et al.(2018)는 인공신경망이 최적의 경로를 학습해 다음 탐색 방향을 지시하는 연구를 진행하였고, Wang et al.(2021)은 인공신경망이 경로로부터 탐색이 불필요한 영역을 학습해 이를 제외 한 효율적 탐색 영역을 지시하는 연구를 진행하였다.
2. 휴리스틱 비용 최적화 기반 경로계획 알고리즘 연구
하이브리드 A* 알고리즘의 휴리스틱 비용은 현재 지점과 목표 지점 간의 거리 등에 따른 비용으로써 단 계적인 탐색이 목표 지점과 가까워지도록 유도한다. 이때, 주차 환경과 같이 장애물이나 좁은 통로 등에 의 해 논홀로노믹 제한을 크게 받게 되는 경우 휴리스틱 비용의 최적성이 크게 감소한다. 이러한 문제를 해결하 기 위해 Chen et al.(2013)은 공간 탐색 과정에서 장애물과의 거리를 반영해 원을 생성하고 이를 경로 탐색의 단위로 활용하여, 생성된 원의 경계에 새로운 원을 생성하며 경로 탐색을 확장하였고, Liu et al.(2017)은 좁은 통로나 장애물 주변에 대한 경계 조건을 설정하고 이를 휴리스틱 비용에 도입해 해당 영역에 대한 탐색 비 용을 높게 설정하는 연구를 진행하였다. Wang(2024)은 여유 공간에 따라 탐색 가능 범위와 논홀로노믹 움직 임 범위를 가변적으로 조정하는 등 휴리스틱 비용을 개선한 연구는 주로 장애물과 공간의 특성을 반영해 공 간에 대해 효율적인 탐색이 이뤄지도록 휴리스틱 비용을 최적화한다.
3. 중간 목표 활용 경로계획 알고리즘 연구
중간 목표를 정의하고 활용하여 경로 탐색 효율성을 높이는 연구 또한 진행되고 있다. Zips et al.(2016)은 목표 지점으로부터 역방향 경로 생성을 통해 목표 지점 주변의 좁은 공간으로부터 탈출하거나, 전·후진 전환 점을 중간 목표로 활용하였고, Liu et al.(2010)은 환경 내 장애물을 인지해 장애물 밀집도가 작고 복잡하지 않은 곳에 중간 목표가 설정되며, 바이어스 확률에 따라 중간 목표로 탐색되도록 유도하는 연구를 진행하였 다. 또한, 강화학습을 활용하여 Paul et al.(2019)는 전문가의 경로를 여러 중간 목표로 나누었고, Lee and Kim(2023)은 시작 지점과 목표 지점으로부터 양방향 경로를 생성해 공통적으로 경로 중 행동 변화가 필요한 지점을 중간 목표로 설정하는 등 해당 지점을 경유할 때 높은 보상을 주는 방식으로 활용하였다.
Ⅲ. 중간 목표 정의 및 활용
본 연구는 차량의 논홀로노믹 시스템을 반영하여 경로를 생성할 수 있는 대표적 알고리즘인 하이브리드 A* 알고리즘을 활용한다. 이를 통해 장애물에 의해 복잡하거나 좁은 주차 환경에 대해 차량이 이동할 수 있 는 최적 경로를 찾을 수 있도록 한다. 하지만 하이브리드 A* 알고리즘은 한 지점씩 확장하며 경로를 탐색하 여 탐색 시간이 오래 걸릴 수 있기 때문에, 리즈-쉐프(Reeds-Shepp) 알고리즘을 함께 활용한다. 리즈-쉐프 알 고리즘은 기하학에 기반해 현재 지점으로부터 목표 지점까지의 최적의 경로를 공간 탐색 없이 생성할 수 있 기 때문에 탐색 시간을 크게 감소시킬 수 있다. 하지만, 리즈-쉐프 알고리즘은 공간 내 장애물을 고려할 수 없기 때문에 Li et al.(2020)이 제안한 알고리즘을 통해 장애물에 대해 유연하게 대응할 수 있는 하이브리드 A* 알고리즘과 융합하여 각각의 장점을 활용할 수 있다. 하이브리드 A*와 리즈-쉐프를 융합한 알고리즘은 매 탐색마다 현재 위치로부터 리즈-쉐프 알고리즘을 활용하여 목표 지점까지 경로를 계획한다. 이동 가능한 경로가 생성되었을 경우 해당 경로를 활용하며, 장애물에 의해 이동 가능한 경로가 생성되지 않았을 경우, 하이브리드 A* 알고리즘을 통해 차량의 논홀로노믹 시스템을 반영하며 목표 지점에 도달하기 위한 경로를 탐색한다. 이 과정에서 하이브리드 A* 알고리즘은 목표 지점에 접근하는 동시에 장애물을 회피할 수 있는 위치로 이동하고, 리즈-쉐프 알고리즘은 이동 중 매번 목표 지점까지 도달할 수 있는 최적 경로를 탐색하여 운동학적으로 유효한 최적 경로를 생성할 수 있다. 이때, 본 연구에서는 하이브리드 A* 알고리즘과 리즈-쉐 프 알고리즘의 경로 생성이 동일한 방향성을 갖게 하기 위해 두 알고리즘의 비용을 동일하게 설정하였다. 경 로 비용은 후진, 선회, 선회 변화, 전·후진 전환을 고려한다.
1. 중간 목표 정의
본 연구는 중간 목표라는 정보 형태를 제안하며, 이를 하이브리드 A* 알고리즘의 휴리스틱 비용 산정 기 준으로 활용한다. Ryu and Park(2013)은 A* 알고리즘 기반 경로계획 알고리즘들의 휴리스틱 비용은 빠른 탐 색이 가능하지만 환경에 따라 최적을 보장하지 않는다는 점을 지적하였다. 특히나 하이브리드 A* 알고리즘 에서의 휴리스틱 비용은 모든 경로에 대해 차량의 논홀로노믹 시스템을 고려할 수 없기 때문에 항상 최적을 보장하지 않는다. 아래 <Fig. 1>은 휴리스틱 비용이 부적절하게 산정되는 경우의 예시이다. 차량은 A에서 비 용이 가장 낮은 B로 이동하고, 이후 같은 방식으로 C로 이동한다. 하지만 이때, 이러한 경로는 최적으로 볼 수 없다. 목표 지점의 상태로 도달하기 위해선 후면으로 진입해야 하며, 이를 위해선 우측 상단 지점으로 이 동하여 목표 지점까지 후진하여 진입해야 한다. 하지만 휴리스틱 비용은 홀로노믹한 거리를 기반으로 산정 되기 때문에 목표 지점과 가까워지는 방향으로 탐색을 유도할 수 밖에 없어 <Fig. 1>과 같이 최적이 아닌 경 로 탐색이 이뤄진다. 이로 인해 불필요한 경로 탐색이 발생되어 휴리스틱 비용이 탐색을 방해할 수 있으며, 차량이 논홀로노믹 시스템이 제한이 큰 장애물이 많은 복잡한 환경에서 더 크게 발생한다.
본 연구에서 제안하는 중간 목표는 휴리스틱 비용의 효율적 활용을 통해 최적의 비용 산정이 이뤄지도록 하여 위와 같은 문제를 해결한다. 중간 목표는 좌표로써 하이브리드 A* 알고리즘 휴리스틱 비용의 중간 기 준으로 활용된다. 중간 목표는 위 예시 상황에서의 우측 상단과 같이 효과적인 우선 탐색 지점을 지시한다. 이를 통해 아래 <Fig. 2>와 같이 기존 B가 아닌 B’을 통해 중간 목표 방향으로 탐색하며, 중간 목표에 도달 하면 휴리스틱 비용 기준은 최종 목표 지점으로 변경된다.
2. 경로계획 알고리즘 중간 목표 활용 효과
중간 목표는 휴리스틱 비용의 기준을 순차적으로 설정함으로써 탐색에 효율적인 지점을 지시하며, 이를 통해 불필요한 영역에 대한 탐색을 최소화한다. 아래 <Fig. 3>은 주차 환경을 구성한 것으로, 중간 목표의 활 용 효과를 확인하기 위한 예시이다. 초록색으로 표시된 것은 탐색 시 이동한 상태와 경로를 나타낸다. 두 예 시를 비교했을 때, 기존 탐색 방식은 효율적인 탐색 지점에 대한 정보가 없어 실제 경로로부터 벗어난 불필 요한 영역에 대한 탐색이 많은 것을 볼 수 있다. 반면, 중간 목표를 활용한 방식은 해당 중간 목표 근처 영역 으로 탐색이 우선 진행되어, 목표 지점으로 후면 진입에 유리한 상태로 빠르게 도달할 수 있다. 이와 같이 논홀로노믹 시스템으로 움직이기 어려워 최적의 경로를 탐색하기 어려운 환경에서 중간 목표는 효과적인 탐 색 지점을 우선적으로 탐색하게 하여 효율적인 경로 탐색이 이뤄질 수 있도록 한다.
Ⅳ. 강화학습 기반 중간 목표 도출
환경에 따른 최적의 중간 목표는 경로 탐색에 중요한 정보로 활용될 수 있지만, 효과적인 탐색 지점은 환 경에 따라 다양성과 변동성이 크기 때문에, 명확한 규칙을 찾기 어렵다. 그렇기 때문에, 규칙에 기반해 중간 목표를 찾거나 직접 중간 목표를 설정하는 것은 한계가 있다. 이러한 문제를 해결하기 위해 본 연구에서는 강화학습 기반의 중간 목표 도출을 제안한다. 강화학습 기반의 학습은 에이전트가 주어진 환경 내에서 보상 을 통해 최적의 행동을 찾는 학습 방법으로, 중간 목표의 불명확한 규칙을 보상을 최대화하며 간접적으로 학 습하여 환경에 따른 최적의 중간 목표를 도출할 수 있다.
1. 중간 목표 도출 강화학습 알고리즘
중간 목표는 몇 가지 특징을 갖는다. 첫 번째로, 중간 목표는 환경 내 연속적인 공간의 한 좌표로, 행동 영 역이 방대하다. 두 번째로, 한 번의 행동만으로 에피소드가 종료되기 때문에 학습 간 환경의 변화가 잦다. 세 번째로, 좁고 복잡한 환경 내 논홀로노믹 시스템 특성 상 현재 상태인 시작 지점, 목표 지점, 주차 환경의 미 세한 변화에도 경로가 크게 변할 수 있다. 앞선 세 가지 이유로 최적의 행동을 학습하기 위해선 환경과 상태 변화에 따라 방대한 행동 영역에 대해 탐험하여 다양한 상황을 학습하는 것이 중요하다. 이러한 특징들을 반 영하여, 본 연구에서는 Deep Deterministic Policy Gradient(DDPG) 알고리즘을 활용해 학습한다. 학습 알고리즘 에 활용되는 리플레이 버퍼(Replay Buffer)는 학습 간 에피소드가 단일 스텝으로 이루어져 환경의 변화가 잦 은 본 연구의 문제에서, 저장된 다양한 과거들을 활용해 학습할 수 있기 때문에 환경 변화가 빠르더라도 비 교적 이전 경험들이 버퍼에 저장되어 있어 급격한 보상 변동이나 행동 변화에 덜 민감하게 학습될 수 있다. 이를 통해 단기적인 환경 변화의 영향을 줄이고, 장기적인 패턴을 학습할 가능성이 높아진다.
2. 중간 목표 도출 강화학습 알고리즘 설계
중간 목표 도출 강화학습 모델의 상태는 환경의 장애물과 차량의 현재 위치, 목표 지점의 정보를 포함하 며 이는 장애물 정보가 반영된 이진 그리드맵과 시작 지점(xs, ys, headings), 목표 지점(xg, yg, headingg)이다. 이진 그리드맵은 환경의 공간적 구조로써 1은 장애물, 0은 비어있는 공간을 나타내며, 시작 지점과 목표 지 점은 해당 지점의 좌표와 헤딩각으로 이루어져 있다.
에이전트는 위 상태 s를 입력받아 행동으로써 중간 목표의 좌표(xsg, ysg)를 도출하며, 행동 a 및 정책 π는 식 (2)와 같이 표현된다.
환경은 상태와 동일하게 장애물 정보가 반영된 이진 그리드맵과 시작 지점(xs, ys, headings), 목표 지점 (xg, yg, headingg)으로, 이는 본 연구의 모델은 단일 행동으로 에피소드가 종료되기 때문에 에피소드가 시작될 때 주어진 환경 정보가 곧 에이전트의 상태 정보로 활용되기 때문에 상태와 환경이 동일한 정보를 갖는다. 강화학습 모델은 <Fig. 4>와 같이 도출한 중간 목표에 대해 현재 환경에서의 중간 목표를 활용한 경로를 생 성하며 해당 중간 목표 활용 결과에 따라 보상을 받아 학습한다.
보상 R은 각 환경에 대해 도출된 중간 목표가 경로계획 알고리즘에 활용되었을 때의 개선 효과를 다루며, 각 학습 스텝 간 도출된 중간 목표를 활용해 경로계획 알고리즘을 실행하고, 강화학습 모델은 이에 따른 개 선 정도를 보상으로 받게 되며 이를 통해 최적의 중간 목표를 학습한다.
보상 R은 식 (4)와 같이 도출한 행동이 유효성 여부를 판정한 후, 두 가지 보상 중 하나를 받게 된다. 유효 성 여부는 도출한 중간 목표가 경로계획 알고리즘에 활용할 수 있는지로 판단된다 중간 목표가 환경 내 장 애물 상에 존재할 경우 해당 지점에 도달할 수 없어 휴리스틱 비용을 산정할 수 없기 때문에, 해당 상황은 유효하지 않은 경우로 판정한다.
첫 번째 보상함수 유효성에 대한 보상함수이다. 유효하지 않은 중간 목표를 도출할 경우, 해당 행동에 대 해 음의 보상을 받는다. 음의 보상값은 –0.4로, 다른 보상함수와의 상대적 크기를 고려해 경험적으로 도출 한 값이다. 다른 보상함수에 비해 큰 값으로 설정할 경우 학습 간 음의 보상이 지배적으로 나타나 학습이 불 안정하다. 유효성 보상함수를 통해 중간 목표 도출 모델은 이진 그리드맵 내의 장애물이 있는 공간에 중간 목표를 도출하지 않도록 한다.
두 번째 보상함수는 연산 시간에 대한 보상함수로, 중간 목표를 경로계획 알고리즘에 활용했을 때 경로 탐색 연산 시간의 개선 정도를 산정한다. 이는 경로 탐색의 효율성을 향상시키기 위한 보상함수로, 탐색 시 이동한 상태의 총 개수로 산정한다. 경로 탐색은 현재 상태로부터 다음 상태 후보 도출 및 비용 산정, 우선 순위 큐 내 최저 비용 상태로 이동 순으로 이뤄지기 때문에 연산 시간의 단위를 상태의 이동으로 설정하였 다. 이는 실제 알고리즘의 연산 시간을 측정하는 것은 하드웨어에 따라 변동성이 있기 때문에 알고리즘의 탐 색 단위를 설정하여 해당 단위가 발생한 수를 측정하였다. 연산 시간 보상은 식 (6)과 같이 산정한다. 아래 첨자 Co는 기존 탐색 방식, Cs는 중간 목표를 활용했을 때의 연산 시간이다.
주차 환경의 복잡성에 따라 연산 시간의 변동성이 크기 때문에 보상함수는 절대적인 값의 비교가 아닌 개 선도로 설정하였다.
3. 중간 목표 도출 강화학습 모델 구조
본 연구에서 제안하는 모델은 실제 차량에 임베딩되어 활용되는 것을 목표로 하기 때문에, 연산량이 작은 최소한의 모델을 구성하였다. 이는 하드웨어 의존성을 낮춰 실용적인 활용이 가능하도록 하기 위함이다. 특 히나 연구 목적 중 하나인 연산 시간 감소 측면에서, 본 연구에서 제안하는 방식은 모델 추론 시간이 추가되 기 때문에 연산량이 작은 모델을 구성해 모델 추론 시간의 영향성을 최소화한다. 중간 목표 도출 모델의 액 터는 이진 그리드맵을 입력받아 특징을 추출하는 Convolutional layers와 추출된 특징, 시작, 목표 지점의 상태 를 입력받아 중간 목표를 출력하는 Fully-connected layers로 구성되어 있으며, 크리틱은 액터와 유사하지만 Fully-connected layers에서 액터의 행동을 입력받아 해당 행동의 가치를 출력한다.
Ⅴ. 주차 환경 목표 상황 정의
논홀로노믹 시스템은 주차 환경과 같이 복잡하고 협소한 공간에서 경로 탐색에 어려움을 갖는다. 특히, 제 한된 공간 내에서 잦은 방향 전환과 좁은 이동 경로는 기존 경로계획 알고리즘으로는 최적의 탐색 방향을 찾아내기 어려운 환경을 조성하여 비효율성이 커진다. 이러한 환경은 다양한 장애물로 인해 경로계획이 복 잡해진다. 특히, 주차 공간 내에서 차량의 이동 가능 경로가 제한되는 경우 혹은 방향 전환이 필수적일 때 이러한 문제가 두드러진다. 이에 따라, 좁거나 복잡한 주차 환경은 기존 경로계획 알고리즘으로 효과적인 경 로 탐색이 어려운 고난도 주차 환경으로 정의한다. 본 연구의 목표는 이러한 고난도 주차 환경에서도 안정적 이고 효율적인 경로계획 알고리즘을 개발하는 것이다. 이를 위해 다양한 주차 환경을 반영한 데이터를 구축 하여, 다양한 환경적 요인과 차량의 동적 특성을 학습할 수 있는 데이터를 활용한다.
차량은 준중형 차량의 제원을 활용하며 주차 환경의 규격은 한국의 주차장법 시행규칙을 따른다. 데이터 는 Jhang and Lian(2020)의 연구에서 제안된 환경과 유사하게 경로 탐색을 직접적으로 방해해 탐색 공간을 제 한하고 효율적인 경로 탐색 지점을 막는 등 논홀로노믹 시스템이 경로 탐색 효율성 및 안정성 문제가 발생 할 수 있는 여러 방해 요인을 포함한다. 본 연구는 직각주차 상황의 세 가지 방해 요인을 포함한 환경을 목 표 상황으로 정의한다.
첫 번째로, 차량이 목표 지점에 가까이 이동할 때, 해당 진로를 막아 우회해야 하는 장애물로, 진로 방해 요인이다. 이는 공간을 협소하게 하여 차량의 이동 가능 경로를 제한하는 요인으로, 공간 내 탐색할 수 있는 공간이 줄어 경로의 최적성을 감소시킨다.
<Fig. 5>는 진로 방해 장애물의 예시로, 차량의 이동 반경이 제한되며 장애물에 의해 협소해진 통로를 지 난 후 제한적인 탐색만 가능하다. 이로 인해 아래 비어있는 주차 자리로 이동하여 충분한 선회각을 확보하기 어렵다. 이는 주로 시작 지점과 목표 지점이 멀리 지정되었을 때 발생한다.
두 번째로, 차량이 목표 지점으로 진입하기 위한 경로를 방해해 이동 경로의 변화를 일으키는 장애물로, 진입 방해 요인이다. 이는 차량이 목표 지점에 진입하는 경로 주변에 위치하여 해당 경로로 주행이 불가하도 록하거나 목표 지점 진입을 위한 경로 탐색의 효율성을 떨어뜨릴 수 있어 경로 품질을 낮춘다.
<Fig. 6>은 진입 방해 장애물의 예시로, 목표 지점에 도달하기 위한 전환 지점에 도달한 후 목표 지점에 진입할 때 충돌이 발생할 수 있는 지점에 장애물이 위치한다. 이로 인해, 해당 경로로 이동하지 못하고 다른 경로를 탐색해야 하므로 연산 비용이 증가한다.
세 번째로, 차량이 목표 지점에 진입하기 위한 전·후진 전환점에 장애물이 있어 효율적인 경로를 계획하 지 못하도록 하는 전환점 방해 요인이다. 목표 지점에 진입하기 위한 효율적 전·후진 전환 지점에 도달하지 못하도록 하여 경로의 최적성을 저하시킨다.
<Fig. 7>은 전환점 방해 장애물의 예시로, 목표 지점에 도달하기 위한 전·후진 전환점에 장애물이 위치하 여 해당 지점에 도달하지 못하도록 한다. 이로 인해 효율적 이동이 가능한 해당 전환점에 도달하지 못해 다 른 경로를 탐색해야 하므로 연산 비용이 증가한다. 진입 방해 장애물과 마찬가지로 다른 탐색 방향은 목표 지점과 멀어지는 방향이기 때문에, 기존 경로계획 알고리즘의 휴리스틱 비용 산정이 비효율적인 환경이다.
앞서 정의한 주차 환경 목표 상황 정의에 따라 장애물이 없는 상황과 장애물에 의한 진로 방해, 진입 방 해, 전환점 방해 상황으로 총 4가지 유형에 대한 데이터를 수집하였다. 파이썬 환경을 활용하여 데이터를 생 성하였으며, 생성된 데이터는 각 상황의 장애물 정보를 포함한 이진 그리드맵과 시작 지점 및 목표 지점 정 보이다. 각 상황에 대해 시작 지점은 차로 내 공간에 대해 무작위로 발생하며, 목표 지점은 모든 주차 공간 에 대해 무작위로 발생한다. 장애물의 위치 또한 주차 공간 앞 이중주차 공간에 무작위로 발생하며, 시작 지 점과 목표 지점에 따른 장애물의 영향에 따라 앞서 정의한 직각주차 환경의 4가지 유형으로 나눈다. 각 유형 당 2,000개씩 데이터를 수집해 총 8,000개의 데이터를 활용하며, 이때 학습, 유효, 시험 데이터는 모든 유형으 로부터 동일하게 8:1:1의 비율로 나누어 활용한다.
Ⅵ. 알고리즘 학습 및 시험 결과
모델은 버퍼에 미리 저장된 5만 개의 학습 데이터(상태, 환경, 행동, 보상)를 학습하는 Warm-up을 통해 다 양한 데이터를 우선 학습한 후, 5만 스텝부터 실제 학습을 시작하게 된다. 앞서 수집한 데이터를 학습한 결 과 <Fig. 8>과 같은 학습 양상을 보였다. 그래프에 표시된 보상은 10개 에피소드의 평균을 나타낸 것으로, 학 습 초기엔 낮은 보상을 얻지만, 점차 증가하는 모습을 보여 리플레이 버퍼를 활용해 점진적으로 환경에 적응 하고 더 나은 정책을 학습하기 시작했음을 볼 수 있다. 이후 학습 중반엔 보상의 평균값이 증가하고 있지만, 진폭이 비교적 큰 모습을 보여 아직 에피소드에 따라 큰 변동성을 갖거나, 정책이 최적화되지 않았음을 의미 한다. 이후 학습 후반엔 보상이 점차 수렴하는 모습을 보이며 진폭이 일정 범위 내에서 유지되어, 환경 내에 서 행동이 일관성을 갖는다. 최종적으로 평균 보상이 약 0.5에 수렴하며 기존 알고리즘에 비해 개선된 성능 으로 안정적인 학습이 이뤄졌음을 볼 수 있다.
학습한 알고리즘을 수집한 각 유형의 시험 데이터 800개로 시험하였다. 비교군은 중간 목표를 활용하지 않 은 하이브리드 A*와 리즈-쉐프 융합 알고리즘이며, 비교 지표는 연산 시간이다. 경로 탐색의 효율성을 나타낼 수 있는 연산 시간은 탐색 시 이동한 상태의 수로 대체하였다. 이때 본 연구에서 제안하는 중간 목표를 활용한 경로계획 연산 시간은 중간 목표 도출 모델의 추론 시간을 포함한다. 실제 차량에 임베딩되어 활용하는 것을 목표로 하기 때문에, 연산 시간의 기준은 Nvidia사의 Jetson Orin Nano 보드에서의 실제 연산 시간을 측정하였 다. 경로 탐색 시 상태 간 이동에 약 0.03초가 소요되었고, 모델 추론 시간 또한 약 0.03초가 소요되었다.
주차 시간은 주차장에서의 저속 주행 상황을 가정하여 5km/h의 주행 속도로 설정하며, 전·후진 전환 간 차량의 가·감속, 정차를 고려해 각 전·후진 전환점에서 3초를 더한다. 경로 길이는 L, 차량 속도는 υ, 전·후 진 전환점의 개수와 정차 시간은 각각 Nswitch, tswitch 로, 주차 시간은 식 (7)과 같이 표현한다.
도출된 중간 목표가 환경 내 장애물 상에 존재할 경우 해당 지점에 도달할 수 없어 휴리스틱 비용을 산정 할 수 없기 때문에 중간 목표를 활용하지 않고 기존 알고리즘과 같이 목표 지점을 휴리스틱 비용의 기준으 로 활용한다. 이는 중간 목표 도출 실패 사례로 판정하며, 전체 시험 데이터에 대해 실패 사례는 발생하지 않았다. 전체 시험 데이터에 대해 개선도를 평가한 결과, 중간 목표를 활용했을 때 <Table 1>과 같이 모든 유 형에서 기존 알고리즘 대비 개선된 성능을 보였다. 주차 상황에 따라 연산 시간의 스케일 차이가 발생해 절 대적인 값 비교는 어려워 각 상황에서의 개선도를 산정한 결과, 전체 데이터에서 경로 탐색 연산이 약 46.1% 감소된 결과를 보였다. 동시에, 경로 길이와 주차 시간은 각각 약 11.6%, 12.2% 감소하였다. 이는 본 연구에 서 도출한 중간 목표가 효율적인 탐색 지점을 지시함에 있어, 해당 지점이 경로 길이와 주차 시간을 최소화 할 수 있는 최적 지점과 일치할 가능성을 보인다. 이러한 관찰은 탐색 효율성을 높이는 과정에서 불필요한 우회나 비효율적 탐색을 줄임으로써 경로 품질 또한 향상될 수 있음을 의미한다. 이와 같은 상관관계가 다양 한 상황에서도 일관되게 발생하는지 확인하기 위해, 전·후진 전환 수, 경로 곡률 등 경로 품질을 나타내는 지표를 보상함수에 적용시킨 추가적인 연구가 필요하다.
<Table 1>
Test Result
ObstacleEvaluation | Computation time | Path length | Parking time |
---|---|---|---|
None | 64.7%▼ | 11.7%▼ | 14.3%▼ |
Approaching block | 44.9%▼ | 15.1%▼ | 15.9%▼ |
Entry block | 38.2%▼ | 7.3%▼ | 7.5%▼ |
Switching point block | 36.7%▼ | 12.1%▼ | 11.0%▼ |
Total | 46.1%▼ | 11.6%▼ | 12.2%▼ |
<Fig. 9>는 전체 시험 데이터에 대한 연산 시간의 분포를 나타낸 것으로, 전체적으로 성능이 증가하여 연 산 시간이 감소한 경향을 보인다. 이를 통해, 본 연구에서 제안한 중간 목표를 활용한 경로계획 알고리즘이 모든 유형에 대해 기존 알고리즘의 효과적인 성능 개선을 이룰 수 있음을 확인하였다.
<Fig. 10>은 장애물에 의해 목표 지점으로 이동하는 진로가 방해된 상황으로, 좁은 통로를 지난 후 제한된 움직임으로 인해 경로 탐색에 어려움을 겪는다. 이로 인해 기존 하이브리드 A* 알고리즘은 통로 이후 공간 에 대해 불필요한 탐색이 이뤄진다. 반면 중간 목표를 활용한 경우, 빠르게 목표 지점에 진입할 수 있으며 동시에 경로 길이가 감소하고, 전·후진 전환이 감소해 주차 시간이 감소할 수 있는 최적의 탐색 영역을 지시 해줘 해당 영역으로의 탐색을 유도할 수 있다. <Fig. 11>과 <Fig. 12>는 각각 장애물에 의해 목표 지점으로의 진입을 방해받는 상황과 목표 지점으로 진입하는 최적의 전환점이 막힌 상황으로, 해당 상황들에서 기존 알 고리즘의 경로와 유사한 경로를 생성하여 경로 길이 및 주차 시간은 큰 차이를 보이지 않지만, 탐색 과정에 서 최적의 탐색 영역을 지시해 불필요한 연산을 대폭 감소시켜 탐색 효율성이 크게 증가하였다.
<Fig. 13>은 장애물에 의해 영향을 받지 않는 여유로운 공간에서의 경로계획 상황으로, 중간 목표를 활용 하지 않아도 적은 연산으로 빠르게 경로 생성이 가능하다. 이때, 중간 목표는 경로 탐색에 영향을 주지 않는 지점에 도출되며, 해당 중간 목표을 활용하더라도 탐색 중 리즈-쉐프 알고리즘이 경로를 찾을 수 있는 지점 으로의 탐색이 유도되기 때문에 중간 목표를 활용하지 않는 경우와 같은 결과를 낼 수 있다. 이는 기존 알고 리즘 대비 더 이상 최적의 경로를 찾을 수 없는 경우, 경로 탐색에 영향을 주지 않는 지점에 중간 목표를 도 출하여 음의 보상을 받지 않도록 학습하기 때문이다. 그 결과, 기존 알고리즘의 경우 연산 시간이 0.06초, 중 간 목표를 활용한 경우 추론 시간이 추가되어 0.09초가 소요되어 중간 목표가 필수적이지 않은 상황에서도 안정적 성능을 유지하는 것을 확인할 수 있다.
기존 하이브리드 A* 알고리즘은 주차 환경과 같이 좁고 복잡한 환경에 대해 탐색 시 논홀로노믹 제약을 많이 받게 되어 최적성과 효율성이 크게 저하된다는 단점이 있지만, 중간 목표는 최적의 탐색 영역을 지시해 줌으로써 불필요한 탐색을 최소화할 수 있다. 하지만, 해당 중간 목표는 각 환경에 대해 일정한 규칙을 찾기 어렵고, 논홀로노믹 시스템의 특성 상 차량의 헤딩, 좌표 등 작은 상태 차이에도 경로가 크게 변할 수 있어 변동성 또한 크다. 본 연구는 해당 문제를 해결하기 위해 강화학습을 활용해 연산 시간을 최소화할 수 있는 최적의 중간 목표를 찾을 수 있었다. 특히 자율주차 시스템은 주차 도중 현재 위치로부터 경로를 지속적으로 갱신하는 특성을 가지고 있다. 이러한 특성 상, 경로계획 연산시간의 감소는 반복적인 경로 업데이트 과정에 서 누적되는 연산 시간을 줄이는 데 기여하며, 이는 결과적으로 전체 주차 시간을 단축시키는 효과를 가져올 수 있다.
Ⅶ. 결 론
본 연구는 강화학습을 활용해 중간 목표를 도출하고, 이를 경로계획 알고리즘의 비용 산정에 활용하여 고 난도 환경에서도 효율적이고 최적화된 경로계획 알고리즘을 제안한다. 기존 하이브리드 A* 알고리즘의 휴리 스틱 비용은 차량의 논홀로노믹 특성을 충분히 반영하지 못해 연산 비용이 증가하는 문제를 안고 있었다. 이 를 해결하기 위해, 중간 목표를 경로계획의 핵심 지점으로 설정하여 탐색 효율성을 높였다. 이는 기존 휴리 스틱 비용 기반 탐색 알고리즘의 비효율성 문제를 해결하고, 복잡한 환경에서도 안정적인 경로계획이 가능 하도록 돕는다. 연구 결과, 고난도 주차 환경을 포함한 주차 환경 및 유형에서 하이브리드 A* 알고리즘 대비 연산 비용이 46.1% 개선된 성능을 보였으며, 이를 통해 자율주차 시스템의 성능과 활용성을 확장할 수 있음 을 입증했다.
본 연구는 다양한 주차 환경에서 데이터를 수집하여 적용했으나, 정형화된 장애물 기반으로 진행되어 실 제 환경에서의 비정형적 장애물이 존재하는 환경에서의 안정성 검증이 필요하다. 이를 위해, 장애물의 크기 와 위치에 대한 다양성을 반영한 데이터 확장이 필요하다. 또한, 현재 인공신경망 모델은 최소화된 연산량을 목표로 설계되었으나, 추론 시간이 짧아 모델의 추가적인 고도화가 가능하다. 모델의 추론 시간과 경로계획 알고리즘의 연산 시간 간의 Trade-off를 고려한 모델 고도화 방안에 대한 검토가 필요하다. 이를 통해 복수의 중간 목표를 도출하거나 더 복잡한 환경에서도 안정적인 경로계획을 지원할 수 있을 것이다. 또한, 본 연구 는 경로계획의 효율성을 중점적으로 개선하여 경로 탐색의 효율성을 크게 높였지만, 방법론의 고도화를 위 해 강화학습의 보상함수 설계에 따라 전·후진 전환이나 경로의 유연성 등 다양한 요소를 고려한 추가적인 연구가 필요하다. 더불어, 하이브리드 A* 알고리즘 외의 다른 경로계획 알고리즘에 본 연구의 중간 목표를 적용하는 방안도 검토가 필요하다. 샘플링 기반 알고리즘의 경우, 중간 목표를 활용한 샘플링 유도가 경로 최적성을 크게 향상시킬 잠재력을 지니고 있다. 이러한 연구 방향은 다양한 경로계획 문제에 확장 가능성을 열어줄 것으로 기대된다.