Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.1 pp.26-37
DOI : https://doi.org/10.12815/kits.2025.24.1.26

A Study on Efficient Methodology of Using Transformers to Predict Vehicle Turning Trajectories at Intersections

Jae Kwan Lee*, Inchul Yang**, Hyoungsoo Kim***
*Postdoctoral Researcher, Dept. of Highway & Transportation, Korea Institute of Civil Engineering and Building Engineering
**Research Fellow, Dept. of Highway & Transportation, Korea Institute of Civil Engineering and Building Engineering
***Co-author: Research Fellow, Road Traffic Research Center, Korea Institute of Construction Technology
Corresponding author : Inchul Yang, ywinter75@kict.re.kr
6 December 2024 │ 1 January 2025 │ 7 January 2025

Abstract


In this study, we propose an effective methodology based on the well-known transformer deep learning architecture to predict the trajectories of vehicles turning at intersections. From the road infrastructure perspective, segments with abrupt changes in a vehicle's direction are more difficult to predict than straight segments, so a more precise model is required. We generated training data using a microscopic traffic simulation, and trained the transformer-based prediction model for turning trajectories. Through two experiments, we analyzed the impact of loss functions and input sequence lengths on trajectory prediction. The results showed that models using a smooth L1 loss function and input sequences of approximately one second exhibited the best performance, improving prediction accuracy. The findings of this research are expected to enhance the efficiency of path planning for autonomous vehicles and traffic management systems.



교차로 회전 주행 궤적 예측을 위한 트랜스포머의 효율적인 활용 방법론에 대한 연구

이 재 관*, 양 인 철**, 김 형 수***
*주저자 : 한국건설기술연구원 도로교통연구본부 박사후연구원
**교신저자 : 한국건설기술연구원 도로교통연구본부 연구위원
***공저자 : 한국건설기술연구원 도로교통연구본부 연구위원

초록


본 연구에서는 도로 인프라가 교차로에서 회전하는 차량의 궤적을 예측하기 위해 딥러닝 아키텍처인 트랜스포머 기반의 모형을 효과적으로 이용하는 방법론을 제안하고자 한다. 회전 구간은 차량의 진행 방향이 급격히 변화하는 경우가 많아 직진 구간에 비해 예측이 어렵기 때 문에 더 정밀한 모델이 필요하다. 회전 구간에 특화된 예측 모형을 위해 미시 교통 시뮬레이션 을 이용해 학습 데이터를 생성하고 모형을 학습시켰다. 두 가지 실험을 통해 손실함수와 입력 시퀀스 길이가 궤적 예측에 미치는 영향을 분석했으며, 회전 구간에서의 예측 성능 향상을 위 해서는 Smooth L1 loss 손실함수와 1초 내외의 입력 시퀀스를 사용하는 모델이 가장 우수한 성능을 보였다. 이 연구의 결과는 자율주행 차량의 경로 계획 및 교통 관리 시스템의 효율성 향상에 기여할 것으로 기대된다.



    Ⅰ. 서 론

    1. 개요

    자율주행 기술의 발전과 함께 차량의 주행 궤적 예측 기술은 교통 시스템의 효율성과 안전성을 높이는 데 중요한 역할을 하고 있다. 교통상황을 모니터링하기 위해 도로 주변 설치되는 ITS 장비, edgeRSU와 같은 인 프라에서 수행되는 궤적 예측 기술은 교통 흐름 제어, 충돌 위험 예측, 그리고 스마트 교통 시스템의 구현에 필수적인 요소로, 다양한 응용 분야에서 활용될 수 있다. 특히, 도심과 같은 복잡한 도로 환경의 교차로에서 차량의 궤적을 정확히 예측하는 것은 충돌 방지, 교차로의 원활한 통행에 기여할 수 있다. 또한 교통상황에 대한 인지, 예측 정보를 자율주행 차량에게 전달하고 이를 기반으로 개별 차량들이 경로 계획을 수립하는 등 자율주행 차량을 보조하기 위한 중요한 데이터로 사용이 가능하다.

    과거의 딥러닝 기반의 궤적 예측 연구에서는 주로 단순한 FNN1) 모형부터 RNN2), LSTM3), GRU4)와 같은 순환신경망 계열의 딥러닝 모형들이 주로 사용되었다(Choi et al., 2019;Bi et al., 2019;Katariya et al., 2022). 조금더 발전된 형태로 seq2seq 메커니즘과 LSTM을 결합한 모형이 제안되었고 이는 단순 LSTM, GRU 등의 모형에 비해 약 20%의 정확도가 향상되지만, 학습 시간이 단순 LSTM에 비해 30% 이상 증가하는 단점이 있 었다(Wang et al., 2019). 순환신경망 계열의 모형들은 시간에 따른 차량의 동적 변화를 잘 학습할 수 있는 특 성이 있지만, 긴 시퀀스 데이터 처리에서 정보 손실 문제나 학습 효율성 문제를 겪는다는 한계가 있다.

    최근 궤적 예측 연구에서 이러한 문제를 해결하기 위해 트랜스포머 기반의 모형이 활발히 활용되고 있다. 트랜스포머는 셀프 어텐션 메커니즘을 통해 긴 시퀀스에서도 중요한 정보를 효과적으로 학습할 수 있으며, 병렬 처리가 가능하다는 장점이 있다. 이러한 장점을 활용해 트랜스포머 기반의 주행 의도 판단(Hong et al., 2024)이나 미래 궤적을 예측하는 연구들(Amin et al., 2024;Singh and Srivastava, 2022;Zhang et al., 2022;Zhao et al., 2021)이 이뤄지고 있다. Amin et al.(2024)은 오픈소스 궤적 데이터셋을 학습한 트랜스포머 기반의 모형 을 개발했고 LSTM, GRU 기반의 모형과 성능을 비교해 본 결과 궤적 예측 정확도가 최고 57% 향상되는 것 을 보여주었다. 최근 도로의 영상 데이터가 급격하게 증가함에 따라 영상 데이터에서 개별 차량의 궤적을 예 측하기 위한 연구들에서도 트랜스포머 기반 모형을 활용하고 있는데 Zhang et al.(2022)은 4지 교차로의 위성 영상 데이터에서 궤적 데이터를 추출한 이후 궤적 예측을 순차적으로 수행하는 모형을 개발했고 궤적 예측 의 과정에서 LSTM, GRU 기반의 모형에 비해 트랜스포머 기반의 모형이 40% 이상의 정확도 향상을 보여주 었다. 이와 유사하게 보행자의 궤적을 예측하는 연구에서도 트랜스포머 기반의 모형들의 성능이 순환신경망 모형들에 비해 좋은 것으로 나타나고 있다(Giuliari et al., 2020;Yu et al., 2020).

    본 연구에서는 도로 인프라가 교차로 회전 구간에서 차량 궤적을 예측하기 위해 트랜스포머 기반의 모형 을 활용하는 방법론을 제안하고자 한다. 다만 회전하는 차량에 대한 예측 정확도를 높이지만 모형의 크기, 입력 데이터 길이 등을 효율적으로 사용할 수 있는 모형의 개발을 목표로 한다. 교차로의 회전 구간은 직진 구간에 비해 예측의 어려움이 크고, 차량의 진행 방향이 급격하게 변화하기 때문에, 더욱 정교한 예측 모형 이 요구된다. 따라서, 본 연구는 궤적 예측에 있어 순환신경망 계열에 비해 높은 성능을 보여주는 트랜스포 머 기반의 모형을 활용한다. 그리고 모형의 학습 과정에서 손실함수의 선택은 예측 성능에 중요하게 작용하 기 때문에 회전 구간에 적절한 손실함수를 결정하는 연구를 수행한다. 또한 딥러닝 모형에 있어 적절한 입력 시퀀스의 길이가 존재함을 확인할 수 있었기 때문에(Choi et al., 2019;Beltagy et al., 2020;Kitaev et al., 2020) 궤적의 예측을 위해 적절한 입력 시퀀스 길이를 결정하는 연구를 수행한다. 이를 위해 SUMO(Lopez et al., 2018)를 이용해 실제 교차로 환경을 시뮬레이션하여 학습 데이터로 사용할 궤적 데이터를 생성해 사용했다. 생성된 데이터는 회전 구간과 직진 구간으로 구분되며, 각 구간에 대해서 모형의 성능을 세밀하게 평가했다. 본 연구의 결과는 한정된 자원을 활용하는 도로 인프라에서 궤적 예측을 수행함에 있어 효율적인 데이터 관 리의 방안을 제시할 수 있으며 또한 도심지의 복잡한 도로 환경에 일반 차량과 자율주행 차량이 혼재된 상 황에서 안전한 경로 계획 및 교통 관리 시스템의 효율성 향상에 기여할 수 있을 것으로 기대된다.

    Ⅱ. 방법론

    회전 구간의 궤적 예측을 위한 트랜스포머 기반의 모형의 학습 및 평가는 다음과 과정으로 수행되었다. 첫 번째로 학습에 사용하기 위한 차량의 주행 궤적 데이터는 오픈소스 미시 교통 시뮬레이터인 SUMO(Lopez et al., 2018)를 활용하여 실제 도로를 대상으로 실험하여 취득했다. 두 번째로 취득한 주행 궤적 데이터를 학 습할 모형을 트랜스포머 기반으로 구축했다. 세 번째로 교차로 구간에서 회전하는 차량의 미래 주행 궤적을 예측하기에 적합한 모형을 선택하기 위해 2가지 실험을 수행했다. 먼저 모형 기본 구조를 설정하고 회전 구 간에 적합한 손실함수를 선택하는 실험을 수행했다. 다음으로 3초간의 미래 궤적 예측을 위해 필요한 과거 궤적 데이터(입력 시퀀스)의 길이를 결정하는 실험을 수행했다.

    1. 학습용 궤적 데이터의 생성

    학습에 사용하기 위한 차량의 주행 궤적 데이터 생성을 위해 본 연구에서는 실제 도심 도로를 선정하여 시뮬레이션을 수행했다. 선정 지점은 다른 요인을 최소화하고 회전의 특성을 추출하기 위하여 회전과 직진 이 공존하는 단순한 구조의 왕복 2차로인 3지 비신호 교차로(제한속도 30km/h)로, 일반 상업시설이 밀집한 지역 내 실제 도시부 도로를 선택하였다. 시뮬레이션을 수행한 지점의 실제 모습과 SUMO에서 구축한 네트 워크의 모습은 <Fig. 1>과 같다. 3지 비신호 교차로를 중심으로 반경 약 250m의 도로 네트워크를 구축했고 전체 네트워크에서 차량의 경로는 SUMO에서 제공하는 ramdomTrip 기능을 활용했고 차량의 거동을 결정하 는 차량 추종 모형의 파라미터는 기본 설정값을 그대로 이용했다. 전체 네트워크를 무작위 경로로 이동하는 차량의 궤적 데이터 중에서 비신호 교차로의 중심점을 기준으로 접근도로에 대한 궤적 정보만을 선별하여 학습용 데이터를 생성했으며 비신호 교차로로 진입, 통과하는 5,018대의 차량에 대한 학습용 궤적 데이터를 취득할 수 있었다. 각각의 개별 차량에 대한 궤적 데이터는 0.1초 단위로 생성되었다. 궤적 데이터는 시뮬레 이션 원점을 기준으로 하는 차량의 x 좌표, y 좌표, 속도, 가속도, 진행 방향(Heading)으로 구성된다.

    <Fig. 1>

    Simulation site for data sampling

    KITS-24-1-26_F1.gif

    대상 3지 비신호 교차로에서 차량의 회전에 따른 미래 궤적을 예측하기 위해서 생성된 궤적 데이터를 기 반으로 회전 구간을 정의했다. 회전 구간은 차량이 일정한 속도로 직진하는 구간에서 벗어나 진행 방향이 변 화하는 구간으로 정의했으며 궤적 데이터 기반의 회전 구간 탐지를 위해 차량의 진행 방향 변화 행태를 이 용했다. 시뮬레이션 타임 스텝 0.1초마다 얻어지는 차량 진행 방향의 각도 변화를 모니터링하여 각 타임 스 텝마다 이전 타임 스텝의 진행 방향과 비교해 1도 이상의 변화가 발생하는 구간을 회전 구간, 이하인 경우를 직진 구간으로 정의했다. 대상 교차로에서 생성된 궤적 데이터에서 산정된 회전 구간은 <Fig. 2>와 같다. 가 운데 그래프에 표시된 도로의 차량 주행 중심선을 따라 차량이 이동하는 중에 회전이 발생하는 모든 지점을 표시했다. 시뮬레이션 상에서는 주행차로의 중심선에서만 차량이 거동한다는 한계점이 있어 실제 도로에서 운전자가 우회전을 위해 도로 중심선을 이탈하는 등의 행태는 관찰되지 않는다. <Fig. 2>와 같이 산정된 회 전 구간에 대한 정보를 이용해 예측되는 궤적 데이터에서 회전과 직진 구간을 분리하고, 각각의 구간에서 모 형의 성능을 별도로 평가했다. 다만 교차로 부근의 회전 외에도 시뮬레이션 좌표상 (1160, 1535) 부근에서도 회전이 관찰되었는데 이 구간에 대한 예측 데이터는 평가에서 직진 구간으로 가정했다.

    <Fig. 2>

    Turning segment of trajectory data

    KITS-24-1-26_F2.gif

    2. 트랜스포머 모형의 구성

    본 연구에서 사용한 트랜스포머 모형의 구조는 다음 <Fig. 3>, <Table 1>과 같다. 먼저 입력 시퀀스 데이터 를 임베딩하기 위한 FC5)부터 인코딩 블록과 디코딩 블록을 거쳐 3초간의 주행 궤적을 나타내는 시퀀스 데 이터를 출력하도록 구성했다. 입력 데이터의 임베딩을 위한 FC에서는 입력 시퀀스의 차원을 고차원으로 투 영시킨다. FC를 거쳐 임베딩된 입력 데이터는 포지셔널 인코딩을 통해 모형에게 시간적 문맥을 제공하여 시 퀀스 내 요소들을 위치에 따라 구분할 수 있도록 했다. 그 이후 3개의 인코더로 구성된 인코딩 블록에 입력 된다. 각 인코더에서는 멀티 헤드 어텐션, Add & Norm, 피드 포워드 네트워크의 요소들을 고려하여 계산이 수행된다. 멀티 헤드 어텐션의 수는 4로 설정했다. 인코딩 블록을 통과한 데이터는 3개의 디코더로 구성된 디코딩 블록에 입력된다. 디코더는 인코더와 유사한 구성 요소를 가지지만 마스킹된 멀티 헤드 어텐션 메커 니즘이 추가되어 있다. 이 메커니즘은 예측을 생성할 때 디코더가 이전 위치에만 집중할 수 있도록 하여 시 퀀스 예측에서 인과성을 유지하도록 한다. 디코더 블록의 출력은 선형 레이어를 통과하여 최종 예측 궤적으 로 변환된다. 각각의 인코더와 디코더에 드롭아웃을 적용하여 일반화 성능 향상과 과적합을 방지했다. 학습 과정 중 신경망의 일부 뉴런을 무작위로 비활성화시키는 비율(드롭아웃 비율)은 일반적으로 많이 사용되는 0.1로 설정했다. 1회의 순전파 과정을 통해 출력되는 값은 실제 값과 비교해 손실값을 계산하고 이를 최소화 하기 위한 역전파 알고리즘을 사용했다. 역전파 알고리즘을 위한 손실함수의 종류는 3가지를 사용했다.

    <Fig. 3>

    Transformer model structure for this study

    KITS-24-1-26_F3.gif
    <Table 1>

    Transformer model hyper-parameters setting

    Hyper-parameters Value
    Number of layers encoder=3, decoder=3
    Dimension of encoder and decoder 64
    Number of head 4
    Dimension of FC 64
    Dropout 0.1
    Learning rate 0.001
    Epoch 50
    Batch size 128
    Loss function MSE, Smooth L1,Combined

    3. 모형 결정을 위한 실험 설정

    트랜스포머 기반의 모형을 이용하여 교차로 회전 구간에서 차량 궤적을 효과적으로 예측하는 방법론을 제안하는 것을 목적으로 두고 있으며 최종적인 모형은 두 가지 실험을 통해 결정했다. 첫 번째 실험은 손실 함수의 종류에 따른 성능 비교이며, 두 번째 실험은 입력 시퀀스 길이에 따른 모형 성능 비교이다. 첫 번째 실험에서는 앞서 서론에서 살펴본 차량의 궤적 예측을 위한 딥러닝 모형에 대한 연구들(Amin et al., 2024;Singh and Srivastava, 2022;Zhang et al., 2022;Zhao et al., 2021)에서 사용되는 다양한 손실함수 가운데 대표 적인 3가지에 대한 비교 연구를 수행했다. 두 번째 실험에서는 입력 시퀀스 길이를 다양하게 설정하여 입력 시퀀스의 길이가 모형의 예측 성능에 미치는 영향을 분석했다. 제안된 모형의 성능 평가를 위해 RMSE6), ADE7), FDE8)의 세 가지 지표를 사용했다.

    1) 손실함수에 따른 학습

    모형의 학습에 사용해서 성능을 비교하기 위한 3개의 손실함수는 MSE9), Smooth L1, Combined이다. 먼저 MSE loss는 예측된 값과 실제 값 사이의 제곱 오차의 평균을 계산하는 손실함수로서 모형의 학습 과정에서 큰 오차에 더 큰 페널티를 부여하여, 오차를 최소화할 수 있도록 학습에 사용한다. MSE loss의 계산은 <Eq. 1>과 같다.

    L M S E = 1 N i = 1 N ( x i x ^ i ) 2
    (1)

    여기서, N 은 궤적을 구성하는 각 지점의 수이고 xi 는 실제 궤적 각 지점의 x좌표, x ^ i 는 예측된 궤적 각 지점의 x좌표이다. y좌표에 대해서도 동일한 방법으로 계산하며 두 오차값이 합쳐져 전체 손실 값으로 사용 된다.

    다음으로 Smooth L1 loss는 MAE10)와 MSE가 결합한 형태로 오차의 크기에 따라 다른 손실 값의 계산이 작동함으로써 학습이 안정적으로 진행되도록 하며 데이터 이상치에 덜 민감하도록 학습시키기 위해 사용된 다(Girshick, 2015). Smooth L1 loss의 계산은 <Eq. 2>와 같다.

    L S m o o t h L 1 = { 1 N i = 1 N 0.5 ( x i x ^ i ) 2 δ if | x i x ^ i | < δ 1 N i = 1 N ( | x i x ^ i | 0.5 δ ) , o t h e r w i s e
    (2)

    여기서, δ는 오차의 크기를 판단하기 위한 임계치이며 본 연구에서는 1을 사용했다(Girshick, 2015). y좌표 에 대해서도 동일한 방법으로 계산하며 두 오차값이 합쳐져 전체 손실 값으로 사용된다.

    마지막으로 Combined loss는 제안된 모형의 평가 지표로 사용한 RMSE, ADE, FDE의 세 가지 지표의 단순 합으로 모형이 평가 목표와 적은 오차가 발생하도록 학습이 가능하다. 다만 이 손실함수를 사용하면 훈련 데 이터에 과적합 될 가능성 있다.

    L C o m b i n e d = R M S E + A D E + F D E
    (3)

    2) 입력 시퀀스 길이에 따른 학습

    두 번째 실험에서는 적절한 입력 시퀀스 길이를 결정하기 위해 입력 시퀀스 길이를 변화시키며 모형을 학 습시키고 성능을 비교했다. 트랜스포머는 긴 시퀀스에서도 중요한 정보를 효과적으로 학습할 수 있지만 너 무 긴 입력 시퀀스의 길이는 모형의 복잡도가 커지며 오히려 추론에 노이즈로써 작용하며 성능을 감소시킬 수 있다(Beltagy et al., 2020;Kitaev et al., 2020). 또한 한정된 자원을 활용해야 하는 도로 인프라는 적은 컴퓨 팅 리소스와 높은 추론 속도를 유지하기 위해 적절한 길이의 데이터를 사용하는 것이 필요하다. 따라서 입력 시퀀스 길이가 궤적 예측의 성능에 미치는 영향을 분석하고 높은 성능이 유지되는 적절한 입력 시퀀스의 길 이를 찾기 위한 실험을 수행했다. 0.1초부터 5초까지 다양한 입력 시퀀스의 길이를 사용해 모형을 학습시키 고 각각의 예측 성능을 평가해 비교했다. 입력 시퀀스의 길이를 변화시키며 학습시킬 때 손실함수 비교 실험 에서 가장 우수한 성능을 보인 손실함수를 사용했다.

    3) 성능 평가 방법

    모형의 성능을 평가하기 위해 기존의 궤적 예측 연구들에서 주로 사용되는 RMSE, ADE, FDE의 세 가지 지표를 사용했다(Amin et al., 2024;Zhang et al., 2022;Zhao et al., 2021). 먼저 RMSE는 예측된 궤적과 실제 궤적 간의 제곱 오차의 평균을 루트로 계산한 값으로 예측의 정확성을 전반적으로 평가하는데 사용되며 오 차가 클수록 RMSE의 값도 증가한다. RMSE의 계산은 <Eq. 4>와 같다.

    R M S E = 1 N i = 1 N [ ( x i x ^ i ) 2 + ( y i y ^ i ) 2 ]
    (4)

    여기서, yi 는 실제 궤적 각 지점의 y좌표, y ^ i 는 예측된 궤적 각 지점의 y좌표이다.

    다음으로 ADE는 전체 예측 성능을 평가하는 지표로서 예측된 궤적과 실제 궤적 간의 평균 변위를 측정하 기 위해 예측된 궤적과 실제 궤적의 모든 지점에서의 오차를 평균하여 구한다. ADE 역시 궤적 예측의 오차 가 클수록 값이 증가하며 ADE의 계산은 <Eq. 5>와 같다.

    A D E = 1 N i = 1 ( x i x ^ i ) 2 + ( y i y ^ i ) 2
    (5)

    마지막으로 FDE는 예측된 궤적의 마지막 지점과 실제 궤적의 마지막 지점 간의 오차를 측정한 값으로 궤 적의 최종 지점에 대한 오차만으로 모형의 성능을 평가하는 방법이다. FDE 역시 궤적 예측의 오차가 클수록 값이 증가하며 FDE의 계산은 <Eq. 6>과 같다.

    F D E = ( x N x ^ N ) 2 + ( y N y ^ N ) 2
    (6)

    여기서, ( x N , y N ) , ( x ^ N , y ^ N ) 은 각각 실제 궤적의 마지막 지점의 좌표, 예측 궤적의 마지막 지점 좌표이다.

    위의 3가지 성능 평가는 궤적의 전체 구간, 교차로에서 회전하는 구간, 직진만 있는 구간으로 나누어 수행 했다. 전체 구간은 예측되는 궤적 데이터 전체를 사용하여 모형의 평균 성능을 평가하는 데 사용되었으며, 회전 구간과 직진 구간은 각각 차량이 회전하는 부분과 직진하는 부분으로 구분하여 모형의 세부 성능을 분 석하는 데 사용했다. 이러한 구분을 통해 모형이 다양한 주행 상황에서 어떻게 동작하는지를 상세하게 평가 할 수 있다.

    Ⅲ. 실험 결과

    모형의 학습과 평가에 사용된 하드웨어 사양은 Intel i9-14900KF, Geforce RTX 4080 super, 128GB RAM이 다. 그리고 앞 장의 설명과 같은 트랜스포머 모형의 설계는 모두 딥러닝 프레임워크 Pytorch(Paszke et al., 2019)를 사용했으며 환경은 PyTorch ver. 2.5.1, CUDA ver. 12.4, cuDNN ver. 9.1.0이다. 그리고 학습의 공통적 인 설정 사항은 다음과 같다. 학습시 궤적 데이터는 MinMax 스케일러를 사용하여 데이터를 [0, 1] 범위로 정 규화시켜 모형에 입력했다. 원본 궤적 데이터에서 차량별로 일정한 길이의 입력과 출력 시퀀스 데이터를 생 성하여 학습시켰는데 적합한 손실함수를 결정하기 위한 실험에서는 입력 시퀀스의 길이를 1초, 출력 시퀀스 의 길이를 3초로 설정했고 초당 10개의 궤적점 데이터를 포함한다. 입력 시퀀스의 길이를 결정하기 위한 실 험에서는 0.1초 단위로 시퀀스 길이를 늘리며 실험했다. 앞에 <Table 1>에서 제시한 바와 같이 모든 학습에 서 배치 사이즈는 128, 학습률은 0.001(Zang et al., 2022), 에포크 수는 50으로 설정했다. SUMO 시뮬레이션을 통해 생성된 5,018대 차량의 궤적 데이터는 8:2의 비율로 나눠 각각 학습과 평가에 사용했다.

    1. 손실함수에 따른 성능 비교

    학습에 사용되는 손실함수의 종류가 모형의 성능에 미치는 영향을 분석하기 위해, 모형의 구조 및 데이터 처리 방식은 동일하게 유지하고 3가지의 손실함수를 교체하며 학습을 진행했다. 각 손실함수를 사용하여 학 습한 모형의 평가 결과는 <Table 2>와 같다. 입력 시퀀스와 출력 시퀀스의 길이는 모두 동일하게 1초의 입력 과 3초의 출력을 유지하며 학습시켰다. 각 모형의 평가는 앞서 설명한 전체, 회전, 직진 구간으로 구분하여 비교했다. 3가지 구간 모두에서 전반적인 오차는 Smooth L1 loss를 이용하는 것이 가장 작게 나타났다. 다음 으로 Combined, MSE loss 순으로 낮은 오차를 보여주었다.

    <Table 2>

    Evaluation results of trajectory prediction across different loss types [m]

    Metric MSE Smooth L1 Combined
    Overall RMSE 0.5946 0.5507 0.5646
    ADE 0.6672 0.6155 0.6349
    FDE 1.6706 1.5058 1.4834
    Turning RMSE 0.8856 0.8039 0.8255
    ADE 1.0844 0.9792 0.9953
    FDE 2.0595 1.8908 2.0174
    Straight RMSE 0.5306 0.4879 0.4996
    ADE 0.6298 0.5755 0.5965
    FDE 1.2400 1.0949 1.0274

    회전 구간에 대해서는 Smooth L1 loss의 성능이 모든 지표에서 가장 좋은 것으로 나타났는데, MSE loss에 비해 RMSE는 9.2%, ADE는 9.7%, FDE는 8.2%의 예측 오차 감소가 있었다. 다만 전체 구간과 직선 구간의 FDE 지표에 대해서는 3가지 평가 지표를 결합한 Combined loss의 예측 오차가 가장 작은 것으로 나타났다. 예측 오차가 가장 큰 MSE loss 대비 전체 구간에서는 11.2%, 직선 구간만 평가할 때는 17.1%의 예측 오차 감소가 있었다. 이러한 현상은 사용한 손실함수의 구조에 의한 결과로 예상되는데 RMSE와 ADE 평가 지표 의 경우 <Eq. 2>와 <Eq. 4>, <Eq. 5>의 구조에서 알 수 있듯이 Smooth L1 loss를 이용함으로써 각각의 평가 지표에 대한 최적화의 효과를 기대할 수 있지만 FDE에 대한 직접적인 최적화 효과를 기대하기는 어렵다. FDE를 손실함수로써 직접 사용하여 최적화시키는 과정이 들어가는 Combined Loss의 경우에는 직진 상황에 서 FDE의 성능 개선이 일어난 것으로 판단된다. 다만 회전 구간에서는 FDE 최적화의 과정에서 혼동이 발생 한 것으로 보인다. 전체 테스트 데이터 중에서 회전 직전의 궤적 데이터에 대한 예측이 가장 큰 오차가 발생 했는데 이는 <Fig. 4>에서 확인할 수 있다. Combined loss를 사용하는 경우 예측 궤적의 끝점이 직진을 예측 하는 방향으로 꺾이는 현상이 나타나며 오차가 증가하는 현상이 나타났다. 이는 학습 과정에서 직진과 회전 사이의 혼동이 일어나고 예측 궤적과 상대적으로 가까운 직진 경로로 FDE의 최적화가 수행되었기 때문으로 추측된다. <Table 2>와 <Fig. 4>의 결과를 미루어보아 Combined Loss를 사용하는 것이 직선 구간에서는 성능 이 좋을 수는 있으나, 회전 구간에서의 예측 성능을 높이는 것이 목적이기 때문에 Smooth L1 loss를 학습에 적합한 손실함수로 판단했다.

    <Fig. 4>

    Example of trajectory prediction for turning segments

    KITS-24-1-26_F4.gif

    2. 입력 시퀀스 길이에 따른 성능 비교

    미래 궤적의 예측을 위한 입력 시퀀스의 길이가 모형의 성능에 미치는 영향을 분석하기 위해, 모형의 구 조 및 데이터 처리 방식은 동일하게 유지하고 입력 시퀀스의 길이를 교체하며 학습을 진행했다. 학습 과정에 서 손실 함수는 앞서 선택된 Smooth L1을 이용했고 출력 시퀀스의 길이는 모두 3초로 유지했다. 각 입력 시 퀀스의 길이에 따라 학습된 모형들의 평가 결과는 <Fig. 5>과 같다. 각 모형의 평가는 앞서 설명한 전체, 회 전, 직진 구간으로 구분하여 비교했다.

    <Fig. 5>

    Evaluation results of trajectory prediction across different input sequence lengths

    KITS-24-1-26_F5.gif

    입력 시퀀스 길이가 0.1초부터 증가함에 따라 3가지 평가 지표(RMSE/ADE/FDE)의 값이 처음에는 감소하 다가 평탄화된 이후 증가하는 경향을 보였다. 평가 결과를 대상으로 입력 시퀀스 길이에 따른 성능의 변화가 유의미한지를 판단하기 위해 입력 시퀀스 길이 2초를 기준으로 2초 이하인 그룹과 이상인 그룹 사이의 통계 적 차이를 검증했다. 각 그룹의 데이터 수가 적기 때문에 정규성을 명확히 검증하기 어려워 수행한 Mann- Whitney U 검정 결과 역시 그룹 간 차이가 통계적으로 유의미한 것을 확인할 수 있었다(p-value<0.05). 따라 서 짧은 입력 시퀀스를 사용하는 그룹의 성능이 더 좋은 것을 확인할 수 있었고 결과적으로 3가지 평가 지 표 모두 1초의 입력 시퀀스 길이를 사용하는 것이 가장 성능이 좋은 것으로 나타났다. 그리고 약 0.6초에서 1.4초 사이의 입력 시퀀스 길이에서 예측 성능이 유지되는 것을 보여주었다. 이는 무작정 많은 과거 궤적 정 보가 미래 궤적 예측의 정확성 향상을 보장하지 않으며, 최적의 예측을 위한 적정 수준의 정보량이 존재한다 는 사실을 보여준다. 0.6초 이하의 짧은 입력 시퀀스는 모형이 미래 궤적을 정확하게 예측하기에 부족한 것 으로 판단되며, 반대로 1.5초 이상의 긴 궤적 데이터는 오히려 모형의 예측 과정에서 노이즈로 작동하여 성 능을 저해하는 것으로 판단된다. 따라서 미래의 상태를 예측함에 있어 적정한 수준의 입력 시퀀스를 결정하 는 것이 매우 중요한 작업이며, 향후 유사 연구에서 이러한 사실에 기반한 접근 방법이 요구된다.

    Ⅳ. 결 론

    본 연구에서는 3지 교차로의 회전 구간에 진입, 진출하는 차량의 과거 궤적 정보를 이용하여 미래 3초의 궤적을 예측할 수 있는 트랜스포머 모형의 기본 구조를 구축하고 이를 개선하며 효율적으로 활용하기 위한 2가지의 실험을 수행했다. 먼저 구축한 트랜스포머 모형에 최적의 학습이 이루어질 수 있도록 유도하는 손 실 함수의 결정을 위한 실험을 수행한 결과, 전반적인 오차는 Smooth L1 loss를 이용하는 것이 가장 작게 나 타났다. 특히 회전 구간에서 Smooth L1 loss는 다른 손실 함수에 비해 모든 평가 지표에서 가장 낮은 예측 오차를 보여주었다. 다만 3가지 평가 지표를 결합한 Combined Loss를 사용하는 것이 직선 구간의 FDE 평가 에서 가장 좋은 성능을 보였으나, 본 연구에서는 회전 구간에서의 예측 성능을 높이는 것이 목적이기 때문에 Smooth L1 loss를 학습에 적합한 손실 함수로 판단했다. 다음으로 무작정 많은 과거 궤적 정보가 미래 궤적 예측의 정확성 향상을 보장하지 않으며, 최적의 예측을 위한 적정 수준의 정보량이 존재한다는 사실을 확인 할 수 있었다. 적절한 입력 시퀀스의 길이를 선택하기 위한 실험에서 RMSE, ADE, FDE에 대한 평가 결과를 고려할 때, 약 1초 내외의 입력 시퀀스 길이가 트랜스포머 기반 차량 궤적 예측 모형에 가장 적합하다는 결 론을 내릴 수 있었다. 이 길이는 문맥의 풍부함과 노이즈 최소화 사이에서 최적의 균형을 제공하는 것으로 보이기 때문에 약 1초의 시퀀스 길이를 사용하는 것이 최상의 모형 성능을 달성하면서 계산 효율성을 유지 하는데 유리할 것으로 판단되며 향후 유사 연구에서 이러한 사실에 기반한 접근 방법이 요구된다.

    본 연구에서 제시한 결과들은 도심 교차로와 그 인접 도로에서 주행 중인 차량들의 궤적을 예측하고 교통 흐름의 관리, 사고 예방 등을 위한 트랜스포머 기반 주행 예측 모형의 시작이라고 할 수 있다. 다만 트랜스 포머 모형의 구조적인 부분과 학습 데이터에 대한 한계가 명확하기에 다음과 같은 추가적인 연구가 필요할 것으로 생각된다. 모형 학습을 위한 데이터의 관점에서는 회전 구간을 위한 모형의 관점에서는 회전 반경, 각속도 등의 새로운 특성을 추가로 학습에 이용하거나 도로의 기하학적 형태 정보의 이용(Zhou et al., 2023), 개별 차량 사이의 위치 관계를 활용하는 방식(Amin et al., 2024)이 필요할 수 있다. 시뮬레이션 기반의 데이 터 사용 외 도로 인프라에서 얻어지는 데이터의 활용을 통해 조금더 현실적인 추론이 가능한 모형에 대한 연구가 필요할 수 있다. 또한 모형의 구조적 개선의 관점에서는 차량의 회전 의도를 사전에 추론하고 궤적을 예측하거나 회전 구간에 대한 예측 성능을 개선하고 직선 구간에 대한 모형을 개발하여 각 구간에 특화된 앙상블 모형의 개발이 필요할 수 있다. 이러한 연구를 통해 개발될 궤적 예측 모델은 도심지의 복잡한 도로 환경에서 차량의 안전한 경로 계획 및 교통 관리 시스템의 효율성 향상에 기여할 수 있을 것으로 기대한다.

    ACKNOWLEDGEMENTS

    본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제정보 : (RS-2022-00142565) 인 프라 가이던스를 통한 자율차 주행 기술 개발).

    Figure

    KITS-24-1-26_F1.gif

    Simulation site for data sampling

    KITS-24-1-26_F2.gif

    Turning segment of trajectory data

    KITS-24-1-26_F3.gif

    Transformer model structure for this study

    KITS-24-1-26_F4.gif

    Example of trajectory prediction for turning segments

    KITS-24-1-26_F5.gif

    Evaluation results of trajectory prediction across different input sequence lengths

    Table

    Transformer model hyper-parameters setting

    Evaluation results of trajectory prediction across different loss types [m]

    Reference

    1. Amin, F., Gharami, K. and Sen, B. ( 2024), “TrajectoFormer: Transformer-based trajectory prediction of autonomous vehicles with spatio-temporal neighborhood considerations”, International Journal of Computational Intelligence Systems, vol. 17, no. 1, 87.
    2. Beltagy, I., Peters, M. E. and Cohan, A. ( 2020), “Longformer: The long-document transformer”, arXiv preprint arXiv:2004.05150.
    3. Bi, H., Fang, Z., Mao, T., Wang, Z. and Deng, Z. ( 2019), “Joint prediction for kinematic trajectories in vehicle-pedestrian-mixed scenes”, Proc. of IEEE/CVF International Conference on Computer Vision, Long Beach, CA, USA, pp. 10383-10392.
    4. Choi, S., Kim, J., Yu, H., Ka, D. and Yeo, H. ( 2019), “Deep-learning based urban vehicle trajectory prediction”, Korean Society of Transportation, vol. 37, no. 5, pp.422-429.
    5. Girshick, R. ( 2015), “Fast r-cnn”, arXiv preprint arXiv:1504.08083.
    6. Giuliari, F., Hasan, I., Cristani, M. and Galasso, F. ( 2021), “Transformer networks for trajectory forecasting”, IEEE In 2020 25th International Conference on Pattern Recognition, pp.10335-10342.
    7. Hong, S., Im, J., Lee, H., Ka, D., Lee, C. and Noh, B. ( 2024), “Drone vision-based lane change prediction in urban vehicle driving with transformer”, Korean Society of Transportation, vol. 42, no. 5, pp.551-564.
    8. Katariya, V., Baharani, M., Morris, N., Shoghli, O. and Tabkhi, H. ( 2022), “Deeptrack: Lightweight deep learning for vehicle trajectory prediction in highways”, IEEE Transactions on Intelligent Transportation Systems, vol. 23, no. 10, pp.18927-18936.
    9. Kitaev, N., Kaiser, Ł. and Levskaya, A. ( 2020), “Reformer: The efficient transformer”, arXiv preprint arXiv:2001.04451.
    10. Lopez, P. A., Behrisch, M., Bieker-Walz, L., Erdmann, J., Flötteröd, Y., Hilbrich, R., L¨ucken, L., Rummel, J., Wagner, P. and Wießner, E. ( 2018), “Microscopic traffic simulation using SUMO”, IEEE Intelligent Transportation Systems Conference (ITSC).
    11. Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelchein, N., Antiga, L., Desmaison, A., Köpf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J. and Chintala, S. ( 2019), “Pytorch: An imperative style, high-performance deep learning library”, Part of Advances in Neural Information Processing Systems 32 (NeurIPS 2019).
    12. Singh, D. and Srivastava, R. ( 2022), “Multi-scale graph-transformer network for trajectory prediction of the autonomous vehicles”, Intelligent Service Robotics, vol. 15, no. 3, pp.307-320.
    13. Wang, C., Ma, L., Li, R., Durrani, T. S. and Zhang, H. ( 2019), “Exploring trajectory prediction through machine learning methods”, IEEE Access, vol. 7, pp.101441-101452.
    14. Yu, C., Ma, X., Ren, J., Zhao, H. and Yi, S. ( 2020), “Spatio-temporal graph transformer networks for pedestrian trajectory prediction”, In Computer VisionECCV 2020: 16th European Conference Proceedings Part 16, pp.507-523.
    15. Zhang, K., Feng, X., Wu, L. and He, Z. ( 2022), “Trajectory prediction for autonomous driving using spatial-temporal graph attention transformer”, IEEE Transactions on Intelligent Transportation Systems, vol. 23, no. 11, pp.22343-22353.
    16. Zhao, J., Li, X., Xue, Q. and Zhang, W. ( 2021), “Spatial-channel transformer network for trajectory prediction on the traffic scenes”, arXiv preprint arXiv:2101.11472.
    17. Zhou, Z., Wang, J., Li, Y. H. and Huang, Y. K. ( 2023), “Query-centric trajectory prediction”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.17863-17873.

    저자소개

    Footnote

    • FNN : feed-forward neural networks, 앞 먹임 신경망
    • RNN : recurrent neural network, 순환신경망
    • LSTM : long short-term memory, 장단기 기억 네트워크
    • GRU : gated recurrent units, 게이트 순환 유닛
    • FC : fully connected layer, 완전 연결층
    • RMSE : root mean squared error
    • ADE : average displacement error
    • FDE : final displacement error
    • MSE : mean squared error
    • MAE : mean absolute error