Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.3 pp.37-52
DOI : https://doi.org/10.12815/kits.2025.24.3.37

A Model for Outlier Detection and Missing Data Imputation in Traffic Time Series Using Temporal Factors

Seungbin Yim,Hyungchai Park,Hyunmin Kang

Abstract

This study proposes an integrated correction method that effectively handles outliers and missing values in real-time traffic data, using data from 1,569 roads in Incheon between 2022 and 2024. The proposed method first removes outliers empirically, then constructs an integrated pipeline by combining "hourly Z-score" with "hourly average imputation." To validate this approach, we assembled 35 models by combining seven outlier-detection techniques and five missing-value imputation methods, including those commonly used in practice. We then conducted experiments involving artificially generated outliers and missing values, as well as performance comparisons using an LSTM prediction model. The results demonstrate that the proposed method outperforms all other combinations in both verification tests. This suggests that a simple, statistically based preprocessing strategy incorporating hourly characteristics is highly effective for improving urban traffic flow forecasts and has significant potential for real-time environments.

시간적 요소를 활용한 교통량 이상치 및 결측치 보정 모델

임승빈,박형채,강현민

초록

본 연구는 월(Month), 시간(Hour), 휴일(Day off) 여부를 종합한 복합 시간적 요소(Temporal Factors)를 활용하여, 실시간 교통 데이터의 이상치와 결측치를 정밀하게 처리하는 보정 모델을 제안한다. 모델은 이 시간적 요소로 데이터를 그룹화 후 그룹 내 Z-score로 이상치를 탐지하며, 결측치는 시간적 요소 그룹 내 평균 기반 단계적 보간 방식을 결합한 파이프라인을 구성한다. 모델의 성능을 검증하기 위해 인천시 1,569개 도로의 교통량 데이터를 기반으로, 실무에서 널 리 쓰이는 기법들과 비교 평가를 수행했다. 그 결과, 복원 및 예측 정확도 실험 모두에서 제안 모델이 다른 기법 조합들보다 통계적으로 유의미하게 우수한 성능을 보이는 것을 확인했다. 이는 계절성, 일별 주기, 휴일 등 복합적 시간 요소를 반영하는 것이 예측 정확도 향상에 매우 효과적임을 입증하며, 실시간 데이터 전처리를 위한 본 모델의 높은 실용적 가치를 시사한다.

    Figure

    Table

    Reference

    저자소개

    Footnote