Ⅰ. 서 론
오늘날 도시 교통 시스템은 복잡하고 역동적인 특성을 지니며, 이를 효율적으로 관리하기 위해 다양한 기 술이 결합된 지능형 교통 체계(ITS: Intelligent Transport Systems)가 도입되고 있다. ITS는 다양한 도로 인프라, 센서 및 통신 기술 등을 활용하여 교통량, 차량 속도, 사고 발생 상황 등 실시간 교통 정보를 수집·분석함으 로써 교통 체증 완화, 사고 대응 신속화 등 방면에 기여해 왔다. 이러한 ITS의 효과는 정확한 예측 모델에 의 존하며, 이는 다시 고품질의 교통 데이터 확보를 전제로 한다(Wang et al., 2022;Lee et al., 2019).
교통 데이터는 다양한 분야에서 활용되는데, 각 분야의 특성에 따라 데이터 처리 및 보정의 초점이 달라 진다. 예를 들어, 교통 계획 분야에서는 장기적인 관점에서 도시의 교통 수요를 정확하게 예측하고 인프라 투자의 효율성을 극대화하는 것이 중요하므로, 처리 비용이 높더라도 장기적인 교통 수요 패턴 분석에 중점 을 둔다(Lee et al., 2024). 반면, 교통 안전 분야에서는 사고 데이터 분석에 특화되어 사고 발생 원인 규명 및 예방 대책 수립을 위해 과거 사고 기록 및 관련 교통량 등 장기적인 평균값의 정확성을 확보하는 것이 핵심 이다(Abdulhafedh, 2016). 한편, 본 연구의 주요 관심사인 실시간 교통 관리 및 운영 분야에서는 시시각각 변 화하는 교통 상황에 즉각적으로 대응하여 신호 제어, 경로 안내 등을 최적화해야 하므로, 무엇보다 신속한 데이터 처리와 즉각적인 의사결정을 지원할 수 있는 데이터 보정 방식이 요구된다(Zhang et al., 2023).
그러나 이러한 다양한 교통 분야에서 활용되는 실시간 교통 데이터는 센서 오작동, 통신 에러, 측정 환경 변화 등 다양한 원인으로 인해 이상치(Outlier)와 결측치(Missing data)가 빈번하게 발생한다. 이 두 문제는 교 통 데이터 품질을 저하시키며, 적절히 처리되지 않으면 통계적 추론과 예측 모델의 정확도에 부정적인 영향 을 미칠 수 있다. 해당 문제를 해결하기 위해 다양한 이상치 탐지 및 결측치 보간 기법이 제안되어 왔으나, 이상치와 결측치가 동시에 발생하는 안 데이터의 특성을 통합적으로 고려한 연구는 여전히 부족하다.
또한 이상치와 결측치를 동시에 처리하는 기존의 일부 연구들은 주로 머신러닝이나 딥러닝과 같이 연산 비용이 높은 방법을 사용하기 때문에, 도로 특성이나 교통 상황이 빠르게 변화하는 환경에서 유연하게 대응 하기 어렵다. 이러한 한계는 즉각적인 데이터 처리가 필수적인 실시간 교통 관리 분야에서 특히 치명적이다. 특히 복잡한 모델은 새로 수집되는 데이터의 분포가 바뀔 때마다 반복적인 재학습이나 추가 조정이 필요해, 실시간 ITS 환경에서의 적용에 부담이 크다. 이러한 현실적 제약 때문에, 실제 여러 국가의 ITS 시스템에서 는 구현이 간단하고 실시간 운용 시 큰 계산 자원을 요구하지 않는 전처리 기법을 선호하는 경향이 있다 (Shafique, 2022).
따라서 본 연구는 이상치와 결측치를 동시에 다루되, 교통 계획 분야나 교통 안전 분야에서 요구되는 장 기적이고 복잡한 교통 흐름 분석이나 특수한 데이터 기반의 변동성 대응 능력은 일부 절충하는 대신, 실시간 교통 관리 및 운영 현장에서 가장 중요한 신속성과연산 부담 최소화에 초점을 맞추어 적용하기 용이한 접근 법을 모색하고자 한다.
구체적으로는 월, 시간, 공휴일 여부를 종합한 복합 시간적 요소(Temporal Factors)를 활용하여 교통량을 보 정하는 모델을 제안하고, 이를 하나의 통합 파이프라인으로 구현하여 이상치 및 결측치를 효율적으로 처리 한다. 이러한 방식은 복잡한 딥러닝 기반 기법에 비해 재학습 비용이 적고, 도심 내 다양한 도로 형태에서 발생하는 오류 데이터를 간단하면서도 정교하게 보완할 수 있다는 장점이 있다. 이러한 접근법은 데이터의 통계적 특성을 최대한 보존하면서도 계산적으로 효율적이므로, 궁극적으로 이 파이프라인을 통해 결측치와 이상치가 동시에 발생하는 상황을 효과적으로 해결하고, 교통량 예측 모델의 성능 향상에 기여하고자 한다.
Ⅱ. 관련 연구
데이터의 특성에 따라 이상치와 결측치의 발생 양상이 다르므로, 이를 해결하기 위한 다양한 기법이 꾸준 히 연구되고 있다. 특히 교통량 데이터는 센서 오작동, 통신 장애 등으로 인해 이상치와 결측치가 동시에 발 생하는 대표적인 사례이며, 이를 정교하게 처리하지 않으면 예측 모델 성능에 심각한 영향을 줄 수 있다. 국 내외 교통량 관리 시스템에서는 상황에 맞춰 이상치를 감지하고 결측치를 처리하는 전처리 방식을 갖추고 있는데, Z-score 기반 이상치 탐지가 보편적으로 쓰이는 예다(Wang et al., 2023). 다만, 평균과 표준편차를 전 체 기간으로 산출할지, 시간대별 또는 센서별로 나눠 계산할지 등에 따라 구현 방식이 달라진다. 국내의 경 우 중위 절대 편차(MAD), 절사(Trimmed) 평균, 윈저화(Winsorized) 평균 등도 자주 활용된다(Ministry of Land, Infrastructure and Transport, 2022).
이상치 탐지 역시 교통량 데이터 분석에서 중요한 과제로, 전통적 통계 기법부터 딥러닝을 접목한 방법까 지 다양하게 시도되어 왔다. 그 중 하나로, 교통 데이터를 활용해 이상치를 판정한 뒤, 중위값 또는 산술평균 을 통해 보간하는 단순 전처리 알고리즘을 제안한 경우도 있으며, 시간대나 요일 등의 요소를 사용하여 과거 의 데이터와 비교하여 이상치를 알아내는 방법도 있었다(Schultz et al, 2022). 또 다른 방식으로, PCA(Principal Component Analysis)를 사용해 교통 흐름 데이터에서 이상치를 검출 및 보간하는 방식을 제시하였다(Chiou et al., 2014). 딥러닝 접근으로는 LSTM과 CNN 모델을 결합해 도시 교통 모니터링 데이터 내 이상 상황을 자동 검출하는 연구를 수행한 바 있다(Selvan et al., 2025).
교통량 데이터의 결측치를 보완하기 위한 다양한 접근도 시도되어 왔다. 3차 스플라인 보간 기법을 활용 해 데이터에 존재하는 결측치를 부드럽게 복원하는 방법이 제시되기도 했으며(Thangaraj et al. 2023), 선형 회 귀를 이용해 속도 데이터 결측치를 보정하는 기법도 소개되기도 하였다(Ki et al., 2011). 더 나아가 조금 더 복잡한 방법으로, 클러스터링과 어텐션 메커니즘을 결합한 LSTM-AdaBoost 기반 하이브리드 모델을 제안하 여 교통량 시계열에서 결측치 보간 정확도를 높였다(Shang et al., 2024). 실무적으로, 과거 데이터나 평균값을 활용하는 단순 보간 방식도 흔히 쓰인다. 이처럼 결측치 처리 방법은 스플라인, 회귀, 딥러닝 등으로 점차 다 양해지고 있으나, 실제 교통 관리 시스템에서는 구현 난이도와 계산 비용도 고려해야 하므로 복잡한 방법이 늘 바람직한 것은 아니다.
이상치와 결측치 처리에 관한 방법론이 매우 폭넓게 연구되고 있지만, 교통 관련 시스템에서는 투명성과 신뢰성이 중요하므로 해석하기 어렵고 연산 부담이 큰 복잡 기법을 도입하기가 쉽지 않다. 특히 실시간 처리 가 핵심인 ITS 환경에서는 높은 계산 자원이 필요한 딥러닝 기반 전처리 기법이 부담이 되며, 시스템 효율성 을 저해할 우려가 있다. 이로 인해 여러 국가의 교통 정보 시스템에서는 비교적 단순하고 이해하기 쉬우며, 실시간 운용에도 무리가 없는 기법을 선호하는 경향이 남아 있다(Zhong and Sharma, 2009).
결과적으로, 교통 데이터에서 이상치와 결측치가 동시에 발생한다는 특성에 대응하면서도, 낮은 연산 비 용으로 다양한 도로 환경에 적용할 수 있는 통합 전처리 방안이 여전히 요구되고 있다. 본 연구는 이러한 공 백을 메우기 위해, 개별 기법의 단순 결합을 넘어 시간적 요소라는 일관된 원칙 하에 이상치 탐지와 결측치 보간을 유기적으로 통합한 파이프라인을 제안한다는 점에서 기존 연구와 차별화된다.
Ⅲ. 방법론
1. 인천시 교통량 데이터
본 연구에서는 2022년 11월 1일부터 2024년 10월 31일까지의 인천시의 도로에서 시간대 별(Hourly)로 측 정한 교통량 데이터를 사용하여 본 연구의 데이터 보정 모델을 검증하였다. 이 데이터에서 도로는 대한민국 표준노드링크 데이터에서 정의한 링크를 의미한다. 표준노드링크에서 링크는 노드와 인접한 노드를 연결한 선을 의미하며 일반적인 도로를 포함하여 교량, 고가도로, 지하차도, 터널 등등을 포함한다. 노드는 교통흐름 이 변경되는 지점 혹은 ITS 서비스가 필요한 지점을 표현한 곳을 의미하며 도로의 시종점이나 IC/JC 등을 포 함한다(Ministry of Land, Infrastructure and Transport, 2023). 교통량 데이터는 상시 조사되는 데이터로 매설된 루프검지기, AI 영상식 조사 장비, 차량 번호판 조사 장비 등의 센서들을 종합적으로 사용하여 측정된다 (Han, 2022).
인천시 데이터에는 2,091개의 도로에 대해 매 시각 단위로 측정한 교통량 데이터가 포함되어 있다. 원래 가공되지 않은 데이터에서 결측치 비율이 50%를 넘거나 테스트 범위에 결측치가 있는 522개의 데이터를 제 거하여 총 1,569개의 도로를 선택하고 이에 대한 데이터를 사용하였다. 이러한 도로 데이터에는 고속도로부 터 일반 도심 도로에 이르기까지 다양한 도로의 종류를 포함하고 있으며 제한 속도와 차로 수와 같은 메타 데이터 또한 표준노드링크에서 얻을 수 있었다. 원시 데이터에서 결측치의 비율은 5.11%이며 전체 센서 중 1,423개의 센서(71.72%)에서 결측치들이 발견되었다. 이 결측치들은 원시 데이터에서 발견되었으므로 참 값 을 알 수 없는 결측치이다.
데이터를 사용하기에 앞서 인천시 교통량 데이터의 특징 중 하나로 결측치가 발생한 지점에서 전, 후 몇 시간 정도의 0값이 나타나는 패턴이 관찰되는 것이다. 이를 고려하여 원본 데이터에서 결측 구간을 찾고 해 당 구간 주변을 앞뒤로 탐색해 가면서 나타나는 모든 0값을 추가적인 결측치로 간주하여 처리하였다.
또한, 설계속도별 순간 최대류 상한을 고려하여 교통량 데이터에서 현실적으로 불가능한 값을 제거하는 과정도 포함되었다. 구체적으로는 실측 사례를 바탕으로 도로의 종류에 상관없이 통행량 상한 용량을 2,300 pcphpl(승용차/시/차로)로 설정하였다. 이것은 대한민국 고속도로의 이론적 최대 용량에 기반한 값으로 이를 넘어서는 교통량은 없다고 가정하였다. 이러한 과정을 통해 센서 오류 등으로 나타나는 비현실적인 값이 모 델에 미칠 영향을 최소화 하였다(Ministry of Land, Transport and Maritime Affairs, 2013;Jacobson et al., 1990)
이렇게 처리한 데이터를 기준값(Ground Truth)으로 설정하고 이 데이터를 검증에 사용하기 위해 인천시 교 통량 데이터는 학습 데이터셋과 테스트 데이터셋으로 분할하였다. 학습 데이터로는 2022년 11월 1일 0시부 터 2024년 9월 30일 23시까지 데이터를 사용하였으며 테스트 데이터셋으로는 2024년 10월 1일 0시부터 2024 년 10월 31일 23시까지 데이터를 사용하였다.
2. 이상치 및 결측치 모델
본 연구의 핵심 가설은 “복합 시간적 요소(월, 시, 휴일)를 고려한 Z-score로 이상치를 제거하고, 다단계 평 균 보간으로 결측치를 처리”하는 통합 파이프라인이 교통량 예측 모델의 성능을 최대화할 것이라는 점이다. 어떤 데이터의 이상치 여부를 판단할 때, 교통량 데이터는 시간대뿐만 아니라 월별 계절성, 휴일 여부에 따 라서도 패턴이 크게 달라지므로, 이러한 복합 시간적 요소로 데이터를 세분화하여 통계치를 계산하는 것이 이상치를 더 정교하게 판별할 수 있다. 결측치 보간에 있어서도 단순 선형 보간이나 전체 평균 보간와 달리, 동일 시간 요소 그룹별 평균으로 보간하면 교통량의 변동성을 유지할 수 있다. 이는 교통량 예측 모델이 시 간대별 패턴을 학습하는 데 중요한 정보가 된다. 이러한 가정에 따라 월, 시간, 휴일 여부를 종합한 복합 시 간적 요소로 데이터를 그룹화하여 평균과 표준편차를 산출하고 이상치를 판정하며, 이후 이 이상치와 기존 결측치를 동일 그룹의 평균에 기반하여 단계적으로 보간하는 모델을 제시하며, 구체적으로는 다음과 같은 절차를 거친다.
⓵ 센서 내 시간 요소 별 그룹화 및 Z-score 계산
각 센서 데이터를 시(예: 1시, 2시 등), 월(예: 1월, 2월 등), 그리고 휴일(토요일, 일요일, 공휴일) 여부 단위 로 데이터를 그룹화하고 각 그룹에 대해 평균 μm,h,d와 표준편차σm,h,d를 구한다. 여기서 m,h,d는 각각 월(Month), 시(Hour), 휴일(Day off)를 의미한다. 이것을 바탕으로 임의 시점 t에서 관측된 교통량 xt 가 속한 그룹의 Z-score를 다음 식으로 계산하며 Zt 가 임계값의 절대값을 초과하면 해당 시점 t의 값은 이상치로 판 정한다.
이 연구에서는 임계값을 ±3.0으로 설정하였다. 정규분포를 가정할 때 정상 데이터의 Z-score가 이 임계값을 넘어가는 확률은 0.3%에 불과하므로 통계학에서 경험적으로 이상치 판단에 흔히 채택되는 기준으로 해당 임계값 을 많이 사용한다(Mondal et al., 2020). 이를 통해 교통량 변화의 패턴을 반영하여 이상치를 제거할 수 있다.
⓶ 이상치 → 결측치 변환
위 단계 ⓵에서 계산된 그룹별 Z-score를 통해 이상치로 판정된 값은 결측치로 전환한다. 기존에 원래부터 결측이었던 값은 그대로 결측으로 유지한다.
⓷ 시간대 요소 기반 평균 보간
위의 과정을 거쳐 결측치로 변환된 모든 값은 아래의 시간대 요소 기반 평균을 사용해 단계적으로 처리된 다. 첫 번째로, 결측치가 속한 '월, 시, 휴일' 그룹의 평균값을 계산하여 1차적으로 보간한다. 예를 들어, '8월 평일 오전 9시'에 발생한 결측치는, 다른 모든 '8월 평일 오전 9시' 데이터의 평균값으로 보간된다. 그리고 여기서 보간되지 못한 결측치가 있다면(해당 그룹에 유효한 데이터가 없는 경우 등), 그룹화 단위를 완화하 여 '시간대' 그룹의 평균값으로 2차 보간한다. 예를 들어, 위 단계에서 남은 '오전 9시'의 결측치는 월이나 휴 일 여부와 무관하게 모든 '오전 9시' 데이터의 평균으로 보간된다. 이러한 단계적 접근법은 특정 '월, 시, 휴 일' 그룹에 유효 데이터가 거의 없어 평균을 신뢰하기 어려운 경우에도, 더 넓은 범위의 '시간대' 평균을 활 용하여 결측치를 안정적으로 채울 수 있다는 장점이 있다.
3. 검증 비교 모델
앞서 제시한 “복합 시간적 요소(월-시-휴일) 기반 이상치 및 결측치 보정 모델”의 성능을 검증하기 위해, 본 절에서는 다양한 이상치 처리 기법과 결측치 처리 기법의 조합을 비교 모델로 구성하였다. 각각의 조합 요소들은 대한민국 실시간 ITS 시스템에서 주로 사용되는 이상치 및 결측치 처리 방법들을 구현하였다 (Ministry of Land, Infrastructure and Transport, 2022). 이를 통해 이상치 및 결측치 보정 단계에서 가능한 방법 들을 폭넓게 비교하고, 어떤 조합이 교통량 예측 모델(LSTM)의 성능을 최적화하는지 확인한다. 한편 Z-score 계열 기법은 특별한 언급이 없는 한 앞서 기준 모델에서와 같이 경험적 규칙에 근거해 임계값을 ±3.0으로 고정하였다.
1) 이상치 처리 조합 요소 후보
⓵ 이상치 처리 안 함
별도의 이상치 제거 과정을 적용하지 않고, 데이터를 그대로 사용한다. 다만, 이 데이터는 처음 그대로의 원본이 아닌 앞서 언급한 기본적인 비현실적인 데이터 정도는 수정한 데이터를 사용해 결측치만 처리한다. 다만, 현실적인 범위 수준에서 이상치는 그대로 남아있으므로 데이터 분포의 왜곡 가능성이 있다.
⓶ 센서 내 전체 데이터 Z-score 기반 이상치 처리
대상 센서 내 전체 데이터에 대해 평균 μ과 표준편차 σ 를 구하고, 이를 기반으로 아래의 식과 같이 Z-score Zt 를 구한다.
해당 Z-score의 절댓값이 설정된 임계값을 초과할 경우 해당 시점의 데이터를 이상치로 간주하였다. 이 외 에 다른 특성을 고려하지 않으므로, 출퇴근 시간 등 특정 구간에서 빈번히 나타나는 피크값도 이상치로 분류 될 가능성이 있다.
⓷ 센서 내 복합 시간적 요소 기반 Z-score 이상치 처리 (제안 모델)
이 방법은 본 연구에서 최종 제안하는 모델의 이상치 탐지 부분과 동일하다. 본 비교 평가에서는 이 이상 치 처리 방식을 고정한 후 여러 결측치 보간 기법과 조합하여, 어떤 보간법이 제안된 이상치 탐지 방식과 최 상의 시너지를 내는지 분석하는 것을 목적으로 한다.
⓸ 윈저화(Winsorization) 기반 이상치 처리
윈저화(Winsorization)은 데이터 분포의 상위 및 하위 각각 p%에 위치한 값을 각각 p-분위수로 대체해, 평 균 및 표준편차 계산 시 극단값의 영향을 완화하는 기법이다. 본 연구에서는 경험적으로 p=0.05를 선택하였 으므로 먼저 원본 자료의 5ᵗʰ 및 95ᵗʰ 분위수를 기준으로 값을 윈저화한 뒤, 이 변환된 자료에서 평균 μwinsor 과 표준편차 σwinsor 를 계산하였다. 다음 단계에서는 원본 관측치 xt 에 대해 다음과 같이 Z-score Zt 를 구하고 임계점을 넘는 데이터를 이상치로 간주하여 제거하였다.
이러한 절차는 이상치가 평균과 표준편차 자체를 왜곡하는 문제를 줄여, 이상치 판정의 강건성 (Robustness)을 높여준다. 다만 분포가 강하게 비대칭이면 Winsorized 평균 역시 상위 및 하위 꼬리에 대해 서 로 다른 편향을 가질 수 있다는 단점이 있다.
⓹ 절사(Trimming) 기반 이상치 처리
절사 평균(Trimmed mean)은 분포의 상위 및 하위 p%에 해당하는 관측값을 완전히 제거한 뒤, 남은 데이터 로 평균과 표준편차를 계산해 극단값의 영향을 억제하는 기법이다. 본 연구에서는 경험적으로 p=0.05로 설정 하였다. 즉, 원본 자료에서 5ᵗʰ와 95ᵗʰ 분위수 밖에 위치한 값들을 삭제(Trimming)한 후, 다음과 같이 절사 평 균 μtrim 과 절사 표준편차 σtrim 를 산출하였다. 그런 다음 이들을 활용하여 원본 각 관측치 Z-score를 계산 하고, 설정된 임계값의 절댓값을 초과이면 이상치로 분류하여 제거하였다.
절사 평균은 극단값을 아예 배제하므로, 분포가 비정규적이거나 꼬리가 두꺼운 경우에도 평균 왜곡을 효 과적으로 방지할 수 있다. 다만 데이터의 가장자리 부분이 손실되기 때문에, 샘플 크기가 작을 때는 정보 감 소 및 편향 발생 가능성에 유의해야 한다.
⓺ 수정된 표준화 점수(Modified Z-score) 기반 이상치 처리
수정된 Z-score(Iglewicz et al., 1993)는 표준편차 기반 Z-score가 극단값에 민감하다는 단점을 보완한 이상 치 탐지 기법이다. 평균과 표준편차 대신 중앙값(Median)과 중위 절대 편차(MAD: Median Absolute Deviation) 를 사용해 Z-score를 계산함으로써, 분포의 극단에 위치한 값들이 전체 지표를 왜곡하는 현상을 줄여 준다. 구체적으로는 다음 식으로 계산한 수정된 Z-score가 임계값의 절댓값을 초과하면 해당 관측치를 이상치로 간 주한다.
일반적으로, 수정된 Z-score를 기반으로 이상치를 판단할 때에는 임계값 ±3.5를 넘으면 이상치로 판단한다. 중앙값을 기준으로 하기 때문에 극단값의 영향력이 크게 줄어들어, 데이터가 비대칭이거나 이상치가 많은 상황에서도 강인성(robustness)이 높다. 다만, 표본 크기가 매우 작을 때는 MAD 계산이 불가능하거나 불안정 할 수 있으며, 데이터가 여러 군집으로 나뉘어 있을 경우 군집 간 위치 차이 구분하지 못하고 ‘이상치’로 오 판할 위험이 있다.
2) 결측치 처리 조합 요소 후보
⓵ 선형 보간
선형 보간 방법은 결측 구간의 양끝 실제 값을 직선으로 연결하여 중간 값을 보간한다. 시간이 지남에 따 라 일정하게 증가하거나 감소하는 형태로 보간하게 된다. 계산이 간단하고 빠르다는 장점이 있으나, 교통량 의 비선형적인 패턴(예: 출퇴근 시간 피크)을 제대로 반영하지 못하는 한계가 있다.
⓶ 스플라인 보간
다항식(주로 3차 스플라인)으로 구간을 이어 보간하는 방식. 선형 보간보다 곡률(곡선 형태)을 좀 더 부드 럽게 표현 가능하다. 선형 보간보다 실제 데이터의 흐름과 유사하게 보간할 수 있지만, 데이터 변화가 급격 한 구간에서는 오히려 비현실적인 값을 생성할 수 있다.
⓷ 복합 시간적 요소 기반 단계적 평균 보간
앞서 이 연구에서 제시한 모델의 결측치 처리 방법과 동일한 방법이다. 동일 시간 요소 그룹의 평균 교통 량으로 결측값을 보간한다.
⓸ 월별 평균 보간
결측이 발생한 구간의 월 정보를 확인한 뒤, 같은 월 내 평균으로 보간한다. 해당 월의 특성을 반영하려는 목적을 가지고 있다. 계절성은 반영할 수 있으나, 일별(시간대별) 주기성을 무시하므로 단기 교통량 예측에 는 한계가 명확하다.
⓹ 직전 주 값 보간
결측이 발생한 구간에서 1주일 전 값으로 보간한다. 만약 1주일 전 값 또한 결측치일 경우 결측치가 아닌 값을 찾을때까지 계속 1주일 전 값을 탐색한다. 교통 데이터의 강력한 주별/일별 주기성을 모두 반영할 수 있어 효과적인 기법이지만, 보간하려는 시점의 1주일 전이 공휴일 등 특이점이었을 경우 오히려 데이터의 왜곡을 유발할 수 있다.
4. 이상치 및 결측치 보정 성능 검증
1) 인위적인 결측치 및 이상치 생성 후 복원 성능 검증
복원 성능을 평가하기 위해 완전한 테스트 데이터에 결측치와 이상치를 인위적으로 삽입하였다. 먼저 전 체 데이터에서 표준정규분포에서 Z-score 값이 임계값 ±3.0을 넘어가는 관측값을 집계해 실제 이상치 개수를 근사한 결과, 전체의 약 0.13%를 차지함을 확인하였다. 여기에 원본 자료에 존재하던 결측치 개수까지 합산 하면 오류(이상치 + 결측치)가 전체의 18%에 해당하므로, 이를 테스트셋에 투입할 오류 비율로 설정하였다. 이어서 결측치가 존재하지 않는 테스트 데이터에서 관측치 18%를 무작위로 선택하고, 이 가운데 0.13%는 이 상치로 대체하였다. 이상치 값은 실제 이상치 분포의 최소·최대 범위에서 난수로 추출해 할당하였고, 나머지 선택 구간에는 결측치를 삽입하되 원본 데이터에서 나타났던 연속 결측 패턴을 모방해 여러 시간대가 연속 으로 비게 만들었다.
이렇게 변형한 테스트셋에 총 35개 전처리 모델을 각각 적용해 복원값을 계산한 뒤, 복원된 시계열을 완 전한 원본 테스트 데이터(Ground Truth)와 비교하였다. 평가지표로는 평균 절대 오차(MAE)와 평균 제곱근 오 차(RMSE)를 사용하여 각 모델의 복원 정확도를 정량적으로 측정하였다. 이 절차를 통해 다양한 이상치와 결 측치 처리 조합의 상대적 성능을 동일한 조건에서 공정하게 비교할 수 있었다.
2) 보정 모델이 적용된 예측 모델 성능 평가
학습 데이터를 대상으로 동일한 이상치 및 결측치 처리 과정을 거쳐 정제된 시계열 데이터를 생성한 뒤, RNN 계열인 LSTM 모델을 학습시키고 예측을 수행하였다. 학습 데이터와 테스트 데이터는 앞서 언급한 인 위적인 이상치 및 결측치 생성 복원 검증 시 사용한 데이터와 동일하다. 다만, 학습 과정에서 Epoch마다 Validation과정을 수행하며 이를 위해 학습 데이터 중 2024년 6월 1일부터의 데이터를 다시 잘라 사용하였다. 즉, 실제 학습에는 2022년 11월 1일부터 2024년 5월 31일까지 데이터가 사용되었다. 그리고 절대적인 성능이 아닌 교통 데이터 보정에 따른 예측 성능의 변화를 상대적으로 비교하기 위해 별다른 변형이 없는 단일 LSTM 모델을 공통으로 사용했으며 하이퍼파라미터는 다음과 같다.
마찬가지로 RMSE, MAE 그리고 추가로 sMAPE(Symmetric Mean Absolute Percentage Error)를 사용하여 예 측 정확도를 평가했으며, 필요 시 추세(Trend)나 계절성(Seasonality) 측면을 추가 분석하였다. 궁극적으로 “복 합 시간적 요소 기반 이상치 및 결측치 보정 모델” 조합이 예측 측면에서도 가장 높은 정확도를 보이는지 확인하였다.
<Table 1>
Hyperparameters of LSTM model
Backbone Model | LSTM |
---|---|
Input Dimension | 1 |
Hidden Dimension | 32 |
Number of Layer | 1 |
Optimizer | Adam |
Learning Rate | 0.001 |
Learning Rate Scheduler | StepLR |
Learning Rate Scheduler Step Size | 100 |
5. 측정항목
본 연구에서는 이상치 및 결측치 처리 모델(이하 “보정 모델”)의 복원 성능과 예측 모델의 정확도를 평가 하기 위해 MAE(Mean Absolute Error), RMSE(Root Mean Squared Error), sMAPE(Symmetric Mean Absolute Percentage Error) 세 가지 지표를 사용하였다.
1) MAE
MAE는 실제값과 예측값 차이의 절댓값의 평균을 의미하며 수식으로 나타내면 다음과 같다.
여기서 yt 는 시점 t에서 실제 교통량, 는 시점 t에서 예측값 그리고 n은 전체 관측 시점 수를 의미한다. MAE가 낮을수록 예측값이 실제값과 가깝다는 것을 의미하며, 직관적으로 오차의 절댓값 평균을 제공한다.
2) RMSE
RMSE는 오차(실제값과 예측값의 차이)를 제곱하여 평균한 뒤 제곱근을 취한 값을 의미한다.
RMSE 역시 MAE와 마찬가지로 평균 오차 크기를 나타내지만, 오차의 제곱을 평균내기 때문에 큰 오차(이 상치)에 대한 페널티가 더 크다. 이에 따라, MAE와 RMSE를 함께 확인해보면 단순 오차의 크기 뿐만 아니라 오차의 특성까지 알아낼 수 있다.
3) Symmetric Mean Absolute Percentage Error (sMAPE)
실제값과 예측값 차이의 절댓값을 두 값의 평균 절댓값으로 나눈 뒤, 이를 백분율로 환산해 평균한 지표 이다. 전통적인 MAPE(Mean Absolute Percentage Error)와 달리 실제값과 예측값 모두를 분모에 포함함으로써 극단적인 상황에서의 분모 0 문제를 완화한다.
sMAPE는 상대적 오차를 측정하기 때문에, 교통량 규모가 큰 구간과 작은 구간에서의 예측 정확도를 균형 있게 비교할 수 있다. 특히, 교통량 데이터는 경우에 따라 0의 값을 가지는 경우가 있고 이에 따라 분모가 0 이 되어 MAPE를 측정하지 못하는 경우가 발생하는데 sMAPE는 이러한 상황을 어느정도 방지할 수 있다. 그 러나 실제값과 예측값이 모두 0이거나 이에 근접하면 여전히 측정에 문제가 발생할 수 있으므로 극단적인 상황에서는 여전히 유의할 필요가 있다.
Ⅳ. 실험 결과
1. 임의 생성된 이상치 및 결측치 처리 결과
앞서 언급한 테스트 데이터에 이상치 및 결측치를 원래 데이터의 이상치 및 결측치 형태에 맞게 임의로 생성하고 검증을 위한 이상치 및 결측치 방법을 조합한 총 30개 모델에 대해서 복원 정확도 실험을 수행하 였으며 그에 대한 결과(MAE, RMSE) 중 상위 7개의 결과는 <Table 2>과 <Fig. 5>와 같다.
<Table 2>
Top 7 results from processing models
Rank | Model Name | MAE | RMSE |
---|---|---|---|
1 | Temporal Z-score + Temporal Ave. | 4.247 | 30.170 |
2 | Z-score + Temporal Ave. | 4.354 | 30.710 |
3 | Winsorized Z-score + Temporal Ave. | 4.385 | 30.816 |
4 | Modified Z-score + Temporal Ave. | 4.409 | 31.046 |
5 | Trimmed Z-score + Temporal Ave. | 4.411 | 31.180 |
6 | Temporal Z-score + Week Shift | 5.012 | 32.221 |
7 | Z-score + Week Shift | 5.036 | 32.233 |
실험 결과, 본 연구에서 제안하는 Temporal Z-score + Temporal Ave.(시간적 요소 기반 Z-score + 시간적 요 소 평균 보간) 조합이 MAE 4.247, RMSE 30.170으로 모든 조합 중에서 가장 낮은 오차를 기록하며 월등한 복원 성능을 보였다. 이는 제안 모델이 교통 데이터의 복잡한 시간적 패턴을 정교하게 반영하여 원본 데이터 의 특성을 가장 잘 보존했음을 의미한다.
실험 결과에서 가장 두드러지는 특징은 어떤 결측치 처리 기법을 사용했는지가 전체 복원 성능에 가장 결 정적인 영향을 미쳤다는 점이다. 제안 모델인 시간적 요소 평균 보간(Temporal Ave.)과 직전 주 값 보간(Week Shift)를 사용한 조합들이 상위권의 성능을 보여주었다. 이는 교통 데이터의 시간적/주기적 패턴을 반영하는 보간법이 성능에 매우 중요하다는 것을 입증한다. 특히, 월, 시간, 휴일 여부를 모두 고려한 시간적 요소 평균 보간은 MAE 4.2점대를 기록하며, 주별 주기성만 고려한 직전 주 값 보간(MAE 5.0점대)보다도 한 단계 높은 복원력을 보여주었다.
반면, 월별 평균(Monthly Mean), 스플라인 보간(Spline), 선형 보간(Linear) 기법들은 이상치 처리 방식과 무 관하게 모두 저조한 성능을 기록했다. 특히 선형과 스플라인 보간법은 MAE가 8.9점대로, 제안 모델 대비 오 차가 2배 이상 발생하는 등 복원 성능이 현저히 떨어졌다. 이는 단순한 수학적 연결이나 광범위한 평균으로 는 교통 데이터의 국소적이고 동적인 변동성을 복원할 수 없다는 한계를 명확히 보여준다.
결측치 처리 기법만큼 극적인 차이는 아니었지만, 이상치 처리 방식 역시 복원 성능의 정교함을 결정하는 중요한 요인으로 작용했다. 가장 성능이 좋은 시간적 요소 평균 보간법과 결합된 모델들을 살펴보면, 앞서 확 인했듯 본 연구가 제안하는 시간적 요소 기반 Z-score(Temporal Z-score)가 가장 우수했다. 그 뒤를 전체 Z-score, 윈저화(Winsorized Z-score), MAD(Modified Z-score), 절사(Trimmed Z-score) 등 다른 통계적 기법들이 근소한 차 이로 따랐다. 이는 복합적인 시간 요소를 고려한 이상치 탐지가 가장 효과적임을 시사한다.
추가적으로 시간적 요소 평균 보간을 적용한 모델들을 비교했을 때, 이상치 처리를 하지 않은 경우 다른 이상치 처리 기법을 적용한 모델보다 오차가 약 23% 더 높았다. 이는 이상치를 사전에 제거하지 않으면, 결 측치 보간 과정에서 사용되는 평균값이 왜곡되어 전체 복원 성능이 크게 저하됨을 의미한다.
2. 보정된 데이터에 대한 예측 모델 성능 비교
앞서 제시한 이상치 및 결측치 처리 보정 모델로 데이터를 전처리한 뒤, 이를 기반으로 LSTM 기반 예측 모델을 학습하였다. 그리고 예측 결과에 대해 MAE(Mean Absolute Error), RMSE(Root Mean Squared Error), sMAPE(Symmetric Mean Absolute Percentage Error) 지표를 측정하였다.
가장 주목할 만한 결과는, 본 연구에서 제안하는 Temporal Z-score + Temporal Ave.(복합 시간적 요소 기반 Z-score + 단계적 평균 보간) 조합이 MAE(50.640), RMSE(60.009), sMAPE(55.779)로 모든 지표에서 1위를 차 지했다는 점이다. 이는 데이터의 원형을 가장 잘 복원하는 전처리 방식이 후속 예측 모델의 성능을 극대화하 는 데 직접적으로 기여한다는 본 연구의 핵심 가설을 강력하게 뒷받침한다. 이러한 결과는 고품질 데이터 전 처리의 필요성을 명확하게 보여준다. 이 연구의 제안 모델은 제안 모델에서 이상치를 처리하지 않은 모델 (MAE 55.066)에 비해 MAE 기준 약 8.2%의 예측 성능 향상을 이끌어냈다. 이는 동일한 시간적 요소 평균 보 간법(Temporal Ave.)을 사용하더라도, 사전에 이상치를 정교하게 제거하는 과정이 LSTM과 같은 시계열 모델 이 데이터의 패턴을 학습하는 데 얼마나 중요한지를 증명한다.
추가로 전반적으로 복원 성능 상위권을 차지했던 모델 조합들이 예측 성능에서도 대부분 상위권에 위치 하는 경향을 보였다. 이는 전처리 단계에서 데이터의 손실을 최소화하고 통계적 특성을 잘 보존할수록, 예측 모델이 더 정확한 미래를 학습할 수 있음을 의미한다.
또한, 제안 모델은 MAE, RMSE뿐만 아니라 상대적 오차 지표인 sMAPE에서도 가장 낮은 값(55.779)을 기 록했다. 이는 제안 모델이 교통량이 많은 간선도로나 교통량이 적은 이면도로 등, 데이터의 스케일과 무관하 게 전반적으로 안정적이고 균형 잡힌 예측 성능을 제공한다는 것을 시사한다. 다른 모델들이 특정 조건에서 는 좋은 성능을 보이다가도 다른 조건에서는 오차율이 커지는 것과 달리, 제안 모델의 범용성이 입증된 결과 이다.
<Table 3>
Top 7 MAE Result
순위 | Model Name | MAE |
---|---|---|
1 | Temporal Z-score + Temporal Ave. | 50.640 |
2 | Trimmed Z-score + Temporal Ave. | 51.839 |
3 | Winsorized Z-score + Week Shift | 52.065 |
4 | Winsorized Z-score + Temporal Ave. | 52.158 |
5 | Trimmed Z-score + Monthly Ave. | 52.204 |
6 | Winsorized Z-score + Spline | 52.337 |
7 | Modified Z-score + Temporal Ave. | 53.229 |
<Table 4>
Top 7 RMSE Result
순위 | Model Name | RMSE |
---|---|---|
1 | Temporal Z-score + Temporal Ave. | 60.009 |
2 | Winsorized Z-score + Week Shift | 60.905 |
3 | Trimmed Z-score + Temporal Ave. | 61.188 |
4 | Trimmed Z-score + Monthly Ave. | 61.282 |
5 | Winsorized Z-score + Temporal Ave. | 62.240 |
6 | Winsorized Z-score + Spline | 62.324 |
7 | No Outlier + Linear | 63.294 |
<Table 5>
Top 7 sMAPE Result
순위 | Model Name | sMAPE |
---|---|---|
1 | Temporal Z-score + Temporal Ave. | 55.779 |
2 | Winsorized Z-score + Temporal Ave. | 58.888 |
3 | Temporal Z-score + Monthly Ave. | 57.248 |
4 | Winsorized Z-score + Temporal Ave. | 57.583 |
5 | Modified Z-score + Monthly Ave. | 57.128 |
6 | Winsorized Z-score + Spline | 57.439 |
7 | Trimmed Z-score + Monthly Ave. | 58.352 |
복원 성능 실험과 마찬가지로, 1위와 2위의 모델에서 확인할 수 있듯 단계적 평균 보간 기법을 사용한 조 합들이 전반적으로 우수한 예측 성능을 나타내며 교통량의 복합적인 시간 패턴을 반영한 보간법이 예측 모 델의 성능 향상에 필수적임을 다시 한번 확인시켜 주었다. 반면, 직전 주 값 보간(Week Shift)나 월별 평균 (Monthly Ave.) 등 단편적인 시간 정보만 활용하거나 선형(Linear) 및 스플라인(Spline)과 같이 수학적 패턴에 만 의존하는 방식들은 예측 성능에서 뚜렷한 한계를 보였다. 이는 LSTM 모델이 학습 과정에서 데이터에 내 재된 미묘한 계절성, 요일별 패턴 등을 중요한 정보로 활용하며, 이러한 정보가 손상될 경우 예측 정확도가 크게 저하될 수 있음을 의미한다.
Ⅴ. 결 론
본 연구는 인천시 교통량 시계열 데이터에서 발생하는 결측치 및 이상치를 효율적으로 처리하기 위한 통 합 기법을 제안하고, 다양한 조합의 전처리 모델을 구성하여 복원 성능과 예측 모델 성능 양 측면에서 비교 및 평가를 수행하였다. 분석 결과, 본 연구가 제안하는 “복합 시간적 요소(월, 시, 휴일) 기반 Z-score 및 단계 적 평균 보간”조합이 다른 모든 조합 대비 절대적 오차(MAE, RMSE)와 상대적 오차(sMAPE) 모두에서 가장 우수한 성능을 보임을 확인하였다. 이는 교통량의 계절성(월), 일별 주기성(시간), 그리고 주중/주말 및 공휴 일 패턴을 모두 반영하여 이상치를 정교하게 탐지하고 결측치를 보간한 것이, 데이터의 변동성을 가장 온전 히 보존하며 예측 오차를 최소화하는 데 기여한 것으로 해석된다.
반면, 이상치를 처리하지 않고 단순 보간에 의존한 조합들은 예측 성능 평가에서 중하위권에 머물렀으며, 특히 sMAPE 지표가 높아 교통량 규모가 작은 구간에서 큰 오차를 발생시키는 불안정성을 보였다. 또한, 제 안 모델의 이상치 탐지 기법을 사용했더라도, 결측 처리 과정에서 선형 보간과 같이 데이터의 동적 패턴을 무시하는 기법을 결합해 사용할 경우 그 효과가 크게 반감되어 예측 성능이 저하되는 결과도 확인하였다.
본 연구의 핵심적인 발견은 교통 데이터의 다양한 시간적 요소들을 얼마나 깊이 있게 반영하는지가 성능 을 결정짓는다는 점이다. ‘월', ‘시’, ‘휴일' 요소를 추가하여 이상치를 탐지한 경우가 단순 zscore보다 일관되 게 우수한 성능을 보였다. 이는 데이터를 월별, 휴일별로 세분화하는 것이 각 상황에 맞는 국소적(local) 패턴 을 더 정확하게 포착하여 모델의 정교함을 높이는 핵심 기제로 작용했음을 시사한다.
이상의 결과는 교통량 시계열처럼 센서 오작동이나 통신 오류로 인해 이질성이 높고 결측치나 이상치가 자주 발생하는 데이터에서도, 복합적인 시간 요소를 정교하게 고려하여 수행하는 전처리 기법이 예측 모델 의 성능 향상에 크게 기여할 수 있음을 실증적으로 보여준다. 다만, 본 연구의 결과를 일반화하고 더욱 발전 시키기 위해서는 다음과 같은 후속 연구가 필요하다.
먼저, 제안 모델의 일반화 및 강건성을 강화하기 위해, 현재 인천시에 국한된 연구 범위를 다양한 지역 및 도로 환경으로 확장하여 검증하고, Z-score 임계값이나 도로 용량 설정 같은 경험적 파라미터에 대한 민감도 분석 및 최적화 연구를 수행할 필요가 있다. 또한, 다른 유형의 시계열 예측 모델과의 결합을 통해 본 전처 리 기법의 범용적인 효과성을 확인해 볼 수도 있다.
또한, 현재 모델은 토요일, 일요일, 공휴일을 하나의 ‘휴일’ 범주로 통합하여 처리하고 있다. 이것은 본 연 구에 사용한 데이터의 한계로 휴일을 더욱 세분화 할 경우 일부 그룹의 데이터 수가 지나치게 적어져 통계 치 계산의 불안정성을 야기할 수 있다는 현실적 제약을 고려한 선택이었다. 따라서 향후 충분한 데이터가 확 보된다면, 토요일, 일요일, 그리고 설날이나 추석과 같은 특정 공휴일의 고유한 교통 패턴을 각각 구분하여 학습하는 더욱 세분화된 모델을 개발하여 예측의 정밀도를 더욱 높이는 연구로 발전할 것이다.
다음으로, 모델의 예측 성능을 심층적으로 분석하고 고도화하기 위해, 네트워크 전체 평균 오차를 넘어 지 점별 오차 발생 패턴을 상세히 규명하고, 날씨나 도로 등급과 같은 교통량에 영향을 미치는 다양한 외부 요 인들을 모델에 통합하는 연구가 필요할 것이다. 특히, 화물차 통행량이 많은 도시의 특성을 반영하여 이동 수단별 교통량 패턴을 세밀하게 분석하고, 이를 바탕으로 각 수단에 특화된 맞춤형 보정 및 예측 모델을 개 발하는 연구를 통해 모델의 실질적인 활용 가치를 높일 수 있을 것이다.
결론적으로, 본 연구는 고가의 장비나 복잡한 모델의 도입 없이도, 데이터의 시간적 특성을 깊이 있게 활 용하는 것만으로도 실시간 교통 데이터의 품질과 예측 정확도를 크게 향상시킬 수 있음을 실증적으로 보였 다. 이는 자원이 제한된 여러 지자체의 ITS 운영 환경에서 즉시 적용 가능한 비용 효율적이고 확장 가능한 솔루션을 제공한다는 점에서 중요한 실무적, 정책적 의의를 가진다.