Ⅰ. 서 론
최근 국민 건강 보호를 위해 대기오염물질의 실시간 측정과 분석의 중요성이 더욱 강조되고 있다. 이에 따라 환경부 국립환경과학원은 자동차 배출가스의 영향을 크게 받는 오존, 이산화황, 일산화탄소 등의 대기 오염물질 농도를 측정하기 위한 측정소를 전국 각지에 설치하여 대기오염물질의 추세를 분석하고 있으며, 이러한 대기오염물질 측정소는 2015년에 약 300개소에서 2024년 현재 600개소 이상으로 확대되어 관리되고 있다.
자동차는 배기가스, 타이어 먼지 등의 요인으로 공기중 입자 수 농도를 증가 시키는 주요 대기 오염원 중 하나로 작용하고 있다. 다양한 도시 환경에서 수행된 연구들은 주행중인 자동차 밀도가 높은 지역에서 대기 오염 물질의 입자 수 농도가 급격히 상승한다는 것을 보여주며, 특히 트럭과 같은 대형 차량이 주요 오염원으로 작용하며 교통 혼잡이나 신호 대기 중일 때 이러한 현상이 더욱 두드러짐을 확인했다 (Von Schneidemesser et al., 2019). 또한, (Mohtar et al., 2018)의 연구에 따르면 도시 지역에서 NO2와 CO 농도가 자동차 배기로 인해 크게 증가하는 경향이 있으며, 특히 교통이 밀집된 지역과 출퇴근 시간대에 오염 물질의 농도가 급증하는 현상을 보였다. 이는 차량이 주요 대기 오염원임을 재확인시켜준다. 차량으로 인한 대기 오염을 줄이기 위해 이전부터 차량 요일제, 전기자동차 지원금, 대중교통 보급 확대 등 여러 정책이 시행되고 있다. 이러한 정책들이 실제로 대기질에 미치는 영향을 파악하기 위한 가장 직관적인 방법은 정책의 시행 시기와 질소산화물, 일산화탄소, 미세먼지와 같은 자동차가 주요 배출원인 오염물질의 상관성을 연구하는 것이라 할 수 있으며, 이러한 연구의 정확성을 위해선 대기오염물질 데이터의 신뢰성 확보가 매우 중요하다.
그러나 대기오염물질 농도 데이터에는 측정기기의 오작동이나 점검 과정에서 발생하는 비정상적인 값, 이 른바 이상 데이터가 포함될 수 있다. 이러한 이상 데이터의 비율이 높아지면 통계적 분석에서 오류가 발생할 수 있고, 정보의 질적 저하를 초래할 수 있다. 따라서 측정 데이터의 신뢰성을 확보하기 위해서는 이러한 이 상 데이터를 검출하고 정제하는 작업이 필요하다. 이 작업은 대기오염물질 농도 데이터의 질적 수준을 유지 하고, 나아가 연구 결과의 신뢰성을 확보하기 위해 반드시 수행되어야 한다.
이상 데이터 중에는 예를 들어 미세먼지에 해당하는 PM10 보다 초미세먼지에 해당하는 PM2.5 의 농도가 높 게 측정되는 등의 자연적으로 발생할 수 없는 형태의 값을 여러 수식을 통해 검출할 수 있다. 하지만 본 연 구에서 다루고자 하는 ‘베이스라인 이상' 증상은 평균이나 진폭 등으로 정의된 기준선(베이스라인)이 평상시 와 다른 패턴을 보이는 경우를 말하며, 대기오염물질 데이터는 자동차 배출가스와 같은 외부 환경의 영향을 크게 받기 때문에 이러한 현상이 급격한 기후 변화나 환경 변화에 의해 발생할 수도 있다. 따라서 실제 이상 인지, 환경 변화에 따른 자연적인 변화인지를 구분하기 위해서는 당시 전문 지식을 가진 인력이 당시 상황을 고려하여 판단할 필요가 있다.
이러한 이상 판정 작업은 반드시 전문적인 지식을 가진 인력이 수행해야 하므로 시간적, 비용적 부담이 크다. 또한, 여러 인력이 수행할 경우 각기 다른 주관적인 의견이 개입되어 이상 데이터 판정의 일관성이 부 족해지면서 신뢰성이 떨어질 위험이 있다.
이러한 문제를 해결하기 위해 본 연구에서는 인공지능 방법론의 하나인 심층신경망 모델과 변화점 탐지, 동적 시간 와핑 등의 알고리즘을 복합적으로 적용하여 이상 데이터를 검출하고, 주변 측정소의 데이터를 비 교함으로써 검출된 데이터의 변화가 자연적인 변화인지, 자동차 배출가스 등으로 인한 베이스라인 이상 증 상인지 판별할 수 있는 모델을 제안하고자 한다.
제안하는 이상 데이터 검출을 위한 심층신경망 모델은 기존에 이미지 분할(Segmentation) 작업에 많이 사 용되는 Unet(Ronneberger et al., 2015) 모델을 1차원 구조로 변형한 모델을 사용한다. 효과적인 이상 증상 학 습을 위해 일부 지역의 125개 측정소를 대상으로 학습을 진행하고, 전이 학습(Transfer learning) 기법을 통해 전국 600개소 이상의 측정소에 적용하여 결과를 도출하였다.
본 논문은 2장에서 자동차 배출가스와 관련된 시계열 데이터에서의 이상 탐지 사례를 통해 기존 알고리즘 과 그 한계를 분석하고, 3장에서 이상 데이터 검출을 위한 심층신경망 모델 및 알고리즘을 제안한다. 4장에 서는 제안한 기법의 결과를 분석하고, 5장에서는 결론 및 향후 연구 방향을 논의한다.
Ⅱ. 관련 연구
대기오염물질 데이터와 같은 시계열 데이터에는 측정 기기 이상, 점검 및 주변 환경의 변화 등의 여러 요 인으로 인해 데이터 통계의 신뢰성을 해치는 이상 데이터가 발생할 수 있으며, 이러한 이상 데이터를 탐지 및 처리하기 위한 연구들이 진행되어 왔다.
1. 교통 관련 대기오염물질에 대한 연구
교통 관련 대기 오염(traffic-related air pollution)은 도시 환경에서 중요한 문제로, 특히 초미세먼지와 블랙 카본(BC)이 주요 관심사이다. (Wang et al., 2020)은 초미세먼지와 블랙 카본 농도를 예측하는 머신러닝 모델 을 연구하였으며 (Jin and Jin, 2021)는 서울시의 교통체증이 미세먼지 농도에 미치는 영향을 빅데이터를 활 용하여 분석하였으며 교통체증이 미세먼지 농도에 유의미한 영향을 미치며, 교통량이 많은 지역에서 그 영 향이 더 뚜렷하게 나타남을 보였다.
대기오염물질 데이터 또한 시계열 특성을 보이며, 다음 내용에서는 이러한 시계열 데이터의 이상 탐지에 관련한 연구 사례를 다룬다.
2. 시계열 데이터 이상 탐지
시계열 데이터에서의 이상치 탐지는 데이터의 일관성과 신뢰성을 보장하기 위해 필수적이다. 이러한 이상치 탐지 방법론은 주로 패턴 인식, 기계 학습, 통계적 방법론을 기반으로 하며, 각각의 방법은 특정 유형의 이상치나 환경에 적합하도록 설계된다. 복잡한 시계열 데이터에서 비선형적 패턴을 탐지하는 데 강점을 가진 K-nearest neighbors (KNN)나 Support Vector Machines (SVM) (Hearst et al., 1998) 같은 전통적인 기계 학습 방법론들은 정상 패턴을 학습한 모델을 통해 이상치를 탐지한다. (Zhang et al., 2020)은 LSTM(Hochreiter, 1997)과 EWMA(지수 가중 이동 평균)를 결합한 모델을 제안하여, 전통적인 방법들에 비해 높은 탐지율과 낮은 오탐률을 보여주었다. (Guo et al., 2020)은 이러한 전통적인 방법론의 한계를 극복하기 위해 CNN과 LSTM을 결합한 모델을 제안하였으 며, Squeeze-and-Excitation 기법을 적용하여 시계열 데이터의 공간적 및 시간적 정보를 효과적으로 모델링하였다 (Brahmam and Gopikrishnan, 2023)은 실내 대기질 데이터를 대상으로 LSTM과 Autoencoder를 결합한 모델을 사용 하여, CO2 농도에서 발생하는 이상치를 높은 정확도로 탐지하였다. (Park et al., 2023)은 실내뿐만 아니라 다양한 산업 환경에서도 적용 가능한 이상치 탐지 프레임워크를 제안하였으며, 이 프레임워크는 LSTM Autoencoder와 앙상블 방법을 결합하여 데이터의 노이즈와 이상치를 효과적으로 필터링하는 방식으로 동작한다.
최근에는 Transformer (Vaswani, 2017) 기반의 모델들이 시계열 이상치 탐지에서 주목받고 있다. TimesNet (Wu et al., 2022)은 시계열 데이터의 복잡한 패턴을 학습하고 이상치를 탐지하는 데 뛰어난 성능을 보인다. 해당 모델은 시계열 데이터에서 다양한 특성을 추출하고, 긴 시퀀스에 걸쳐 발생하는 이상치 탐지에 강점을 가진다.또한, FedFormer (Zhou et al., 2022)는 시계열 데이터의 효율적인 학습을 위한 연합 학습(Federated Learning)을 사용한다. 해당 방법론은 여러 데이터 소스에서 수집된 시계열 데이터를 통합하여 이상치를 탐 지하는데 유용하다. AutoFormer (Chen et al., 2021)은 Transformer 기반의 또 다른 시계열 이상치 탐지 모델로, Auto-Correlation 기법을 활용하여 시계열 데이터 내에서 반복되는 패턴과 이상치를 자동으로 학습하고 탐지 한다.
위 방법들은 이상 데이터를 검출하기 위한 ‘이상 증상’을 ‘기존의 데이터 패턴과 매우 상이한 데이터 패 턴’으로 정의하고 이상 데이터 검출을 진행하고 있다. 하지만 본 논문에서 다루고 있는 ‘베이스라인 이상’ 증 상의 경우 데이터의 ‘베이스라인’이 이전 및 이후 추세에 비해 높아지거나 낮아지는 현상을 말하며 데이터 패턴 자체는 기존의 패턴과 크게 다르지 않을 수도 있고 또한 이러한 현상은 기우, 황사 등과 같은 환경적인 변화에 의해서도 나타날 수 있어 위 방법들을 적용하기에는 부적절하다.
Ⅲ. 연구 내용
본 연구에서는 대기오염물질 데이터의 베이스라인 이상 탐지를 위하여 Unet 기반의 딥러닝 모델과 변화점 탐지, 동적 시간 워핑 알고리즘을 복합적으로 사용하여 자연적인 환경 변화에 의한 패턴 변화와 베이스라인 이상 증상을 구분하여 검출 가능한 알고리즘을 제안하고자 한다. 본 장에서는 검출 방법에 대한 자세한 내용 을 제시한다.
1. 기존 데이터 이상 검출 프로세스
<Fig. 1>은 대기오염측정망의 데이터 수집 이후 이상 데이터 정제를 통한 자료 선별 및 확정 과정을 나타 낸다. 각지의 측정소에서는 1시간 단위로 데이터를 수집하며, 각 지역 측정소 담당자가 기기 오작동, 점검, 타 오염물질간의 관계 및 측정소 주변 상황 등을 면밀히 조사하여 이상 데이터를 1차적으로 선별한다. 이후 각 측정소의 데이터를 취합하여 국립환경과학원의 전문 인력에 의해 특정 단일 시점에서 지나치게 높거나 낮은 값이 측정되는 이상 현상 (급격한 변화), 동일한 값이 일정 시간 이상 연속되어 측정되는 이상현상(동일 값 지속), 데이터의 평균, 진폭 등을 통해서 정해지는 기준선이 갑자기 평상시와 다른 패턴을 보이는 이상 현 상 (베이스라인 이상) 등을 선별하는 2차 선별 및 최종 데이터 확정 과정이 진행되며, ‘베이스라인 이상’에 대한 판정은 이 단계에서 이루어진다. 본 연구에서는 이러한 과정을 제안하는 알고리즘을 통해 대체하여 인 력 손실을 최소화함과 동시에 대기오염물질 데이터의 신뢰성을 높이고자 한다.
2. 학습 데이터 개요
본 연구는 국립환경과학원을 통해 제공받은 전국 측정소의 대기오염물질 데이터를 기반으로 진행되었다. <Table 1>은 대기오염물질 데이터의 전체적인 개요를 나타낸다. <Table 1>의 Elements 항목은 각 측정소에서 측정되는 8개 대기오염물질 성분을 나타내며, 이외 항목은 각 성분 별로 결측 및 베이스라인 이상의 비율을 나타낸다.
<Table 1>
Elements | Rate of missing data | Rate of abnormal data (abnormal baseline) | Measurement Period of data |
---|---|---|---|
SO2 | 1.64% | 0.66% | ’21.01 ~’21.12 (Total 8760 hours) |
NO2 | 2.19% | 0.84% | |
NO | 2.20% | 0.82% | |
NOx | 2.19% | 0.82% | |
PM10 | 2.60% | 0.05% | |
PM25 | 3.58% | 0.05% | |
O3 | 1.50% | 0.70% | |
CO | 1.96% | 0.84% |
<Table 1>을 통해 확인할 수 있듯이, 각각 미세먼지, 초미세먼지에 해당하는 PM10과 PM25은 베이스라인 이상이 나타나는 비율이 매우 낮으므로 이후 내용에선 제외하며, 질소산화물에 해당하는 NO2,NO,NOx는 대부분 이상 및 결측이 동시에 발생하므로 이후 내용에선 NO 로 통일하여 표현한다.
본 연구에서 검출하고자 하는 베이스라인 이상은 데이터의 평균, 진폭 등을 통해 정해지는 기준선(베이스 라인)이 비정상적으로 나타나는 현상을 나타내며, <Fig. 2>는 베이스라인 이상의 예시를 나타내며, 붉은색 음 영 부분이 이상 부분을 뜻한다. <Fig. 2>의 예시를 통해 알 수 있듯이 베이스라인 이상 현상은 데이터의 단 기적인 패턴은 그대로 유지되면서 비정상적인 베이스라인을 나타내는 것이 주요 특징이다.
앞선 내용과 같이 자연적인 변화에 의해서도 베이스라인 이상과 유사한 데이터 패턴 변화가 나타날 수 있 으며, 이를 구분하기 위해 본 연구에서는 서로 인근에 위치한 측정소들의 데이터를 활용하였다.
<Fig. 3>의 그래프는 타겟 측정소(main)와 인근 두 측정소의 데이터를 그래프로 표현한 것으로, 지리적으 로 가까이 위치한 측정소들은 대부분 유사한 데이터 패턴을 가지며, 해당 지역에서 발생한 환경 변화에 공통 적으로 영향을 받기 때문에 <Fig. 3>의 그래프와 같이 특정 측정소에서만 베이스라인 변화가 나타날 경우 이 를 베이스라인 이상 증상으로 간주할 수 있다.
3. 제안하는 모델
본 연구에서는 <Fig. 4>와 같이 대기오염물질 데이터를 효과적으로 분석하고 이상 구간을 탐지하기 위한 검출 프로세스를 구성하였다. 먼저, 측정망 데이터를 전처리한 후, 정해진 윈도우 크기만큼 데이터를 분리하 여 심층신경망 모델인 Unet의 입력으로 사용한다. Unet은 대기오염물질 데이터의 베이스라인에서 발생하는 이상 변화 구간을 탐지한다. Unet 모델로 탐지된 이상 구간은 변화점 탐지(CPD) 모듈을 통해 구간별로 분리 된다. 이 모듈은 데이터 패턴의 변화를 감지하여 변화가 나타난 것으로 의심되는 지점을 기준으로 데이터의 구간을 분리한다. 이후, 동적 시간 워핑(DTW) 알고리즘을 적용하여 탐지된 구간이 자연 환경 변화로 인해 발생한 것인지, 실제 이상 데이터인지를 구별한다.
1) 1D-Unet
<Fig. 5>는 제안하는 딥러닝 모델의 구성도로써, 이미지 분할 작업에 주로 사용되는 Unet 모델을 기반으로 구성하였다. 이미지 분할 모델인 Unet 모델을 시계열 데이터의 구간 탐지에 사용하기 위하여 2차원 합성곱 필터를 1차원으로 변경하였으며, 효과적인 이상 증상 학습을 위해 학습 데이터를 다양한 이상 증상이 나타 난 경북, 서울, 충북 지역 중 125개 측정소의 측정값으로 구성하였다.
2) 동적 시간 워핑(DTW, Dynamic Time Warping)
동적 시간 워핑은 시계열 데이터 관련 분석에 있어서 데이터 패턴이 유사하지만 시간축이 다른 두 시계열 데이터의 유사성을 측정하기 위한 알고리즘이다. 대상 측정소와 인근 측정소의 데이터를 비교함에 있어 두 데이터는 유사한 패턴을 보이지만 지리적 위치 차이 때문에 시간축이 다르게 나타나는 경향이 있으며, 따라 서 <Fig. 6> 와 같이 단순히 동일 시간축 간의 차이를 비교하는 유클리드 거리(Euclidean distance) 측정 방식 보다 동적 시간 워핑을 통한 비교 방식이 효과적으로 작용하였다.
베이스라인 이상 구간은 길게는 1~2개월 이상의 길이로도 나타날 수 있으며, 이 경우 1시간 단위로 측정 되는 대기오염물질 데이터의 특성 상 구간의 길이가 1400시간 이상으로도 나타나게 된다. 이렇게 긴 길이를 가지는 시계열 시퀀스의 보다 빠른 동적 비교를 위하여 본 논문에서는 동적 시간 워핑(DTW)의 계산 복잡성 을 줄이기 위해 제안된 fastDTW 알고리즘을 적용하였다.
<Fig. 7>은 fastDTW 동작 과정을 나타낸다. FastDTW의 주요 아이디어는 두 입력 시퀀스 X 와 Y 의 길이를 줄이기 위한 코어시닝(Coarsening) 단계를 거치는 것으로써, 이는 샘플링 팩터 s 를 사용하여 다운샘플링을 수 행하는 단계를 의미한다.
DTW 스코어를 구하는 과정은 다음과 같이 진행되며, 축소된 X′과 Y′에 대하여 DTW를 계산하며, 계산된 축소된 경로를 인접 요소를 고려하여 다시 확장하고, 확장된 경로 P 에 대하여 최종적인 DTW 스코어를 계산 하는 과정을 거친다.
3) 변화점 탐지(CPD, Change Point Detection)
동적 시간 워핑을 통해 시간축이 다른 두 측정소 데이터의 유사도를 측정할 수 있으며, 수행시간을 줄이 기 위해 fastDTW를 적용하였지만 데이터의 전체 기간에 적용은 여전히 제한된다. 따라서 베이스라인 이상이 의심되는 특정 구간만을 산출하여 유사도를 측정할 필요가 있다. 본 연구에서는 변화점 탐지 알고리즘을 통 해 데이터 패턴 변화 구간을 산정하고, 이 중 베이스라인 이상 의심 구간의 유사도를 동적 시간 워핑을 통해 산출하여 이상 여부를 판정하였다. <Fig. 8>은 실제 대기오염물질 데이터에 대한 변화점 탐지 적용 결과를, <Fig. 9>은 본 연구에서 적용된 변화점 탐지 알고리즘의 동작 과정을 나타낸다.
4) 모델 학습 방식
<Table 1>에서 확인할 수 있듯이 ‘베이스라인 이상’ 증상에 해당하는 데이터는 전체 데이터 중 매우 적은 비율을 나타낸다. 따라서 본 연구에서는 탐지 모델이 효과적으로 이상 증상을 학습할 수 있도록 국립환경과 학원의 자문을 받아 수도권 및 기타 지역의 측정소 125개소를 선별하여 학습용 데이터셋을 구축하였다.
또한 특정 지역 데이터를 통해 학습한 모델을 전국 지역 측정소에 적용하기 위하여 해당 지역 데이터를 사용하여 추가 학습을 진행하는 전이 학습(Transfer Learning) 기법을 통해 학습을 진행하였다.
<Fig. 10>은 이러한 전이 학습을 통한 전국 측정소 적용 과정을 나타내며, 우선 학습을 위해 선별된 125개 측정소의 데이터를 통해 Initial model의 학습을 진행한다. 이후 학습된 모델을 전국 데이터에 적용하기 위하 여 각 지역마다 해당 지역의 데이터를 통해 Initial model의 추가 학습을 진행하며, 이를 통해 이상 패턴과 각 지역의 데이터의 특성을 모두 반영한 모델을 구축한다. 이후 동적 시간 와핑 및 변화점 탐지 모듈을 통해 모 델의 탐지 결과를 보조하게 된다.
Ⅳ. 실험 결과
본 논문에서 제안한 모델 및 알고리즘의 검증을 위하여 학습에 사용된 측정소를 제외한 측정소 중 52개소 를 선별하여 테스트를 진행하였다.
1. 평가방식
일반적으로 이상 탐지 또는 이미지 분할 모델에 대한 성능평가를 진행할 경우, 모델이 비정상 영역을 얼 마만큼 완벽하게 맞췄는지 비율을 평가지표로 사용한다. 하지만 본 연구에서는 이러한 실제 이상 구간과 탐 지 구간의 일치율보다 얼마나 많은 이상 구간을 이상으로써 판정하였는지에 대한 결과가 더 중요하다고 판 단되어 각 이상 구간에 대한 탐지 여부를 통해 성능 평가를 진행하였으며, 이상 구간의 70% 이상을 이상으 로 판정할 경우 해당 이상 구간을 탐지한 것으로 간주하였다.
또한 학습에 사용된 지역을 제외한 540여개 측정소 중 다양한 이상 패턴을 포함할 수 있도록 52개소 측정 소를 선별하여 테스트용 데이터셋을 구축하였다.
2. 모델 적용 결과
<Table 2>는 테스트 데이터에 해당하는 52개소 측정소에 대한 Unet 모델만을 사용한 결과와, 제안하는 알 고리즘의 적용 결과에 대한 정밀도, 재현율, F1-score를 나타낸다.
<Table 2>
Item | Model | Precision(%) | Recall(%) | F1-score(%) |
---|---|---|---|---|
SO2 | Only-Unet | 33.3 | 90.0 | 48.7 |
Ours | 69.2 | 90.0 | 78.3 | |
NO | Only-Unet | 5.2 | 50.0 | 9.4 |
Ours | 40.0 | 100.0 | 57.1 | |
O3 | Only-Unet | 9.5 | 50.0 | 16.1 |
Ours | 16.6 | 50.0 | 25.1 | |
CO | Only-Unet | 27.1 | 86.6 | 41.5 |
Ours | 46.6 | 93.3 | 62.5 |
환경과학원의 대기오염물질 데이터의 경우 데이터 신뢰성의 확보를 위하여 실제 이상 구간을 미판정하는 사례를 최소화하는 것이 매우 중요하며, 실제 이상 구간 중 알고리즘이 이상으로 판정한 구간의 비율에 해당 하는 재현율(Recall) 지수가 이러한 지표를 나타낸다. 본 연구에서는 Unet 모델 적용을 통해 이미 O3 원소를 제외한 테스트 데이터에서 모두 높은 재현율을 확보하였지만 많은 오탐지 수로 인해 정밀도 및 F1-score에선 현저히 낮은 수치를 보였으며, 제안하는 알고리즘을 통해 정밀도, 재현율, F1-score의 모든 지표에서 높은 개 선율을 보이는 데 성공하였다. 다만 O3원소에서는 다소 아쉬운 결과를 보였는데, 해당 원소의 경우 데이터 의 경향을 읽기 매우 어려운 데에 더해 베이스라인 이상 증상이 매우 경미하게 나타나 판정 난이도가 다른 원소들에 비해 매우 높은 것으로 판단된다.
<Fig. 11>과 <Fig. 12>는 실제 대기오염물질 데이터의 ‘베이스라인 이상’ 레이블과 검출 결과를 나타 낸다. 안강읍, 도안면, 율곡동의 사례에선 높은 일치율로 베이스라인 이상 구간을 탐지하였으나, 장흥동, 대 광동의 사례에선 각각 탐지에는 성공하였으나 레이블과 예측값의 결과 범위가 다소 오차가 존재한다. 이러 한 오차는 장흥동의 경우 학습 시 적용된 Time-window에 비해 레이블의 길이가 너무 길어 발생한 오차로 보 이며, 대광동의 경우는 레이블 구간 이전에 베이스라인이 비정상적으로 낮아지는 구간이 존재하나 모델이 참고하기 어려운 복합적인 이유로 인해 비 이상으로 처리된 것으로 보인다.
Ⅴ. 결 론
본 논문에서는 전국의 대기오염측정망 데이터로부터 ‘베이스라인 이상’ 증상을 검출하기 위한 연구를 진 행하였다. 대기오염측정망 데이터 중 일부 성분은 자동차의 통행량, 배기가스 배출량 변화와 밀접한 상관관 계를 보이며 이를 통해 자동차의 통행량 변화를 유추할 수도 있고 배기가스 배출량을 줄이기 위한 정책의 적용 결과를 분석할 수도 있다. 이러한 분석을 위해선 대기오염물질 데이터의 신뢰성 확보가 필수적이다.
대기오염물질 데이터의 이상 증상 중에는 단순 수식을 통해 검출해낼 수 있는 증상도 있지만 그렇지 않은 증상도 존재한다. 이 중에서도 ‘베이스라인 이상’은 단기적인 데이터 패턴은 변하지 않고 베이스라인만 변화 한다는 점에서 계적인 방법으로는 판정이 어렵고, 또한 기후 변화와 같은 환경 변화에 의한 현상과 구분하기 위하여 반드시 전문적인 지식을 가진 인력을 통해 판정하여야 하며, 이에 따라 비용적, 시간적 부담이 발생 한다. 따라서 본 연구에서는 이러한 부담을 경감시키기 위하여 딥러닝 기반의 이상 데이터 검출 시스템을 구 축하고자 하였다.
베이스라인 이상 증상은 데이터 자체의 패턴만 참고할 시 주변 환경 변화에 의한 현상과 구분이 어려울 수 있다. 본 연구에서는 이러한 환경 변화가 발생할 경우 인근 측정소의 측정값 또한 영향을 받는다는 점에 착안하여 베이스라인 이상의 의심되는 구간에 대하여 변화점 탐지와 동적 시간 와핑 기법을 복합적으로 사 용하여 인근 측정소의 측정값과 유사도를 측정하여 실제 이상 여부를 판별하였으며, 효과적으로 의심 구간 중 베이스라인 이상이 아닌 구간들을 걸러내고 탐지율 또한 일부 높일 수 있었다.