Ⅰ. 서 론
최근 다양한 모빌리티 서비스에 대한 관심이 증가하고 이를 위한 다양한 방법론이 개발됨에 따라 빅데이 터를 통한 교통 빅데이터 분석에 대한 요구가 꾸준히 증가하고 있다. 기존의 교통 빅데이터 연구는 대용량 데이터의 분산 저장 및 압축에 관한 연구와 데이터를 분석하고 유의미한 결과를 도출하는 방법론에 관한 연 구로 구분되어 진행되고 있다. 첫 번째로, 대용량 데이터 분산 저장 및 압축에 관한 연구는 대용량 데이터의 안정적 처리를 위하여 하둡(Hadoop) 등을 기반으로 하는 병렬 분산 처리 시스템 개발을 중심으로 하며, 현재 국내의 지능형 교통 시스템 또한 데이터 처리에 이를 활용하고 있다. 하지만 분산 저장 및 처리 시스템을 활 발히 활용하는 것과는 달리, 대용량의 데이터를 효과적으로 저장하는 방법에 관한 연구는 부족한 편이다. 현 재의 하둡 기반 저장 시스템은 원데이터(Raw data)를 저장하고 활용하고 있어, 한정된 데이터 저장 공간으로 인하여 일정 시간이 지난 데이터를 삭제하고 있다. 그러나 데이터의 많은 축적량이 필요한 연구에서 활용하 기에 한계가 있고 데이터의 저장 용량을 탄력적으로 조정하기 힘든 현실을 고려할 때, 대용량의 데이터를 효 과적으로 압축하고 저장할 수 있는 방법론의 개발이 필요하다. 현재 교통 이외의 분야에서 그래프 이론 등을 기반으로 데이터 압축 및 복원에 관한 연구가 활발히 진행되고 있지만, 기존의 방법론은 교통 데이터의 주요 특성을 보존하지 못하는 한계가 존재한다.
두 번째로, 현재 교통 빅데이터 분석에 관한 연구는 하둡 환경에서 데이터의 클러스터링 및 기초 통계 데 이터 추출에 집중되어있다. 하지만 데이터를 기반으로 한 정책 개발 및 모빌리티 서비스 제공을 위한 수요가 증가함에 따라 모빌리티 분석을 위한 다양한 분석 기법이 요구되고 있다. 특히, 스마트카드, 택시 승하차 데 이터 등의 기종점 데이터는 대중교통, 준대중교통 수단 등 모빌리티 분석의 토대가 되고 있다. 하지만 현재 이러한 데이터의 활용은 시간대별, 정류장별 승객 수 등의 기초 통계 데이터의 분석에 제한되고 기존의 대중 교통 운영 지수를 그대로 활용하고 있어, 새로운 모빌리티 데이터를 위한 분석 방법론이 요구된다.
따라서 본 연구는 대용량 모빌리티 기종점 데이터의 효과적인 압축 및 분석을 위한 방법론의 개발에 초점 을 맞추었다. 이를 위하여 크게 압축과 분석의 2가지 관점에서 연구를 진행하였다. 첫 번째는 모빌리티 기종 점 데이터에 포함된 무작위(Random) 성향이 높은 데이터로부터 주요 패턴을 도출하기 위해 주성분분석 (Principal Component Analysis) 기반의 데이터 압축 및 복원에 관한 연구를 수행하였다. 기종점 데이터의 주요 한 수요 패턴은 큰 크기를 갖는 소수의 수요와 작은 크기를 갖는 그룹화된 다수의 수요로 구분될 수 있다. 큰 크기를 갖는 소수의 수요는 기종점 데이터에서 필터링을 통하여 쉽게 추출이 가능하지만 작은 크기를 갖 는 그룹화된 다수의 수요에는 무작위 성향이 수요가 섞여 있어 주요 패턴의 추출이 어려운 현실이다. 이러한 한계를 극복하기 위하여 본 연구에서는 큰 크기를 갖는 소수의 수요와 작은 크기를 갖는 그룹화된 다수의 수요를 효과적으로 추출하고 이를 통하여 무작위 성향이 높은 기종점 데이터를 제거하는 방법론을 제시하였 다. 두 번째는 주성분분석이 모빌리티 기종점 데이터 압축과 복원에서 가지는 물리적 의미를 해석하고 이를 기반으로 압축과 복원에 활용되는 주성분추출에 활용되는 특이값의 범위를 추출하였다. 이를 위하여 주성분 분석을 통하여 분해된 기종점 데이터와 원데이터를 비교하였으며, 이를 통해 압축률과 복원율을 높일 수 있 는 주성분 범위를 제안하는 연구를 수행하였다.
본 연구에서는 기종점 데이터의 분석을 위하여 서울시와 세종시의 스마트 카드 데이터를 활용하였으며, 본 논문의 세부 구성은 다음과 같다. 2장에서는 교통 빅데이터 분석과 주성분분석 기반 빅데이터의 압축과 분석에 관한 기존 문헌을 고찰하였고, 3장에서는 주성분분석 기반 스마트 카드 기종점 데이터의 압축·복원 및 분석 기법을 소개하였다. 4장에서는 서울시와 세종시의 사례분석을 통해 제안 방법의 효과성과 비교 분 석하고 검증하였다. 5장에서 제안 기법의 확장성 및 모빌리티 빅데이터 활용처에 대한 논의와 결론을 제시 하였다.
Ⅱ. 선행 연구
교통 수요 분석은 미래의 통행량을 예측하여 적정 수준의 교통 시설을 확충하기 위한 교통 계획의 첫 단 계이다. 특히 교통 수요의 기종점 데이터는 통행량을 출발지-도착지 쌍의 2차원 형식으로 표현하여 통행 패 턴을 효과적으로 나타낼 수 있기 때문에, 신뢰도 높은 기종점 데이터의 취득 및 분석은 교통 수요 분야에서 매우 중요하다. 기종점 데이터의 분포를 예측하기 위해 기존에는 중력모형, 성장인자모형 (Ryu and Chung, 2013) 등이 사용되었지만, 이러한 확률 기반의 모델은 기반 데이터가 부족한 초기의 도시 및 도로 계획에는 효과적으로 적용될 수 있지만, 모델에 활용되는 강한 가정과 입력 변수의 정확도에 따라 결과값의 정확성이 변화가 크다는 한계를 가지고 있다. 이를 보완하기 위해서 4~5년 주기로 통행에 대한 설문조사를 시행하고 그에 대한 표본 분석을 통해 기종점 데이터를 추정하고 있다. 그러나 이러한 방식은 데이터 수집에 매우 높 은 비용이 소모되고, 다양한 표본으로부터의 거시적 데이터를 추출하기에 일별, 시간대 등에 따라 다변화하 는 교통 수요를 분석하고 해결책을 제시하기에는 한계를 가지고 있다 (Kim, 2007).
최근에는 데이터 마이닝과 빅데이터 처리 기술 등을 결합해 다양한 종류의 교통 빅데이터를 교통 수요 분 석에 활용하고자 하는 시도들이 이루어 지고 있으며 특히, 도로 이용자의 내비게이션 데이터 (Kim et al., 2019), 블루투스 데이터 (Barcelö et al., 2010) 또는 개인 스마트폰의 GPS 데이터 (Diao et al., 2016;Calabrese et al., 2013) 등이 대표적으로 사용되고 있다. 이 중 특히 스마트카드 데이터는 자동화된 결재 수단에 대한 사용이 증가함에 따라 비교적 낮은 비용으로 대중교통 이용자의 높은 비율에 대한 통행 정보를 실시간/비실 시간으로 취득할 수 있어 최근 그 활용도가 매우 높아지고 있다. 스마트카드는 1990년대 후반 워싱턴과 도쿄 등 주요 대도시에서 요금 징수를 위한 수단으로 개발되어 현재에는 대부분의 주요 도시에서 활용되고 있다 (Munizaga and Palma, 2011). 국내에서도 스마트카드의 활용도가 매우 높은 것으로 평가되고 있는데, 실제로 Kim (2015)에 따르면 스마트카드 데이터는 국내 대중교통 이용자의 95% 수준의 정보를 제공하므로, 대중교 통 수송 분담률이 높은 도시 지역의 수요 분석에 매우 효과적이다.
스마트카드 데이터를 교통 수요 분석에 활용한 다양한 사례는 아래의 <Table 1>과 같이 요약된다. 먼저 Kumar et al.(2019)는 집계된 승하차 승객 수를 통해 단방향 노선에 대한 기종점 데이터를 추정하는 방법을 제시하였다. 그러나 현재와 같이 승객별 승하차 정보를 통해 정류장 수준 (station-level)의 기종점 데이터가 취득 가능해짐에 따라, 최근에는 스마트카드 데이터를 활용한 통행 패턴 분석에 대한 연구들이 제시되고 있 다. 예를 들어, Ha and Lee(2016)는 2011년 3월 한 주 분량의 스마트카드 데이터를 활용해 통근 패턴 및 통근 네트워크의 구조를 분석하였으며, 가구통행 조사자료와의 비교를 통해 일관성을 확인하였다. 또한 Lee et al.(2018)는 강화군에서 수집된 한 주 분량의 스마트카드 데이터를 활용해 강화군의 통행량 패턴을 분석하였 고, 주요 승하차 지역 및 영향 요인을 회귀분석 하였다. 그러나 정류장 수준 (station-level)의 기종점 정보만을 제공하는 스마트카드 데이터의 한계를 극복하기 위하여, 최근에는 개별 승객의 위치 정보, 통신 정보 등을 스마트카드 데이터와 융합하여 이동 패턴을 분석하는 연구도 제시되었다. Munizaga and Palma(2011)는 스마 트카드 데이터를 GPS 데이터와 매칭하여 얻은 통행 사슬 (trip chain)을 기반으로 기종점 데이터를 추정하였 다. Luo et al.(2017)은 k-평균 클러스터링을 통해 개인의 도보 이동 거리를 고려한 기종점 정보를 추출하였다. 또한 Yang et al.(2018)은 교통 카드 데이터의 개별 통행 정보를 시간에 따라 동적으로 시각화하는 기법을 개 발하여 미시적인 통행 특성을 분석하였다.
<Table 1>
Authors | Year | Data source | Level of Data analysis | Research objective |
---|---|---|---|---|
Kim et al. | 2019 | Navigation data of individual drivers | - | Traffic demand prediction using various sources of traffic big data |
Barcelö et al. | 2010 | Mobile phone Bluetooth data | RSU level | Estimation of time-dependent OD matrix for a single route of the freeway |
Diao et al. | 2016 | Mobile phone traces(GPSdata) | Individual location level | Individual activity detection |
Calabrese et al. | 2013 | Mobile phone traces (GPS data) | Individual location level | Individual activity detection |
Kumar et al. | 2019 | Automatic Passenger Count (APC) data | station level | Estimation of a single-route OD matrix using APC data |
Ha and Lee | 2016 | Smartcard data | station level | Analysis of the commuting patterns and the structure of commuting networks |
Lee et al. | 2018 | Smartcard data | station level | Analysis of the traveling demand pattern and Investigation of the factors for the traffic demands |
Munizaga and Palma | 2011 | Smartcard data & GPS data | individual location level | Estimation of OD matrix considering trip chains of the individual traffic demand |
Luo et al. | 2017 | Smartcard data | station level& Individual local level | Estimation of k-means-based OD matrix considering flow and spatial distance information of passengers |
Yang et al. | 2018 | Smartcard data | station level | Visualization oftime-dependent in dividual traveling pattern using smartcard data |
Djukic et al. | 2012 | Smartcard data | station level | Analysis of travel demand pattern using low-rank matrix accompanied by principal component analysis |
스마트카드 데이터는 조사적인 측면으로 보았을 때 기 설치된 결제 데이터를 활용함으로 인하여 비교적 낮은 비용으로 대중교통 이용자 거의 전수의 통행 정보를 비교적 높은 신뢰도로 교통 수요 분석에 활용할 수 있다는 측면에서 매우 효과적이다. 하지만, 스마트카드 빅데이터의 수집과 처리에 관해서는 다음의 두 가 지 한계점을 내포하고 있다. 먼저 기종점 데이터에서 많은 부분을 차지하는 작은 크기의 그룹화된 다수 수요 에 대한 처리의 문제이다. 기종점 데이터의 주요한 수요 패턴은 큰 크기를 갖는 소수의 수요와 작은 크기를 갖는 그룹화된 다수의 수요로 이루어져 있다. 큰 크기를 갖는 소수의 수요는 필터링 작업을 통하여 비교적 쉽게 추출될 수 있지만 작은 크기의 수요에는 그룹화된 다수의 수요와 무작위적인 수요의 혼재로 인하여 주 요 패턴을 추출하기에 어려움이 있다.
스마트카드 빅데이터 처리와 관련한 두 번째 문제는 데이터의 저장이다. 스마트 카드 데이터는 기존의 교 통 데이터가 수집장비 수(n)에 비례하여 데이터양이 증가(α·n)하는 것과는 다르게, 기종점 데이터는 수집지 점 수(n)의 증가에 따라 수집 데이터의 양이 기하급수적으로 증가(α·n2)하는 경향이 있다. 이로 인하여 기 존의 교통 데이터 보다 훨씬 많은 저장 공간을 요구하고 있으며 이로 인하여 원시 데이터를 기존의 관계형 분산 데이터에 저장하는 것은 활용성 측면과 저장 공간 측면에서 비효율적이라는 평가를 받고 있다. 이러한 문제점를 저장 시스템의 개선으로 해결하기 위하여 하둡 기반의 분산 저장 기법이나 (Maktoubian et al., 2017;Kim et al., 2017) 비관계형 분산 데이터 베이스 방식인 NoSQL (Damaiyanti et al., 2014)가 제안되었지 만, 여전히 장기간 데이터 (long-term data)의 저장 및 활용은 어려운 실정이다.
효과적인 스마트카드 빅데이터의 저장을 위하여 최근에는 기종점 데이터의 압축 방법론에 대한 연구들이 수행되고 있다. 데이터의 압축과 관련해 전통적으로는 WinRAR를 통한 방법과 (Li et al., 2014) Lempel-Ziv-Welch (LZW) 방법 등이 제시되었으나 (Xu et al., 2017), 통행 패턴 정보 등 교통 데이터의 주요 특성을 잃게 되는 한계가 지적되고 있다. 때문에 최근에는 주성분분 석을 통한 압축 방법들이 대안으로 제시 되고 있다 (Li et al., 2007;Asif et al., 2013;Asif et al., 2014;Feng et al., 2016;Feng et al., 2017). 주성분분석 은 낮은 차원의 행렬 데이터로 전체 데이터의 주요 특성을 표현할 수 있어 데이터의 압축뿐만 아니라 시공 간 교통 정보의 주요 패턴 추출 등에도 다양하게 활용되고 있다 (Li et al., 2007;Asif et al., 2013). 그러나 해 당 연구에서는 주성분 분석의 압축 및 복원 능력을 특정 지역의 특정 시간에만 국한되어 분석하여 주성분 분석을 스마트카드 데이터에 일반적으로 적용하기에는 결과 및 방법론이 제한적이다. 또한, 주성분 분석의 적용 가능성에 초점을 두고 있어 복원 전후의 단순 데이터 분석에 집중하여 진행하고 있어 주성분 분석이 주요 통행 특성을 내포하고 있는지 등의 연구가 부족하여 기종점 데이터의 적용에는 한계를 보이고 있다 (Mitrovic et al., 2015). 이에 대해 Djukic et al.(2012)는 주성분분석을 통해 얻어진 낮은 차원의 기종점 행렬 데 이터의 물리적 의미를 해석하고자 한 주간의 기종점 데이터를 각각 주성분의 크기에 따라 분류된 ① 구조적 패턴, ② 구조적 패턴의 편차, ③ 오차 항의 결합으로 표현하였다. 그러나 여전히 주성분 분석의 결과를 수요 에 크기를 기준으로 분류 및 분석하여 작은 크기의 수요가 그룹화된 다수 수요에 대한 분석을 못하고 있는 한계를 가지고 있다. 또한, 대규모 데이터에 대한 적용 가능성 보다는 케이스 중심의 분석으로 인하여 기종 점 데이터 분석에 주성분 분석을 일반화된 형태로 적용하기 위해서는 추가적인 연구가 필요하다.
Ⅲ. 활용 데이터
본 연구에서는 세종시와 서울시 스마트카드 데이터를 활용하며, 스마트카드 데이터는 대중교통 이용 날짜 및 시각, 승하차 정류장, 이용 노선 정보 등의 대중교통을 이용한 승객들의 이동 정보를 포함한다. 먼저 세종 시 스마트카드 데이터는 세종시가 기종점인 승객들의 이동 데이터를 포함한다. 본 연구에서는 그 중 정부세 종청사와 세종특별자치시청을 포함한 세종시 중심 지역 내 이동을 분석하였고 해당 범위는 <Fig. 1> (a)와 같다. 크기는 가로 7km, 세로 6km이며 해당 분석 지역에 있는 정류장은 336개이다. 2019년 6월부터 12월까 지의 세종시 데이터를 분석에 사용하였다.
서울시 스마트카드 데이터는 서울시가 기종점인 승객들의 이동 데이터를 포함한다. 그중 <Fig. 1>의 (b)의 신도림역 주변의 이동을 분석하였고 해당 범위는 신도림역을 중심으로 한 가로 3.2 km, 세로 3.5 km 크기이 고 이 지역에 있는 정류장은 291개이다. 세종시 분석 지역과 마찬가지로 허브가 포함되면서도 정류장 수와 유사한 지역으로 선정하였다. 2018년 1월부터 6월까지의 서울시 데이터를 분석에 사용하였다.
<Fig. 2>는 오전 및 오후 첨두 시간 및 오후 비첨두 시간대에 발생한 대중교통 이용 승객 수를 수단별로 나타낸 그래프이다. 세종시 분석 대상지에서 오전 오후 첨두 시간대에 대중교통을 이용한 총 승객수는 약 2,000여 명이며, 서울시 분석 대상지의 경우 약 15,000~20,000여 명이다. 세종시에서는 간선 및 지선 승객수 가 가장 많고, 마을버스 승객수가 가장 적다. 그에 비해 서울시에서는 마을버스 승객수가 가장 많고, 메트로 승객수가 가장 적다.
Ⅳ. 방법론
본 연구에서는 교통 수요 데이터의 압축 및 복원을 위한 방법론으로 주성분분석 기법을 활용한다. 주성분 분석을 스마트카드로부터 추출된 기종점 데이터에 적용할 경우, 주성분 크기의 범위에 따라서 주어진 통행 패턴 정보를 주요한 이동 패턴과 주요하지 않은 이동 패턴으로 분류할 수 있게 된다. 이 경우 주요하지 않은 이동 패턴 정보를 무작위로 발생하는 교통 수요 또는 오차로 해석할 수 있으므로, 낮은 차원의 근사 행렬은 주요 이동 패턴을 효과적으로 보여줄 수 있게 된다. <Fig. 3>은 본 연구의 방법론을 요약한다. 먼저, 분석 대 상 지역 및 기간에 해당하는 데이터를 기종점 단위로 취합하여 전처리한다. 이어 주성분분석을 활용한 데이 터 압축의 효과성을 분석하기 위해 복원에 사용되는 주성분 범위에 따른 압축률 및 복원율을 비교한다. 다음 으로 데이터의 주요 패턴이 포함된 주성분 구간을 찾기 위해 주성분 구간별로 복원데이터 간의 유사도를 산 출한다. 이후 두 결과를 종합하여 적정 주성분 범위를 제안한다.
1. 주성분분석 기반 빅데이터 압축 및 복원
세종시와 서울시 대중교통 기종점별 통행량은 <Fig. 4>와 같이 나타나며, 세종시의 경우 3 이하, 서울시의 경우 10 이하의 통행량을 갖는 기종점 수요가 각각 99.9%와 99.7%에 해당한다. 이와 반대로 세종시의 경우 10 이상, 서울시의 경우 100 이상의 통행량을 갖는 수요는 각각 0.01%와 0.02%에 해당한다. 이를 통해 세종 시와 서울시 모두 통행량이 적은 기종점 수요가 높은 비중을 차지하는 것을 알 수 있다. 또한, 이러한 기종 점 수요 중 개별적으로는 무작위 성향을 보이지만 주변 이동 수요와 그룹화되면서 주요 패턴을 형성할 수 있으므로 단순히 통행량이 적은 기종점 수요를 삭제하는 압축 방식은 기종점 데이터에 적합하지 않다. 그러 나 원데이터를 모두 저장하기에는 기종점 데이터 크기가 방대하므로 무작위 성향의 수요를 삭제하면서 데이 터의 크기를 줄일 수 있는 방법론이 필요하다.
세종시와 서울시에서 발생한 대중교통 기종점 데이터에서 수요 크기와 발생 빈도 간의 상관관계는 <Fig. 5>에서 나타낸다. 세종시와 서울시 기종점 수요 데이터를 모두 양대수 그래프 (log-log graph)로 분석하여 두 지역의 수요 경향성 차이를 비교한다. 먼저 세종시의 경우 양대수 그래프 기울기가 오전 첨두 시간과 오후 첨두 시간 각각 –2.219, -2.562로 수요의 분포 패턴이 전반적으로 작은 크기 수요에 집중되는 경향성을 보인 다. 서울시는 같은 경우 양대수 그래프 기울기가 –1.746, -1.651로 세종시에 비해 비교적 큰 크기의 수요가 자주 발생하는 것으로 분석되지만, 전반적으로는 세종시와 유사한 경향성을 보인다. 이렇듯 지역별로 정도의 차이는 존재하지만 작은 크기의 수요가 전체 이동 패턴 중 하나의 경향을 차지한다. 이런 경우 단순히 큰 크 기의 기종점 네트워크만을 기반으로 패턴을 분석할 경우 기종점 네트워크 전반의 흐름을 놓칠 수 있기에, 다 양한 수요들이 그룹화되어 만들어지는 이동 패턴과 이에 속한 크기는 적지만 주요한 흐름을 구성하는 수요 를 분별할 필요가 있다. 이에 기종점 데이터를 분석할 때 크기에 구애받지 않고 기종점 데이터의 패턴을 분 석할 수 있는 방법론의 개발이 필요하다.
이에 본 연구에서는 특이값 분해 (Singular Value Decomposition, SVD)를 활용한 주성분분석을 통해 교통 수요 데이터를 분석하는 방법을 제시한다. 특이값 분해는 주성분분석을 위한 방법론 중 하나로, 임의의 데이 터에 대해서도 항상 강건하게 (robust) 적용할 수 있다는 장점이 있어 현재까지도 다양한 분야에서 꾸준히 활 용되고 있다.
크기 m × n (일반성을 잃지 않고, m ≥ n이라 가정)인 임의의 행렬 데이터 A 에 대해 특이값 분해를 통 해 적용하여 (1)과 같은 식을 얻었다고 가정할 때,
크기 순으로 나열된 대각행렬 Σ 의 대각선 성분 을 주성분이라 하며, Σ 의 0이 아닌 성분 중 r (r ≤ n)개의 주성분만을 택해 끝을 잘라낸 행렬을 Σ- 이라 하면 (2)와 같은 근사를 얻을 수 있다.
여기에서 U- , V- 는 끝을 잘라낸 행렬 Σ- 와 차원이 일치되도록 각각 U , V 에서 잘라낸 행렬을 의미 한다. 그러면 이를 통해 얻어진 행렬 A- 는 계수 r의 낮은 차원 행렬 (low-rank matrix)로 원데이터 A 를 일 정 범위 오차에서 근사 표현할 수 있다. 이 경우 원데이터 A 보다 낮은 용량으로 원데이터의 분포를 근사적 으로 표현할 수 있게 되므로, 특이값 분해는 데이터 압축에 효과적으로 적용될 수 있다. 이러한 장점으로 인 해 주성분분석 기법은 교통 데이터 분석에 자주 활용되었지만, 분석 데이터를 주요 패턴과 노이즈로 분류하 는 기준을 명확하게 제시하지 못하거나, 분석된 주성분의 물리적 의미를 해석하기 어렵다는 한계가 지적되 어 왔다. 따라서 본 연구에서는 이러한 한계를 극복하기 위해, 서울시와 세종시의 스마트카드 데이터에 대한 주성분분석을 수행하여 주요 이동 패턴을 분석하고 이에 대한 물리적 의미를 추출한다.
2. 복원데이터의 유사도 산출을 통한 주성분분석
본 연구에서는 주성분분석을 기종점 데이터 압축 및 복원에 활용할 시에 원 기종점 데이터의 주요 패턴을 보존하기 위한 특이값 구간을 산출한다. 이를 위해 기종점 데이터를 다양한 범위의 특이값들로 복원하고, 일 별로 복원데이터 간 유사도를 분석한다. 높은 일별 데이터 유사도는 높은 규칙성을 뜻하며, 복원데이터의 일 별 유사도를 높이는 특이값들은 규칙적인 수요를 생성하는 주성분으로 분류할 수 있다. 본 연구에서는 상관 계수로 일별 데이터 간 유사도를 측정한다. 상관 계수는 두 변수 간의 통계적인 관계를 표현하며 -1과 1 사 이의 값을 가진다. 상관 계수가 양수이면 두 변수 간에 공통 요인이 많고 공변 관계가 높다는 것을 뜻하고, 1에 가까워질수록 하나의 변수를 통해 다른 하나를 보다 정확하게 예측할 수 있다. 상관 계수가 0에 가까울 수록 두 변수의 상관 관계를 판정하기 어렵다는 것을 의미한다. 마지막으로 상관 계수가 음수이면 하나의 변 수가 증가할 때 다른 변수는 감소하는 역상관 관계임을 의미한다.
아래 <Fig. 6>는 본 연구의 주성분분석 방법론을 설명한다. 을 i 번째 범위의 특이값으로 복원한 l번째 수요로 정의할 때, i 번째 범위의 특이값으로 복원한 수요들 간 상관 계수 벡터를 로 표현한다. 이 때 모든 상관 계수는 첫 번째 날짜 수요들을 기준으로 구해 ri,1 은 첫 번째 날짜와 두 번째 날짜 수요 간의 상관 계수를, ri,l는 첫 번째 날짜와 l + 1 번 째 날짜 수요 간의 상관 계수를 의미한다.
복원된 수요 데이터 간의 상관 계수 분포의 통계분석을 통해 각 범위의 특이값들이 내포하는 수요의 의미 를 해석한다. 상관 계수의 분포가 1에 가까울수록 일별 데이터 유사도가 높다는 것을 의미하고, 이는 해당 범위의 특이값이 규칙성이 높은 수요를 구성하는 것을 의미한다. 또한, 상관 계수 분포의 분산이 작을수록 일별 유사도가 평균값에서 크게 벗어나지 않음을 의미한다. 예를 들어 상관 계수의 평균이 1에 가까운 경우 분산이 작을수록 해당 범위의 특이값이 보다 규칙적인 수요를 구성하는 것을 의미하고, 상관 계수의 평균이 0에 가까운 경우 분산이 작을수록 꾸준히 불규칙한 수요를 구성하는 것을 의미한다.
Ⅴ. 분석결과
<Fig. 7>은 특이값분해를 이용한 데이터 압축 시 데이터의 용량 변화와 데이터 복원 정확도의 관계를 보 여주고 있다. 아래 그림에서 보여지는 것처럼 많은 범위의 특이값 범위를 활용하여 데이터를 압축하고 복원 하였을 때 데이터의 복원 정확도가 높아진다는 것을 알 수 있다. 세종시 데이터의 경우 압축과 복원에 48개 의 특이값을 활용하였을 때 원데이터와 복원데이터의 차이는 5%로 관측되었고, 86개의 특이값을 활용하였 을 때 원데이터와 복원데이터의 차이는 1%의 매우 작은 수치가 관측되었다. 이와 함께 48개의 특이값 활용 을 위해서는 252.8kb의 데이터가 필요하였으며 86개의 특이값 활용을 위해서는 452.7kb의 데이터가 필요하였 다. 결과적으로 본래 데이터의 크기가 630kb인 것을 감안 할 때 각각의 경우에서 원데이터 대비 40%, 72%의 데이터 용량만으로 95%, 99%의 정확도 수준으로 원데이터의 복원이 가능하였다.
서울시 데이터의 경우 22개의 특이값을 이용하여 압축과 복원 시 복원데이터의 복원율이 5%로 관측되었 고, 45개의 특이값을 이용하였을 때에는 복원율이 1%로 확인되었다. 이와 함께 22개의 특이값 활용을 위해 서는 100kb의 데이터가 필요하였으며 45개의 특이값 활용을 위해서는 205kb의 데이터가 필요하였다. 결과적 으로 본래 데이터의 크기가 630kb인 것을 감안 할 때 각각의 경우에서 원데이터 대비 16%, 33%의 데이터 용 량만으로 95%, 99%의 정확도 수준으로 원데이터의 복원이 가능하였다.
세종시 데이터와 서울시 데이터에서 보여지는 것과 같이, 본 연구에서 제시한 특이값 분해를 기반으로 데이 터를 압축 및 복원할 경우 95%의 정확도를 기반으로 세종에서는 60%의 저장용량을 서울시의 경우 84%의 저 장용량을 감소할 수 있을 것으로 예상된다. 다만, 앞서 언급한 압축 방법론의 경우 적정한 복원에러율에 대한 논의가 함께 필요하다. 복원 에러율이 1%이라고 할지라도 해당 범위에 중요 데이터가 포함되어 있을 경우 더 낮은 수치의 복원 에러율을 위하여 압축 및 복원에 활용되는 특이값의 범위를 조정할 필요성이 있다.
<Fig. 8>에서 <Fig. 10>는 복원에 활용된 특이값 행렬의 범위에 따른 복원데이터의 특성을 보여주고 있다. <Fig. 8>은 복원된 데이터의 주요한 수요 특성을 분석 결과를 가로축의 상대적 특이값 수치와 세로축의 상대 적 수요 수치로 보여주고 있다. 그림에서 가로축은 작은 수가 상위의 특이값을 나타내고 큰 수가 하위의 특 이값을 상대적으로 보여주고 있다. 세로축은 작은 수가 상대적으로 높은 수요의 크기를 나타내며 큰 수가 상 대적으로 낮은 수요의 크기를 나타낸다. <Fig. 8>에서 보여지는 것과 같이 세종시와 서울시 모두에서 상위의 특이값에서 상대적으로 큰 수요를 내포하고 있음이 발견되었다. 이와는 반대로 하위의 특이값으로 복원된 데이터에는 상대적으로 작은 수요만이 포함되어 있다. 또한, 그래프에서 주목할 만한 점은 상위의 특이값으 로 복원된 데이터에는 큰 수요와 작은 수요가 같이 포함되어 있다는 것이다. 이를 토대로 기종점 데이터의 특성을 분석하여 보면 상대적으로 작은 수요의 데이터는 패턴화된 형식으로 상위의 특이값으로 복원된 데이 터에도 존재하지만 무작위적인 형식으로 하위의 특이값으로 복원된 데이터에도 존재한다는 것을 알 수 있 다. 이러한 복원 특성을 고려하여 볼 때 데이터의 압축 및 복원시에 전체 특이값을 활용하지 않고 상위의 특 이값 만을 활용하여도 수요 크기의 전반에 분포되어 있는 주요한 패턴을 저장하고 추출할 수 있을 것으로 예상된다.
<Fig. 9>과 <Fig. 10>는 압축 및 복원에 활용하는 특이값의 범위에 따른 주요 패턴의 포함 여부의 분석 결 과를 일자간 데이터의 상관관계를 기반으로 보여주고 있다. 교통 데이터는 통행의 특성상 요일별로 시간대 별로 일정한 패턴이 발생을 하고 있다. <Fig. 9>는 이러한 특성을 기반으로 주요 패턴의 포함 여부를 분석한 결과이다. 해당 그림에서 특이값의 범위별로 복원된 데이터의 날짜간 상관관계가 1 또는 –1에 가깝다는 것 은 요일별, 시간대별 주요 특성을 포함하고 있다는 것을 나타낸다. 반대로 상관관계가 0에 가깝다는 것은 무 작위적인 성향의 데이터가 많이 내포되어 있다는 것을 나타낸다. 데이터 간의 분석 결과 아래 그림과 같이 서울시와 세종시에서 상이한 결과가 관측되었다. 세종시의 경우 1에서 60까지는 사용 행렬의 범위가 증가함 에 따라 산출된 날짜간 불규칙성 또한 점차 증가한다. 60보다 큰 특이값 행렬을 사용할 경우 데이터 간 공분 산 상관계수가 0에 근사하게 수렴한다. 이러한 결과를 볼 때 1에서 60까지의 행렬로 복원된 데이터는 날마다 꾸준히 발생하는 주요 패턴을 충분히 내포하고 있으며, 60보다 큰 특이값 행렬로 복원된 데이터는 무작위적 인 데이터를 함께 포함하고 있다. 서울시의 경우 80보다 큰 특이값 행렬을 사용할 경우 데이터 간 공분산 상 관계수가 0에 근사하게 수렴하는 경향을 보인다. 이러한 행렬 범위에 따른 날짜 간 불규칙성의 변화를 볼 때 세종시는 1~60까지의 특이값 행렬로, 서울시는 1~80까지의 특이값 행렬로 주요 패턴을 충분히 저장할 수 있 을 것으로 예상한다.
<Fig. 10>는 앞서 도출한 <Fig. 9>의 결과에서 상관관계가 주요하게 변화는 지점을 도출하기 위해 분석한 결과이다. 노란색 음영으로 처리된 부분은 해당 특이값의 이후 3개 지점의 평균과 양쪽으로 3-표준편차의 범 위를 보여주는 것으로, 본 연구에서는 해당 특이값으로 복원된 데이터가 3-표준편차를 벗어나는 경우 추출된 데이터의 특성이 크게 변화하는 지점으로 분석하였다. 분석 결과 <Fig. 10>과 같이 세종시의 경우 특이값이 1~20, 41~50, 61-70의 범위에서 데이터의 패턴이 크게 변하는 것이 관측되었으며 서울시의 경우 특이값이 51~60, 71~90 의 범위에서 데이터의 패턴이 크게 변하는 것이 관측되었다. 이를 바탕으로 해당 범위의 특이 값 인근에서 주요 패턴 포함 여부가 변화한 것을 알 수 있다.
<Table 2>은 앞서 분석한 데이터의 압축 및 복원율과 공분산 상관계수 기준에 부합하는 특이값의 범위를 정리하고 해당 결과를 통해 수요 데이터의 압축과 복원에 필요한 특이값 범위를 추정한 결과이다. 세종시의 경우에는 1~60까지의 특이값을 기반으로, 서울시의 경우에는 1~80까지의 특이값을 기반으로 데이터의 압축 및 복원을 수행한다면 기종점 데이터에 포함된 주요 패턴을 충분히 내포하면서 무작위적인 데이터를 제거할 수 있을 것으로 분석된다.
<Table 2>
Conditions | Range of singular values | ||
---|---|---|---|
Sejong | Seoul | ||
Error rate | 5% | 1-48 | 1-22 |
1% | 1-86 | 1-45 | |
Covariance coefficient | Near 0 | 1-60 | 1-80 |
Out of 3-sigma | 1-20, 41-50, 61-70 | 51-60, 71-90 | |
Effective ranges of singular values | 1-60 | 1-80 |
<Fig. 11>, <Fig. 12>은 데이터의 압축 및 복원에 활용된 특이값의 범위에 따른 복원 결과를 수요의 크기에 따라 표출한 네트워크를 보여주고 있다. 서울시 <Fig. 11>의 경우 1~30의 특이값 범위를 복원에 활용할 경우 붉은 색으로 표현되는 원데이터의 큰 크기의 수요를 충분히 포함하는 것이 관측된다. 특히 앞선 결과와 같이 1~80의 특이값으로 복원된 데이터는 원데이터의 주요 패턴을 내포한 것이 관측되며, 주요 패턴에는 큰 값의 수요패턴 뿐만 아니라 0~2 사이의 작은 수요들도 패턴에 기여하는 것이 관측되었다.
세종시 <Fig. 12>의 경우 붉은색으로 표현되는 원데이터의 큰 크기의 수요 패턴은 1~10의 특이값 범위에 서만 나타나는 것이 관측되었다. 11 이후의 특이값 범위에서는 0~2사이의 매우 작은 수요들이 특정 패턴과 무작위 성향이 뒤섞여 나타나는 것이 관측되었다. 이러한 결과를 통하여 세종시 기종점 수요 데이터의 주요 패턴은 수요의 크기보다는 작은 수요의 집중도에 의해서 결정되고 1~60까지의 특이값으로 원데이터의 주요 패턴을 충분히 복원할 수 있음을 알 수 있다. 세종시와 같은 패턴을 보유한 지역은 특이값 분해와 수요 클러 스터링을 통합하여 사용하는 것이 주요 패턴의 추출에 용이할 것으로 판단된다.
Ⅵ. 결 론
본 연구는 주성분분석을 활용한 압축 방법을 제안하고, 주요한 교통 패턴을 보존하기 위한 적정 주성분 범위를 구하였다. 본 연구에서 제안한 압축 방법을 모빌리티 데이터에 적용할 경우 5%의 복원오차율을 기준 으로 60~84%의 저장 용량을 감소시킬 수 있는 것으로 관측되었다. 이와 함께 특이값분해를 데이터의 분석에 활용할 경우 복원시 특이값의 범위를 조정함으로써 모빌리티 데이터의 주요 패턴의 추출이 가능함을 보였 다. 하지만 이러한 효과는 데이터의 분포 패턴에 따라 상이하다는 것도 함께 관측되었다. 서울시는 세종시와 달리 데이터에 특정 이동 패턴이 강하게 보이는 특징이 있어 상대적으로 저장용량 대비 압축 데이터의 복원 율이 높다는 것이 관측되었다. 또한, 복원에 사용되는 특이값의 범위 별로 복원된 데이터의 일별 불규칙성을 분석한 결과, 서울시 기준 1~80, 세종시 기준 1~60까지의 특이값 행렬을 사용할 경우 기종점 데이터에 포함 되어있는 노이즈를 제거하면서도 주요 이동 패턴은 잃지 않고 데이터를 압축 및 복원할 수 있을 것으로 보 인다.
본 연구 결과는 주요 이동 패턴을 반영한 대중교통 및 수요 응답형 버스의 서비스 구역 및 노선 설계에 이용될 수 있으며, 노이즈가 제거된 데이터 기반으로 경로를 추천함으로써 운영 효율과 이용 편의를 높이는 것에 이바지할 수 있다. 더 나아가 수요의 크기, 규칙성, 이동 패턴 기반으로 주요 수요 데이터를 분류하여 간선버스. 지선버스, 마을버스, 수요 응답형 버스 등 다양한 대중교통 서비스에 적용한다면 보다 운영 효율 과 이용 편의를 높일 수 있을 것으로 기대한다. 반면, 제안한 방법론은 기종점 데이터의 특정 시간대의 데이 터만을 대상으로 하여 시간 흐름에 따른 이동 데이터 분석을 포함하지 못한 한계가 있다. 이를 반영한다면 다차원 주성분분석 기반의 시간대별 이동 패턴 추출을 통해 데이터 저장 효율과 복원율을 보다 높일 수 있 는 압축 복원 방법이 제안될 것으로 기대한다.