Ⅰ. 서 론
1. 연구의 배경 및 목적
국토교통부의 교통부문 수송실적보고서에 따르면, 2017~2021년 국내 화물의 약 90%는 도로를 통해 운송 되며, 이 중 대부분은 화물차 및 특수차량을 통해 운송되고 있다(Ministry of Land, Infrastructure and Transport, 2021). 국토교통부 장관은 「물류정책기본법」 제7조에 따라, 물류에 관한 정책 또는 계획의 수립·변경을 목적 으로 물동량의 이동경로에 관하여 조사할 수 있으며, 이를 근거로 국토교통부, 한국교통연구원은 물류거점화 물실태조사(이하 화물실태조사)를 수행하고 있다. 가장 최근 화물실태조사를 수행한 2019년 “물류거점화물실 태조사 최종보고서”에 따르면, 화물실태조사는 전수조사를 원칙으로 개별 조사원이 물류활동을 수행하는 업 체를 방문하여 면접을 통한 설문조사를 기본으로 수행된다(KOTI, 2019). 이는, 전국을 대상으로 조사를 수행 하나 민간지원 물류거점시설을 배재한 정부지원 물류거점시설만을 대상으로 수행하기 때문에, 국가 전체의 물류현황을 파악하기에는 한계가 존재한다(KOTI, 2019).
효율적인 물류 네트워크 구축 및 물동량의 파악, 물류활동의 특성 등을 분석하기 위해서는 물류운송의 O-D 구축(origin-destination, OD)이 필수적이나, 조사원의 대면조사를 통해 수행되는 그 특성상 조사의 지속가 능성, 제한적 시공간적 해상도 등의 측면에서 한계점을 가질 수 밖에 없다. 이러한 한계점을 극복하기 위해 서 국내외에서는 모바일 이동통신 데이터를 활용한 O-D 구축 및 통행 특성 관련 연구가 활발히 수행되고 있 다(Essadeq and Janik, 2021;Cho et al., 2020;Cho and Kwon., 2023;Yun et al., 2015). 모바일 이동통신 데이터 는 국민의 대다수가 소지하고 있는 모바일 통신기기를 기반으로 수집되기 때문에 이동 및 체류 데이터를 365일 24시간 수집할 수 있다. 이러한 모바일 이동통신 데이터를 활용하면 일반적으로 하나 이상의 목적이 서로 연계된 통행행태인 트립 체인(trip-chain)을 구성할 수 있다(Choo et al., 2008).
모바일 이동통신 데이터를 활용한 트립 체인 데이터(이하 트립 체인 데이터)는 대면조사 방법과 비교하여 현저히 높은 표본수를 확보할 수 있기 때문에 전통적인 대면조사 방법의 한계를 극복할 수 있을 것으로 기 대된다. 다만, 개인정보를 포함하고 있어, 개인이 특정될 수 있는 정보는 엄격하게 관리하여 활용되어야 한 다. 기존 모바일 이동통신 데이터를 활용한 연구들은 대부분이 대중교통 이용 여부와 같은 통행수단 추정 및 O-D 구축에 초점을 맞추어 연구가 진행되었으며(Kim, 2021;Won et al., 2021;Chen et al., 2019), 물류 통행의 분석 및 화물 운송과 관련된 연구는 수행되지 않았다.
모바일 이동통신 데이터는 높은 표본수를 가진다는 장점이 있으나, 모바일 통신기기를 소지한 모든 이용 자를 대상으로 수집되기 때문에 물류 네트워크 구축, 물류 운송의 O-D 구축 연구에서 활용하기 위해서는 우 선적으로 화물운전자와 비화물운전자의 통행 식별이 필수적이다. 따라서, 본 연구는 모바일 이동통신 데이터 를 통해 구축된 트립 체인 데이터의 물류 네트워크 및 O-D 구축에 활용 가능성을 판단하기 위해 트립 체인 데이터 기반 화물운전자 통행 식별 모델을 개발하고자 한다. 이를 위하여 화물운전자와 비화물운전자를 분 류하여 익명처리한 모바일 이동통신 데이터를 수집하였으며, 트립 체인 데이터를 구성하였다. 또한, 심층신 경망(deep neural network, DNN)을 활용한 화물운전자 통행 식별 모델을 개발·평가하였으며, 설명가능한 AI(explainable artifitial intelligence, XAI)를 활용해 모델의 분석을 수행하여 화물운전자와 비화물운전자의 분 류에 있어 큰 영향을 미치는 요인들을 확인하였다. 최종적으로, 트립 체인 데이터의 기초통계분석 결과, 영 향요인 분석 결과를 기반으로 물류 네트워크 구축 및 물류 운송의 O-D 구축에 트립 체인 데이터의 활용 가 능성을 평가하였다.
2. 연구의 범위 및 절차
본 연구에서 활용되는 데이터는 SK telecom에서 수집한 모바일 이동통신 데이터로, 화성-평택 구간을 이 동한 이용자들의 통신 데이터에 가명결합 과정을 거친 1월 내 1주일의 데이터이다. 내용적 범위는 모바일 이 동통신 데이터의 설명 및 기초 통계 분석, DNN을 활용한 화물운전자 통행 식별 모델 개발, XAI를 활용한 DNN에 사용된 변수의 주요 특성 분석으로 한다.
Ⅱ. 관련 이론 및 연구 고찰
1. 관련 이론 고찰
1) 다양한 딥러닝 모델
딥러닝 및 AI 기술은 대용량의 빅데이터를 효율적으로 처리할 수 있으며, 데이터 사이의 상호 관계성이 명확하지 않더라도 모델 구축이 가능하고 높은 예측 정확도를 보여 다양한 분야에서 널리 활용되고 있다. 딥 러닝은 인공신경망(artificial neural network, ANN)을 기반으로 한 기계학습 기법의 일종으로, 인간 뇌의 뉴런 구조를 모방하여 여러 계층(layer)을 통해 데이터를 처리하고 학습하는 방법이다.
기초적인 ANN은 입력값과 가중치, 활성화 함수를 사용하여 이진 분류 문제를 해결하는 신경망의 기본 단 위인 퍼셉트론(perceptron)으로 구성되어 있으며(Rosenblatt, 1958). 퍼셉트론은 입력값의 계산에 있어 가중치를 적용하고, 임계값을 기준으로 출력을 결정하는 방식을 활용한다. 이후, 역전파(backpropatation) 알고리즘이 개 발되면서, 여러 은닉층(layer)을 사용하는 구조를 가진 다층퍼셉트론(multi layer perceptron, MLP)이 개발되었 다. MLP는 단순한 구조를 가지고 있기 때문에 비선형 문제를 처리하는데는 적합하나, 과적합 및 그래디언트 소실(gradient vanishing) 문제를 해결하지 못한다는 한계점을 가졌다. 이러한 한계점들을 극복하기 위해 MLP 보다 많은 은닉층을 통한 학습을 수행하는 심층신경망(deep neural network, DNN)이 개발되었다. DNN은 드 롭아웃(drop out)과 같은 다양한 정규화 기법을 활용하여 과적합 및 그래디언트 소실 문제를 해결하였다.
DNN은 고정된 크기의 데이터를 처리하는 데 적합하지만, 시계열 데이터와 같은 가변 길이 데이터의 처리 에는 한계가 있다(Goodfellow et al., 2016). 이러한 한계점을 극복하기 위해, 시간적 순서를 유지하며 데이터 처리를 수행할 수 있는 순환 신경망(recurrent neural network, RNN)이 이의 대안으로 개발되었으며, RNN은 특히나 자연어 처리 작업에서 뛰어난 성능을 발휘한다(Elman, 1990). 다만, RNN은 시계열 데이터의 특성인 계절성, 주기성, 경향성을 유지하는데 한계가 있기 때문에, 이를 해결한 장단기 기억 신경망(long short term memory, LSTM)이 개발되었다(Hocheriter and Schmidhuber, 1997). 이미지 처리와 같은 고차원 데이터를 학습 하기 위해서는 합성곱 계층(convolutional layer)을 통해 데이터의 공간적 관계를 유지하며, 데이터의 추상화된 특징을 추출하는 합성곱 신경망(convolutional neural network, CNN)이 개발되었다. CNN은 이미지 처리 및 영 상 분석과 같은 고차원 데이터 처리에 뛰어난 성능을 발휘한다.
본 연구는 화물운전자 통행 식별 모델 개발을 목적으로 하며, 트립 체인 데이터는 다양한 클래스를 포함 하는 데이터로 구성되어있다. 따라서, 이미지 분류 및 시계열 데이터의 처리 등 특수 목적에 특화된 모델보 다 다양한 데이터 유형에 적응할 수 있는 모델인 DNN을 활용해 화물운전자 통행 식별 모델을 개발할 수 있 도록 하였다.
2) 설명 가능한 AI
딥러닝 및 AI 기술은 결과값의 예측 과정 및 근거를 확인하기 어렵다는 문제점이 존재하며, 이를 블랙박스 (black box) 현상이라 부른다(Chinu and Bansal, 2024). 이러한 문제를 해결하는 방안 중 하나로 XAI가 활용되 고 있다(Karim et al., 2022). XAI 기법 중, 블랙박스를 설명할 수 있는 대표적인 기법으로는 local interpretable model-agnostic explanations (LIME)과 shapley additive explanations(SHAP)이 있다.
LIME은 로컬 대리 분석(local surrogate) 기법 중 하나로, 비선형적인 패턴을 학습한 모델이라도 국소적으 로 근사하면 선형 모델로 설명할 수 있음을 가정한다(Ribeiro et al., 2016). LIME은 개별 예측 결과를 설명하 기 위해 입력 데이터를 변형하여 원 모델에 순차적으로 입력 후, 이에 산출된 값을 해석한다(Chun et al., 2021). 이를 통해 입력 값 중에서 변화의 정도가 약하지만 예측 값을 크게 변형하는 변수를 탐색하고 그 정 도를 수치화하여 변수별 영향정도를 제시한다. 다만, 국소적인 선형 근사모델을 가정하여 예측을 수행하기 때문에, 동일한 예측값이라도 입력 변수의 설정, 샘플링 방법에 따라 일관되지 않은 설명을 가질 수 있다 (Lunderg & Lee, 2017). 이로 인해 데이터의 변수가 많아질수록 성능이 저하되는 단점이 존재하며, 모델 전체 에 대한 전역적인 설명(global explanation)은 얻기가 어렵다는 한계점을 가진다(Ribeiro et al., 2016).
SHAP은 LIME과 같은 로컬 대리 분석 기법이다. 다만, SHAP은 결과 값에 기여하는 각 변수들의 상관관계 가 어떤 의사결정이나 행동을 하는지 해석하기 위해 게임 이론에 기반한 샤플리 값(shapley value)를 활용하 며, 각 변수가 예측 결과에 얼마나 기여하는지를 계산하여 음의 관계, 양의 관계까지 설명할 수 있다. SHAP 기법은 모델 개별 예측 결과를 설명할 뿐 아니라 전체 데이터에 대한 모델의 해석 가능성을 높일 수 있다는 장점이 있다(Lundberg and Lee, 2017;Chun et al., 2021;Kim, 2023). 샤플리 값의 계산 식은 식(1)과 같으며, 여기서 ϕi는 i 데이터에 대한 샤플리 값, F 는 전체 집합, S 는 i 번째 데이터가 빠진 나머지 모든 부분집합, 는 i번째 데이터를 포함한(전체) 기여도, fs(xs) 는 i번째 데이터가 빠진 나머지 부분 집합의 기여도를 의미한다. <Fig. 1>은 딥러닝 모델에 SHAP을 적용하여 변수 중요도를 해석하는 예시를 보여준다. 본 연구에서는 앞서 고찰한 XAI 기법 중, 모델의 개별 예측 결과의 설명 뿐만 아니라 전체 데이터에 대한 모델의 해석 가능성을 높일 수 있으며, 일관적인 설명을 보이는 SHAP을 활용하여 모델을 해석하고자 한다.
2. 선행연구 고찰
1) 화물차 O-D 구축 관련 연구
Kim et al.(2019)은 화물차의 GPS(global positioning system)정보가 포함된 디지털 운행기록계(digital tacho graph, DTG) 데이터를 활용하여 고속도로 요금소 진입 전 최초 출발지와 요금소 진출 후 최종 도착지를 연 계하여 화물차 O-D를 구축하였다. 다양한 차종의 화물차 데이터를 통합하기 위해 DTG 데이터에 화물차 통 행실태조사, 가구통행 실태조사 결과까지 취합하였으며, 이를 기반으로 화물차 O-D를 구축하였다. 구축된 O-D의 통계분석 수행 결과, 화물차의 통행은 일 평균 5회로 나타났으며, 그 중 1회는 국도 휴게소, 주유소 등의 물류활동이 아닌 통행에 해당하였다. 기존 가구통행실태조사 등과 같은 조사원 대면조사를 기반으로 작성된 국가교통DB의 통행과 비교하였을 때, DTG 데이터 기반 O-D의 통행이 0.5회 높은 것으로 보아, 설문 조사에 누락된 통행이 주행기록계 자료에서 나타난 것으로 판단하였다. 또한, 개별 화물차의 평균 통행 수가 높아짐에 따라, 새로운 통행 패턴 및 트립 체인 형태를 도출할 수 있었다.
Cho and Cho(2023)은 Uber사에서 개발한 육각형 형태의 노드 기반 그리드 시스템인 H3 인덱싱 기법을 활 용하여 화물차의 방문시설을 클러스터링할 수 있는 방법론을 제시하였다. 또한, 이를 활용하여 화물차의 트 립 체인을 H3 폴리곤 기준으로 구성하였다. 트립 체인 폴리곤의 도출 결과를 기반으로 동일한 특성을 가지 는 폴리곤은 동일 시설로 군집화 될 수 있도록 최적 해상도를 결정하였다. 이때, 공간 적합도는 81.3%, 오차 율은 14.8% 수준으로 검증하였다. 해당 폴리곤을 활용한 트립 체인을 분석하는 경우, 화물차의 방문 시설 식 별, 기존보다 향상된 물동량 분석, 효율적인 물류 이동 경로 최적화 등이 가능할 것으로 기대하였다
Park et al.(2020)은 광역권 화물차 O-D 구축 방법의 이론적 고찰과 기존 화물차 O-D 구축 방법 및 사례 연 구 등을 통해 광역권 화물차 O-D 구축을 위해 가능한 방법과 고려해야 될 사항을 제시하였다. 해당 연구에 서는 설정 가능한 광역권 화물 O-D 구축 방법 대안을 설정하고, 대안별 광역권 화물 O-D 추정·구축 결과를 비교 검토하여 적정한 방법을 결론으로 도출하였다. 선정된 적정한 방법은 화물자동차 등록대수 기반 존 분 할 방법으로 제시하였으며, 존 분할 방식은 전국지역간 존체계 기준 광역권 내부존이 포함된 교통존의 화물 차 통행량을 광역권 내부 존 전체 중 특정 광역권 내부 소존의 지표의 비율로 나누는 방식으로 제시하였다. 다만, 본 연구에서는 현재 수집할 수 있는 화물차 관련 정보인 국가교통DB(Korea Transport Data Base, KTDB)의 전국통행조사 및 가구통행실태조사는 한정된 재원으로 인한 한계를 가지고 있으며, 이러한 한계점 을 해결하기 위해서는 근본적으로 광역권의 화물 O-D를 재구축·배포하는 것을 해결방안으로 제시하였다.
2) 모바일 이동통신 데이터 O-D 관련 연구
Kim(2021)는 모바일 이동통신 데이터를 기반으로 O-D를 식별하기 위해 핑퐁 현상, 핸드오버 탐색 및 보 정, 체류 장소 추론 및 체류 장소 유형 추론 방법론을 개발하고, 식별된 O-D를 평가하는 연구를 수행하였다. 특히, 모바일 기지국 데이터에서 흔히 일어나는 핸드오버에 대한 유형을 패턴형, 써클형, 점프형 등 세가지 로 정립하고, 슬라이딩 윈도우(sliding window) 기법으로 탐색하여 보정하는 방법으로 핸드오버를 인지하고 보정하였다. 체류 장소 식별에 있어서도 체류 유형에 대해 체류시간대, 체류지속시간, 방문빈도 데이터를 기 반으로 휴리스틱(heuristic) 방법으로 집, 직장, 기타 장소를 추론하였다. O-D는 체류장소간 연결로 생성하고, 앞서 추론된 체류장소인 집, 직장, 기타로 가정기반통근통행, 가정기반기타통행, 비가정기반통행으로 구분하 여 O-D를 식별하였다.
Won et al.(2021)은 모바일 이동통신 데이터를 기반으로 출퇴근 통행 분석 알고리즘을 개발하였다. 먼저, 모델의 개발에 앞서서 모바일 이동통신 데이터의 한계점을 보완하기 위해 데이터 군집 방법을 이용하여 신 호 왜곡 현상을 효과적으로 처리하였으며, 점유시간 및 빈도를 이용하여 집과 직장을 식별하고 GPS와 같은 점 단위의 위치 추정으로 모바일 이동통신 데이터의 공간적 저행상도 문제를 해결할 수 있는 알고리즘을 제 시하였다. GPS 조사 자료를 이용한 검증 결과, 집과 직장의 식별 정확도는 약 80% 이상이었으며, 공간적 위 치 정확도는 거리오차 1km 이하가 각각 약 90%였다. 또한, 정기 근무시간(9시 출근, 18시 퇴근)에 해당하지 않는 야간 및 저녁 근무에 대한 통행 분석도 가능한 것으로 나타났다.
Cho and Kwon(2023)은 모바일 통신 빅데이터를 활용하여 항공교통이용자 O-D 추출 알고리즘 연구를 수 행하였다. 해당 연구는 항공교통 이용자의 트립 체인 도출을 목표로 항공교통이용자가 공항을 거쳐 목적지 까지 이동하는 과정 중 통과한 지역의 통신기지국에 기록된 접속기록을 토대로 최초 출발지 및 최종 목적지, 중간 체류지를 추정하는 알고리즘을 개발하였다. 알고리즘을 토대로 구축된 항공교통이용자 O-D는 상관성 분석을 통해 검증되었으며, 분석 결과 모바일 이동통신 데이터 기반 항공교통이용자 추정치와 항공통계 기 반 항공교통이용자 통계값의 패턴이 유사하고, 상관관계 역시 높은 것으로 분석되었다. 다만, 데이터 수집의 한계로 인해 전체 항공교통 이용자를 대상으로 연구가 수행되지 않았으며, 이를 해결하기 위한 대안으로 보 정계수를 활용한 분석도 수행하였으나 항공 통계값과 많은 차이를 보이는 것으로 나타났다.
3) 연구의 차별성
선행연구를 통해 화물차의 O-D 구축에 있어서 DTG 데이터, KTDB에서 수집하는 물동량 및 화물차 통행 정보와 같은 빅데이터를 활용한 연구가 활발히 이루어지고 있음을 확인할 수 있다. DTG 데이터를 활용하는 경우, 트립 체인 데이터를 구축하여 효율적인 물류통행 및 이동경로 최적화 등에 활용할 수 있을 것으로 기 대하고 있다. 또한, 화물차와 영업용 차량 등이 명확하게 구분이 가능한 상태로 수집되기 때문에 화물 운송 여부의 판단에 이점이 있다. 다만, DTG 데이터는 관련 DB의 설계 및 관리방안 부재로 DTG 데이터의 온전 한 활용이 어렵다는 단점이 있다(Han and Kim, 2017). KTDB에서 수집되는 물동량 정보 및 화물차 통행 정보 를 활용하는 경우, 전국 단위의 물동량을 분석할 수 있다는 장점이 있으나, 데이터의 수집원이 전국통행조사 및 가구통행실태조사를 기반으로 수행되고 있으며, KTDB에서 수집하는 화물차 관련 정보는 표본 수의 부족 함, 한정된 재원 등으로 인한 한계점을 가진다고 강조하였다.
모바일 이동통신 데이터를 기반으로 O-D를 추정하는 연구에서는 모바일 이동통신 데이터의 한계점을 극 복하기 위한 다양한 방법들을 적용하고 있으며, 현시점에서 수집되는 모바일 이동통신 데이터는 위치 추정 에 큰 문제점인 핑퐁 현상 및 핸드오버 등이 일부 해결된 것으로 판단된다. 특히나, 트립 체인 데이터의 핵 심인 체류특성 및 통행 분석 또한 가능할 것으로 판단된다.
따라서, 모바일 이동통신 데이터를 활용하는 경우, DTG 데이터와 KTDB 데이터가 가지는 한계점을 극복 할 수 있을 것으로 사료된다. 다만, 모바일 이동통신 데이터를 활용하여 물류 네트워크 구축 및 물류 운송의 O-D 구축을 수행하기 위해서는 우선적으로 화물운전자와 비화물운전자의 통행 식별이 필요하다. 이에, 본 연구에서는 모바일 이동통신 데이터를 기반으로 화물차와 비화물차의 통행 특성을 비교·분석하며, 딥러닝 모델을 통해 화물운전자 통행 식별 모델을 개발하고자 한다. 또한, 화물운전자 통행 식별 모델에 XAI를 적용 하여, 화물운전자 통행 식별 모델의 분석·해석을 수행하고자 한다.
Ⅲ. 데이터 전처리 및 기초분석
1. 데이터 설명 및 전처리
1) 모바일 이동통신 데이터
모바일 이동통신 데이터는 모바일 통신기기(이하 스마트폰)와 통신기지국 간의 송·수신 통신 기록데이터 로, 스마트폰의 전원이 켜져 있는 동안 가까운 기지국과 일정한 간격으로 통신한 기록과 스마트폰을 사용한 기록이다. 구체적으로는 전화와 문자의 송수신 기록, 인터넷 프로토콜 세부 데이터, 통신 영역, 핸드오버 (hand-over) 이벤트, 전원 켜짐 및 기타 데이터 등이 수집 및 재구성된다. 이러한 방법으로 수집된 데이터는 높은 시·공간적 표본 비율과 항시성을 가지기 때문에 국내외에서 개별통행 데이터와 트립 체인 데이터를 구 축하고 있으며, 유동 인구 분석, 목적 통행 분석, 출퇴근 분석, 대중교통 취약지역 분석, 사회·경제 여건 변화 에 따른 통행 패턴 분석 등 다양한 방법으로 활용되고 있다(Kim, 2021;Won et al., 2021). 다만, 모바일 이동 통신 데이터는 스마트폰을 기반으로 측위를 수행하기 때문에 다음과 같은 문제점을 가지고 있다.
첫째, 모바일 이동통신 데이터는 모바일 기지국과 스마트폰의 통신을 기반으로 측위를 수행하나, 광범위 한 데이터를 일괄적으로 수집하는데 있어, 일부 이상치를 가질 수 있기 때문에 이에 대한 전처리가 필요하 다. 둘째, 스마트폰 이용자의 개별 통행에 있어, 휴게소 방문과 같은 짧은 정지 상태를 이동과 체류로 구분하 기에 기준값이 모호하다. 셋째, 야간 및 저녁 근무 등의 체류와 통행과 귀가 후 취침 및 휴식 등의 체류의 식 별에 대한 문제점을 가지고 있다. 넷째, 기지국 간 수신영역이 중복되는 범위 내에 위치하여 실제 이동이 없 음에도 위치가 짧은 시간 내에 수시로 변화하는 핑퐁(ping pong)현상(Kim et al., 2020) 및 공간적 저해상도로 인해 이동경로 및 수단 식별에 어려움이 있다.
본 연구에서 활용하는 SK telecom의 리트머스 데이터는 개인의 트립 체인을 만들기 위해 가장 중요한 위 치값을 전통적인 삼각(triangulation) 측위, 삼변(trilateration) 측위, 근접성(proximity) 측위, 장면 분석(scene analysis) 등의 방법이 아닌 트랜스포머(transformer) 모델 기반의 머신러닝을 이용해 측위되었다. 트랜스포머 측위를 위해 스마트폰의 위치정답 값과 스마트폰이 연결한 기지국간 신호세기 값을 학습시킨 후 기지국들의 신호세기 값으로 스마트폰의 위치를 측위함으로써 측위 정확도를 향상시켰으며, 기지국의 위치 변화로 발생 하는 오차를 제거하였다.
2) 리트머스 데이터
본 연구에서 활용되는 트립 체인 데이터는 SK telecm으로부터 개인정보보호법에 따른 가명결합절차에 따 라 작성된 결과물이다. 트립 체인 데이터는 익명화된 개인의 출도착일 구분과 시각, 출도착 공간인덱스, 이 동목적 및 이동수단 정보로 구성되며, 출도착 공간인덱스는 Uber사에서 개발한 육각형 형태의 노드 기반 그 리드 시스템인 H3 인덱싱 기법의 셀ID로 구성되어 있다. 본 연구의 목적은 화물운전자 통행 식별 모델 개발 및 분석이기 때문에, 트립 체인 데이터 별로 화물차 운전자 식별을 위해 화물차 운전자용 어플리케이션 사용 실적이 있는 사용자인 경우 트립 체인 데이터에 별도로 표기할 수 있도록 구성하였다.
트립 체인 데이터는 체류정보(이하 stay 정보), 통행정보(이하 trip 정보), 및 세부통행정보(이하 s-trip 정보) 로 구성되어 있다. Trip 정보는 체류지에서 다음 체류지까지의 통행정보로 위치와 시간, 수단과 목적 정보를 포함하고 있다. Stay 정보는 30분 초과 체류 지점에서 출도착 시각과 공간특성정보를 포함하며, s-trip정보는 trip 정보내 이동수단변경 또는 30분 미만 체류한 체류지간 통행을 포함한다. 트립 체인 데이터의 예시는 <Fig. 2>와 같으며, 개인정보가 특정될 수 있는 항목을 제외한 트립 체인 데이터의은 <Table 1>과 같다.
<Table 1>
Category | Elements | Description | Data type | Detail |
---|---|---|---|---|
Trip | Trip_id | ID of the trip | Numerical | - |
Departure_time_trip | Departure time of trip | Numerical | - | |
Arrival_time_trip | Arrival time of trip | Numerical | - | |
Travel_time_trip | Travel time of trip | Numerical | - | |
Straight_distance_trip | Straight-line distance traveled in a trip(m) | Numerical | - | |
Major_modal | Major mode of transportation on the trip | Categorical | Passenger car, bus, subway, walk, other, train | |
S-trip_cnt | Number of s-trips in the trip | Numerical | - | |
Purpose_before_trip | Purpose of the previous stay in the trip | Categorical | Return, work, study, shopping/leisure, other, tour | |
Purpose_after_trip | Purpos of the after stay in the trip | Categorical | Return, work, study, shopping/leisure, other, tour | |
LogisA_yn_trip | Whether logistics complex is in trip | Binary | - | |
IndutA_yn_trip | Whether industrial park is in trip | Binary | - | |
IndustB_yn_trip | Whether building for public use is in trip | Binary | - | |
AgriB_yn_trip | Whether an agricultural complex is in trip | Binary | - | |
CommerB_yn_trip | Whether a commercial complex is in trip | Binary | - | |
S-trip | S-trip_id | ID of the s-trip | Numerical | - |
Departure_time_s-trip | Departure time of s-trip | Numerical | - | |
Arrival_time_s-trip | Arrival time of s-trip | Numerical | - | |
Duration_s-trip | Travel time of s-trip | Numerical | - | |
Straight_distance_s-trip | Straight-line distance traveled in a s-trip(m) | Numerical | - | |
Modal_s-trip | Mode of transportation on the s-trip | Categorical | Passenger car, bus, subway, walk, other, train | |
Stay | Stay_id | ID of the stay | Numerical | - |
Start_time_stay | Start time of the stay | Numerical | - | |
End_time_stay | End time of the stay | Numerical | - | |
Duration_stay | Stay duration | Numerical | - | |
Purpose_stay | Purpose of the stay | Categorical | Return, work, study, shopping/leisure, other, tour | |
LogisA_yn_stay | Whether logistics complex is in stay | Binary | - | |
IndutA_yn_stay | Whether industrial park is in stay | Binary | - | |
IndustB_yn_stay | Whether building for public use is in stay | Binary | - | |
AgriB_yn_stay | Whether an agricultural complex is in stay | Binary | - | |
CommerB_yn_stay | Whether a commercial complex is in stay | Binary | - |
리트머스 데이터의 구성은 trip, s-trip, stay 항목 별로 익명 ID와 시작 시각, 종료 시각, 소요 시간이 포함되 어 있으며, trip과 s-trip은 직선거리, 통행수단이 포함되어 있다. Trip 항목과 stay 항목에는 물류단지, 산업단 지, 공공용 건물, 농업단지, 상업단지 및 용도별 GIS 건물정보(이하 토지용도별 건물)가 포함되어 있으며, 귀 가, 업무, 학업, 쇼핑여가, 기타, 관광으로 분류된 체류 목적 데이터가 포함되어 있다. 토지용도별 건물 데이 터는 공공데이터 포털(https://data.go.kr), 브이월드(https://www.vworld.kr)에서 제공하고 있는 데이터를 H3인덱 스와 겹침(intersect) 공간연산 및 공간특성을 통해 수집되었으며, 체류목적, 통행수단과 같은 데이터는 SK telecom이 추정한 값을 사용하였다.
2) 데이터 전처리
화물운전자 식별 모델은 방대한 양의 데이터를 다양한 비선형 변환 기법을 통해 높은 수준의 학습이 가능 하며(Lee et al., 2023), 성능의 안정성과 사용상의 간편성 등에 강점을 가지는 DNN을 활용하여 개발하도록 하였다(Lee et al., 2019). 따라서, 트립 체인의 특성을 반영하면서 DNN이 학습 가능하도록 데이터의 전처리 를 수행하였다. 전체적인 데이터 전처리 절차는 <Fig. 3>과 같다.
먼저, trip, s-trip, stay로 분류되어있는 데이터를 식별 ID 기준으로 취합하여 트립 체인 데이터를 구성하였 다. 다만, 리트머스 데이터에서 수집하고 있는 트립 체인 데이터는 스마트폰 이용자의 1일 기준 모든 통행을 수집하고 있으나, 개인이 특정될 수 있는 문제점을 고려하여 1일 기준 모든 통행이 아닌 하나의 체류부터 다 음 체류의 전까지 데이터를 모델 입력 데이터로 구성하였다.
DNN 모델 구성에서 지나치게 많은 변수를 가질 경우, 예측 결과에 부정적인 영향을 미칠 수 있으므로 (Wojtas and Chen, 2020), 공통되는 내용이나 유관한 내용을 포함하는 데이터는 취합하거나 제거하였다. 수집 된 데이터에서는 트립 체인 기준을 trip 이전 stay부터 trip의 종료까지로 설정하였기 때문에 trip 데이터에서 수집하고 있는 이전 체류 목적(purpose_before_trip) 데이터를 제외하였다. 또한, 토지용도별 건물과 관련된 데 이터는 trip과 stay에 분류되어 작성되어 있었으나, 이를 트립 체인 내에 존재하는지 여부로 변경하여 취합하 였다.
S-trip 항목은 하나의 trip 내에 여러개가 존재하기 때문에 대표할 수 있는 대푯값을 모델에 입력할 수 있도 록 하였다. S-trip 항목에서 수집되는 주행시작, 종료시각 및 주행 시간은 트립 체인 내 s-trip들의 중간값을 대푯값으로 설정하였으며, 직선거리는 trip 내 stip의 가장 높은 직선거리, 통행수단은 trip 내 s-trip들의 최빈 값을 대푯값으로 설정하였다.
마지막으로, 데이터 검토 결과 stay 항목에서 화물운전자와 비화물운전자의 체류 시간에서 오후 3시 이후 부터 동일하게 긴 체류시간(8시간 이상)이 높은 비율로 확인되었다. 이는, 화물운전자와 비화물운전자가 유 사한 취침패턴을 가진 것으로 판단하였으며 뚜렷한 통행 패턴 차이가 보이지 않을 것을 우려하여 <Fig. 3>와 같이 오후 3시 이후 10시간 이상 체류와 오후 4시 이후 8시간 이상의 체류는 취침으로 간주하여 제외하였다.
2. 데이터 기초통계 분석
일반적으로 화물차는 비화물차와 비교하였을 때, 평균 주행 횟수, 주행 시간, 평균 주행 거리, 의무 휴게시간 여부 등에서 큰 차이를 보인다(Korea Transport Database, 2017;Ministry of Land, Infrastructure and Transport, 2021). 따라서, 수집된 리트머스 데이터 상에서 화물운전자와 비화물운전자의 통행 특성 차이를 보이는지 여부를 확인하 기 위해 데이터의 기초통계 분석을 수행하였다. 기초통계 분석은 데이터의 자료형, 종류(trip, s-trip, stay)를 분류하 여 수행하였다. 다만, 수집된 데이터는 화성↔평택 구간의 스마트폰 이용자를 대상으로 하였기 때문에, 화물운전 자는 11,952명, 비화물운전자는 453,951명으로 표본 수에 큰 차이를 가지는 것으로 나타났다. 수치형 및 범주형 데이터의 통계분석은 최솟값, 평균, 중간값, 최댓값, 표준편차와 비율을 기반으로 비교하도록 하였다.
1) 수치형 데이터 기초통계 분석 결과
수집된 데이터에서 수치형 데이터에 해당하는 항목들은 trip 항목에서는 개인별 일 trip 수, 출도착 시각, trip별 주행 시간, 직선거리, trip 내 s-trip의 수이고, s-trip항목에서는 출도착시각, 주행 시간, 직선거리이며, stay 항목에서는 체류 시작 및 종료시각 그리고 체류시간이다. 수치형 데이터들의 기초 통계 분석 결과는 <Table 2>와 같다.
<Table 2>
Category | Element | Freighter | Non freighter | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Min | Mean | Median | Max | std | Min | Mean | Median | Max | std | ||
Trip | Departure time | 0.0 | 12.1 | 12.0 | 23.0 | 5.4 | 0.0 | 13.3 | 13.0 | 23.0 | 5.0 |
Arrival time | 0.0 | 12.9 | 13.0 | 23.0 | 5.6 | 0.0 | 13.9 | 14.0 | 23.0 | 5.1 | |
Travel time(min) | 1.0 | 80.7 | 48.0 | 1,202.0 | 105.4 | 1.0 | 53.0 | 35.0 | 1148.0 | 64.5 | |
Straight distance(km) | 0.0 | 13.1 | 6.2 | 297.3 | 25.0 | 0.0 | 8.6 | 3.5 | 239.4 | 12.6 | |
S-trip count | 1.0 | 4.0 | 3.0 | 49.0 | 3.8 | 1.0 | 3.7 | 3.0 | 52.0 | 2.7 | |
S-trip | Departure time | 0.0 | 12.6 | 13.0 | 23.0 | 5.3 | 0.0 | 13.7 | 14.0 | 23.0 | 4.9 |
Arrival time | 0.0 | 12.6 | 13.0 | 23.0 | 5.3 | 0.0 | 13.8 | 14.0 | 23.0 | 4.9 | |
Travel(min) | 0.3 | 13.9 | 10.8 | 581.3 | 21.5 | 0.3 | 9.4 | 7.9 | 163.4 | 6.9 | |
Straight distance(km) | 0 | 1.9 | 0.9 | 34.0 | 2.8 | 0.0 | 1.6 | 1.0 | 30.2 | 1.7 | |
Stay | Start time | 0 | 8.9 | 9.0 | 20.0 | 3.8 | 0.0 | 9.2 | 9.0 | 23.0 | 3.6 |
End time | 0.0 | 10.6 | 11.0 | 23.0 | 3.5 | 0.0 | 11.8 | 12.0 | 23.0 | 3.5 | |
Duration(min) | 30.0 | 105.0 | 66.0 | 599.0 | 101.7 | 30.0 | 151.8 | 95.0 | 599.0 | 139.3 |
먼저, trip 항목을 비교하면, 화물차와 비화물차의 일평균 trip의 수와 출도착 시각은 크게 차이나지 않는 것으로 확인되었다. 다만, 개별 trip의 소요 시간은 mean, median 값 모두 화물차가 비화물차의 약 1.5배로 나 타났으며, 직선거리는 mean 값이 약 1.5배, median 값은 약 1.8배 높은 것으로 나타났다. 이는 물류 운송 시 장거리 통행이 높은 화물차의 통행특성을 잘 보이는 것으로 판단된다. 또한, 화물차의 trip 내부 s-trip의 수가 비화물차보다 높은 것은 화물의 적재 및 하역, 의무 휴게시간 등으로 인한 것으로 판단된다. S-trip 항목에서 도 출도착 시각은 크게 차이나지 않으나, 화물차가 주행시간은 mean, median 값 모두 약 1.4배 높은 것으로 나타났다. 다만, s-trip의 직선 이동거리는 크게 차이나지 않았는데, 이는 세부통행인 s-trip의 특성상 짧은 이 동거리를 가지기 때문일 것으로 판단하였다.
Stay 항목에서는 체류 시작 시각에서는 큰 차이를 보이지 않았으나, 비화물운전자의 체류 종료시각이 화 물운전자 체류 종료시각보다 늦은 것으로 나타났다. 또한, 비화물운전자의 체류 시간이 화물운전자의 체류 시간보다 약 1.5배 높은 경향을 보였다. 이는, 비화물운전자의 근무 특성상, 건물 내에서 오랜시간 체류하기 때문인 것으로 판단되며, 일정시간 근무 이후 점심 등의 휴게 시간을 주기적으로 가지기 때문으로 판단된다.
2) 범주형 데이터 기초통계 분석 결과
수집된 리트머스 데이터에서 범주형 데이터에 해당하는 항목들은 trip 항목에서는 주요 통행수단, 토지용 도별 건물 여부, trip 후 체류목적이고, s-trip 항목에서는 통행수단 그리고 stay 항목에서는 체류목적이다. 범 주형 데이터들의 기초 통계 분석 결과는 <Table 3>와 같다. 비화물운전자와 화물운전자의 변수별 차이가 5% 이상 차이나는 항목에는 음영처리하여 표기하였다.
<Table 3>
Category | Element | Details | Freighter | Non freighter |
---|---|---|---|---|
Ratio(%) | Ratio(%) | |||
Trip | Major modal | Passenger car | 84.01 | 77.48 |
Bus | 5.87 | 5.76 | ||
Subway | 0.02 | 0.03 | ||
Walk | 1.68 | 3.08 | ||
Other | 8.40 | 13.48 | ||
Train | 0.02 | 0.18 | ||
Logistics complex | Exists | 2.54 | 0.58 | |
Not exist | 97.46 | 99.42 | ||
Industrial park | Exists | 32.98 | 38.71 | |
Not exist | 67.02 | 61.29 | ||
Building for public use | Exists | 50.21 | 44.26 | |
Not exist | 49.78 | 55.74 | ||
Agricultural complex | Exists | 23.54 | 17.79 | |
Not exist | 76.46 | 82.21 | ||
Commercial complex | Exists | 75.50 | 70.95 | |
Not exist | 24.50 | 29.05 | ||
S-trip | Modal | Passenger car | 83.53 | 78.27 |
Bus | 3.72 | 3.19 | ||
Subway | 0 | 0 | ||
Walk | 1.99 | 2.66 | ||
Other | 10.75 | 15.83 | ||
Train | 0 | 0.05 | ||
Stay | Purpose | Returning home | 16.99 | 19.92 |
Work | 12.04 | 39.17 | ||
Study | 0 | 0.14 | ||
Shopping/leisure | 3.57 | 3.77 | ||
Other | 58.87 | 34.66 | ||
Tourism | 8.53 | 2.33 |
범주형 데이터들의 전체적인 통계분석 결과, 화물차와 비화물차의 트립 체인은 항목과 관련없이 통행수 단, 체류 목적에서 큰 차이를 보이는 것으로 나타났다. Trip과 s-trip의 통행수단에서는 자가용과 기타를 제외 하고는 큰 차이를 보이지 않는 것으로 나타났다. 이는, 화물차량의 명확한 분류 기준이 없어 화물차량이 자 가용과 기타에 일부 편성되었기 때문으로 판단된다. 또한, 다양한 토지용도별 건물의 여부에서는 공공용 건 물, 산업용 건물 외에는 큰 차이를 보이지 않았다.
Stay의 체류 목적에서는 업무와 기타, 관광에서 큰 차이를 보였는데, 이는 화물운송업이 일반 근무와 달리 지속적인 이동을 수행하기 때문에 업무에 편성되지 않았기 때문으로 판단된다.
Ⅳ. 화물운전자 통행 식별 모델 개발 및 분석
본 절에서는 수집된 데이터를 DNN 모델이 학습하기 적합하도록 입력 데이터를 전처리하였으며, DNN 모 델을 구성하여 하이퍼 파라미터 최적화를 수행하였다. 개발된 모델은 전체 예측 중에서 정확한 예측의 비율 인 정확도(accuracy), 실제 양성 중 옳게 예측한 양성의 비율인 재현율(recall), 양성으로 예측한 사례 중 실제 로 양성의 비율인 정밀도(precision)를 기반으로 평가하였다. 또한, 구성된 모델별로 XAI 기법 중 하나인 SHAP을 적용하였으며, 도출된 SHAP value를 기반으로 화물운전자와 비화물운전자의 통행을 분류하는데 있 어 영향력이 높은 변수들을 확인하였다.
1. 입력 데이터 구성
수집된 트립 체인 데이터 중, 통행수단, 체류 목적과 관련된 데이터는 범주형 데이터이기 때문에 one-hot encoding을 적용하였으며, 수치형 데이터들은 모델이 학습하기 용이하도록 스케일링을 진행하였다. 구축된 DNN 모델에 입력되는 변수는 trip, s-trip, stay 항목의 세부항목 데이터를 모두 포함하여 <Table 4>와 같이 20 개 항목을 입력하도록 설정하였다. Trip 항목과 s-trip 항목에서는에서는 출도착 시각, 소요시간, 직선거리, 주 요 통행수단이 포함되었으며, trip 항목에만 토지용도별 건물 여부가 포함되었다. Stay 항목에서는 체류 시작 및 종료시각, 체류 소요시간 및 체류 목적이 포함되었다.
<Table 4>
Category | Variables | Data type/preprocess |
---|---|---|
Trip | Departure_time_trip | Numeric/scaling |
Arrival_time_trip | Numeric/scaling | |
Travel_time_trip | Numeric/scaling | |
Straight_distance_trip | Numeric/scaling | |
Major_modal | Categorical/one-hot encoding | |
S-trip_cnt | Numeric/scaling | |
LogisA_yn | Binary/none | |
IndutA_yn | Binary/none | |
IndustB_yn | Binary/none | |
AgriB_yn | Binary/none | |
CommerB_yn | Binary/none | |
S-trip | Departure_time_s-trip | Numeric/scaling |
Arrival_time_s-trip | Numeric/scaling | |
Duration_s-trip | Numeric/scaling | |
Straight_distance_s-trip | Numeric/scaling | |
Modal_s-trip | Categorical/one-hot encoding | |
Stay | Start_time_stay | Numeric/scaling |
End_time_stay | Numeric/scaling | |
Duration_stay | Numeric/scaling | |
Purpose_stay | Categorical/one-hot encoding |
다만, 본 연구에서 구성한 트립 체인 데이터는 화물운전자의 트립 체인이 약 2%에 불과해 심한 불균형을 띄고 있다. 모델의 구축에 학습 데이터가 심한 불균형을 띌 경우, 전체 예측이 표본 수가 많은 클래스의 예 측 정확도를 높이는 방향으로 학습할 수 있다. 이러한 경우, 정확도는 높으나 재현율 및 정밀도가 지나치게 낮게 구축될 수 있다. 따라서, 이를 방지하기 위해 학습 데이터를 재구성하여 비화물운전자와 화물운전자 트 립 체인 데이터의 비율을 유사하도록 재조정하였다. 학습 데이터의 재조정은 표본 수가 많은 비화물운전자 트립 체인 데이터에 랜덤 샘플링을 수행하여 비화물운전자 트립 체인 데이터와 유사한 수를 가지도록 하였 으며, 샘플링 이후 데이터의 편중을 고려하여 3개의 학습 데이터 별 모델을 구성, 성능을 확인할 수 있도록 하였다.
2. 화물운전자 통행 식별 모델 개발 및 평가
모델의 학습 및 평가를 위해서 학습 데이터와 테스트 데이터를 8:2의 비율로 분류하였으며, 변수들은 모두 0~1사이의 값을 가질 수 있도록 조절하였다. 또한, 다양한 구조의 DNN 모델을 구성하여 하이퍼파라미터 최 적화를 수행하였다. 최적화된 DNN 모델의 구조는 다음 <Table 5>와 같다. 모델의 학습 데이터는 3개의 세트 로 구성하였으며, 개별 구성마다 평가지표로 accuracy, recall, precision을 설정하여 평가하였다. 개발된 모델 별 혼동행렬은 <Table 6>, 평가 결과는 <Table 7>과 같다.
<Table 5>
Category | Optimized value |
---|---|
Dense | 5 |
Epochs | 200 |
Batch size | 64 |
Optimizer | Adam |
Activation | Relu, sigmoid |
Dropout rate | 0.2 |
Neurons | 64~8 |
<Table 6>
Model | Non freighter | Freighter | |
---|---|---|---|
DNN-trainset_1 | Non freighter | 1,738 | 648 |
Freighter | 548 | 1,847 | |
DNN-trainset_2 | Non freighter | 1,619 | 767 |
Freighter | 447 | 1,948 | |
DNN-trainset_3 | Non freighter | 1,666 | 720 |
Freighter | 619 | 1,776 |
<Table 7>
Model | Accuracy | Recall | Precision |
---|---|---|---|
DNN-trainset_1 | 0.75 | 0.77 | 0.74 |
DNN-trainset_2 | 0.75 | 0.81 | 0.72 |
DNN-trainset_3 | 0.74 | 0.83 | 0.71 |
3. XAI를 활용한 모델 해석
화물운전자 통행 식별 모델 개발 목적은 개별 트립 체인의 통행이 화물운전자인지 여부를 판단하기 위함 이다. 따라서, 본 절에서는 앞서 분석한 화물운전자와 비화물운전자의 통행 특성 차이를 개발된 모델이 반영 하고 있는지의 여부를 확인하며, 화물운전자 통행의 식별에 있어 영향력이 높은 요인들을 확인하고자 한다. 화물운전자 통행 식별 모델의 해석은 XAI 기법 중 하나인 SHAP을 적용하였으며, SHAP value는 모델별로 beeswarm plot과 bar plot으로 시각화하였다. 특히, beeswarm plot은 예측 결과에 영향을 미치는 변수들이 어떠 한 방향성을 가지는지 시각적으로 확인할 수 있다.
Beeswarm plot에서 X축을 기준으로 양의 SHAP value는 예측값을 증가시키고, 음의 SHAP value는 예측값 을 감소시킨다고 해석할 수 있다. 각 점의 색은 변수를 의미하며, 변수가 클 경우 붉은 색으로, 변수가 작을 경우 푸른 색으로 표현된다. 따라서, 붉은 점들이 양의 SHAP value에 분포하는 경우 높은 값의 변수들이 예 측값을 증가시키는 것으로 해석할 수 있으며, 푸른 점들이 양의 SHAP value에 분포하는 경우 낮은 값의 변 수들이 추정치를 증가시킨다고 해석할 수 있다. 각 모델별로 상위 10개의 SHAP value를 나타내는 변수들을 시각화한 결과는 <Fig. 5>와 같다. 개별 모델의 SHAP value 상위 10개 항목을 확인한 결과, 세 모델 모두 값 은 일부 차이가 있으나, 항목은 유사한 것으로 나타났다. 세부 내용은 <Table 8>과 같다.
<Table 8>
Category | Elements | SHAP value | ||
---|---|---|---|---|
DNN-trainset_1 | DNN-trainset_2 | DNN-trainset_3 | ||
Trip | departure_time_trip | 0.04 | - | - |
arrival_time_trip | - | 0.03 | - | |
travel_time_trip | 0.07 | 0.05 | 0.04 | |
straight_distance_trip | - | 0.04 | 0.03 | |
s-trip_cnt | 0.04 | 0.03 | - | |
IndustB_yn | 0.04 | 0.04 | 0.04 | |
S-trip | straight_distance_s-trip | 0.06 | 0.05 | 0.06 |
departure_time_s-trip | 0.04 | - | - | |
arrival_time_s-trip | - | - | - | |
Stay | duration_stay | 0.06 | 0.07 | 0.09 |
start_time_stay | 0.04 | 0.03 | 0.04 | |
end_time_stay | 0.04 | - | 0.03 | |
purpose_stay_0.0(return) | - | - | 0.04 | |
purpose_stay_1.0(work) | 0.09 | 0.05 | 0.03 | |
purpose_stay_4.0(other) | - | 0.06 | 0.08 |
본 연구에서는 딥러닝 모델의 무작위성을 고려하여 세 모델 모두에서 높은 SHAP value를 가지는 변수들 을 대상으로 모델을 해석하였다. 먼저, trip 항목의 trip 소요시간은 SHAP value가 0.04~0.07로, beeswarm plot 에서 Y축을 기준으로 우측에 붉은 점들이, 좌측에 푸른 점들이 분포하고 있다. 이는 trip 소요시간이 길면 길 수록 화물운전자의 통행으로 예측한 빈도가 높다고 해석된다. S-trip 항목의 직선거리는 SHAP value가 0.05~0.06의 값을 보였는데, Y축을 기준으로 우측에 붉은 점들이 분포하고 있어 s-trip의 직선거리가 크면 클 수록 화물운전자로 예측한 빈도가 높은 것으로 해석된다.
마지막으로 stay 항목에서는 세 모델에서 영향력이 높은 요인이 가장 많이 나타났다. 먼저, 체류시간의 경 우 0.06~0.09로 변수들 중 가장 높은 SHAP value를 가졌으며, Y축을 기준으로 좌측에 붉은 점들이, 우측에 푸른 점들이 분포하고 있다. 이는, 체류 시간이 짧으면 짧을수록 화물운전자의 통행으로 예측한 빈도가 높다 고 해석된다. 또한, 체류 시작시각도 동일하게 Y축을 기준으로 좌측에 붉은 점들이, 우측에 푸른 점들이 분 포하고 있으며, 체류 시작 시각이 이르면 이를수록 화물운전자의 통행으로 예측한 빈도가 높다고 해석된다. 마지막으로, 체류 목적중 업무 항목이 우측에 푸른 점들이 분포하고 있어, 체류시간이 작으면 작을수록, 체 류 목적이 업무가 아닌 경우에 화물운전자로 예측한 빈도가 높다.
앞서 수행한 기초통계분석 결과와 비교하였을 때, 화물차와 비화물차의 주행에서 큰 차이가 난 trip의 소 요시간, 직선거리, stip의 수 중 소요시간이 높은 연관성을 가지는 것으로 나타났으며, s-trip의 수, 직선거리 모두 일부 연관성을 가지는 것으로 확인된다. S-trip 항목은 기초통계분석과 동일하게 직선거리 항목이 높은 연관성을 보임을 확인할 수 있었으며, stay 항목에서는 체류 시간, 목적중 업무가 높은 연관성을 보임을 확인 할 수 있다. 다만, DNN 모델에서 예측에 영향력을 가진다고 판단한 trip 및 s-trip의 시작 및 종료시각과 기초 통계분석에서 차이가 크다고 판단한 통행수단 및 토지이용 등은 분석 결과가 서로 상이하게 나타났다. 종합 적으로 DNN 모델의 개발 및 XAI를 통한 모델 해석 결과, 기초통계분석에서 화물차와 비화물차에의 주행에 서 큰 차이를 보인 항목들은 DNN 모델에서도 일부 영향력을 가지는 것으로 확인할 수 있다.
Ⅴ. 결론 및 향후 연구과제
국내 화물운송의 약 90%는 도로를 통해 이루어지며, 그 대부분이 화물차 및 특수차량을 통해 수송된다. 화물운송은 그 특성상 도로 포장의 피로파괴로 인한 도로의 유지보수 및 교통안전, 계획에서 체계적인 관리 가 필요하다. 이를 위해서는 화물운송의 기종점 통행량 및 통행패턴 조사가 필수적이다. 다만, 현재의 기종 점 통행량 및 통행패턴 조사는 대면조사 및 가구통행실태조사를 통해 이루어지기 때문에 조사의 지속가능 성, 신뢰성, 제한적인 시공간적 해상도 등 여러 측면에서 한계점을 가지고 있다. 이러한 한계점을 극복하기 위해 최근 모바일 이동통신 데이터를 활용하는 연구가 활발히 수행중이다. 다만, 기존 조사원의 대면조사를 기반으로 수행하는 O-D 조사의 한계점 극복을 목적으로 모바일 이동통신 데이터를 활용하기 위해서는 트립 체인 데이터의 화물차 여부를 확인하는 것이 우선되어야 한다.
따라서, 본 연구에서는 SK telecom에서 제공하는 가명결합과정을 거친 리트머스 데이터를 기반으로 화물 운전자 통행 식별 모델을 개발하였다. 먼저, 기초통계 분석을 통해 화물운전자와 비화물 운전자의 주행 특성 차이를 확인하였다. 기초통계 분석 결과, trip, s-trip의 소요시간과 직선거리, s-trip의 수, stay의 체류 시간 및 체류 목적에서 큰 차이를 보이는 것으로 나타났다. 통계분석 이후 리트머스 데이터를 전처리하여 DNN이 학 습할 수 있는 구조로 재구성하였다. 또한, 모델에 입력되는 데이터가 비화물운전자에 집중되어 있어 랜덤샘 플링을 통해 3가지 학습 데이터를 구성하여 화물운전자 통행 식별 모델을 개발하였다. 개발된 세 가지 모델 의 평가 결과 모두 정확도는 약 75%, 재현율은 약 80%, 정밀도는 약 72%에 해당하는 모델이 개발되었다.
개발된 모델을 해석하기 위해 XAI 기법 중 하나인 SHAP을 적용하였다. 모델의 해석은 입력된 데이터들 중, SHAP value가 높게 측정된 상위 10개 세부항목을 대상으로 하였다. 해석 결과, trip의 소요시간이 길수록 화물운전자로 예측한 빈도가 높으며, s-trip의 직선거리가 길수록, stay의 체류 시간이 짧을수록, 시작 시간이 이를수록 화물운전자로 예측한 빈도가 높다. 또한, stay의 체류목적이 업무가 아닌 경우에 화물운전자로 예측 한 빈도가 높다. 이는, 앞서 수행한 기초통계분석 결과와 비교하였을 때, 큰 차이를 보인 항목들은 개발된 모 델에서도 일부 영향력을 가지는 것으로 확인되었다.
본 연구에서는 화물운전자 통행 식별 모델과 XAI를 활용한 모델 해석 결과를 통해 화물운전자와 비화물 운전자의 주행특성 차이를 확인할 수 있었다. 또한, 데이터의 기초통계 분석 결과와 비교하여 화물운전자 통 행 식별 모델의 해석 결과가 일부 유사하게 나타난 것을 확인할 수 있다. 따라서, 본 연구는 모바일 이동통 신 데이터를 활용하여 화물운전자와 비화물 운전자를 분류할 수 있음을 확인하였다는 점에서 의의가 있다.
다만, 연구에서 활용한 트립 체인 데이터는 모바일 이동통신 데이터를 기반으로 체류, 이동 등의 목적과 통행수단 등을 추정하여 제공하는 리트머스 데이터를 재구성한 데이터로, 데이터의 특성에 따라 다음과 같 은 한계점을 가진다. 먼저, 리트머스 데이터는 통행수단을 추정함에 있어 화물차량은 그 대상에 없으며, 대 부분의 화물차는 자가용과 기타로 편성되어 있다. 이에, 본 연구에서는 화물운전자를 확인하기 위해 화물차 운전자용 어플리케이션 사용 실적이 있는 사용자를 화물운전자로 설정하였다. 이러한 방법은, 화물차 운전자 용 어플리케이션을 사용하지 않는 기업에 소속된 화물운전자를 포함하지 못할 수도 있다는 한계점을 가진 다. 또한, 모델 개발에 활용된 DNN은 범용적이고 성능이 안정적이라는 장점을 가지고 있으나, 데이터의 특 성(범주형 데이터와 수치형 데이터의 결합 등)을 명확하게 반영하지 못한다는 한계가 있다.
따라서, 향후 모델 개발에 있어 본 연구에서 도출된 영향요인들을 고려하여 추가 데이터를 수집하고 데이 터의 편중성을 고려할 수 있는 딥러닝 모델을 활용하는 경우 모델의 성능을 높일 수 있을 것으로 사료되며, 향후 모바일 이동통신 데이터 기반 화물차량 O-D 구축 및 국내 물류 기본계획 등에서도 활용될 수 있을 것 으로 기대한다.