Ⅰ. 서 론
1. 개요
최근 자율주행차 뿐만 아니라 일반 차량에서도 차량용 LiDAR(Light Detection and Ranging), Radar(Radio Detection and Ranging), GPS, 카메라 등의 센서를 장착하여 주변의 상황을 분석하고 분석 정보를 자율주행 시스템에 활용하고 있다. 또한, Radar를 이용한 강수량의 분석(Lim, 2019), 교통밀도의 분석(Yang et al., 2018) 이나 GPS 신호를 이용한 구간속도의 분석 등 다양한 연구가 수행되었다. 이는 실시간으로 생성되는 차량센 싱 데이터를 활용한 것으로써, 지속적인 연구가 추진될 것으로 예상된다.
하지만, 차량센싱 데이터는 도로상에서 생성되기 때문에 실시간 발생되는 방대한 양의 데이터를 융합하여 활용하기 위해서는 기존의 좌표기반의 링크 매칭 방법으로는 다음과 같은 문제점이 있다. 첫째, 수집되는 데 이터량이 비교적 적을 때는 실시간 처리가 가능하였으나, 데이터 량이 방대해질 경우 좌표정보를 실시간으 로 링크 ID로 변환하여 데이터베이스에 저장함에 따라 처리시간이 과다하게 소요된다. 둘째, 국가표준 노드 링크를 사용하면 도로 형상정보를 따른다는 장점이 있지만 복잡한 교차로나 다양한 도로 선형 정보에 매칭 하기 어려운 문제가 있다. 셋째, 기상 등 공공 데이터는 면 정보로써 각각의 링크에 매칭하기 위해서는 공공 데이터의 면적과 링크의 매칭을 위한 공간 분석이 필요하다.
기존 공간 빅 데이터를 효율적으로 처리를 목적으로 데이터의 삽입, 삭제, 갱신, 조회 등의 처리를 빠르게 수 행하기 위해 다양한 공간 인덱스 연구가 수행되었다. 전통적인 공간 인덱스 접근 방법은 <Fig. 1>과 같이 크게 균등 분할(uniform decomposition), 비중첩 분할(non-disjoint decomposition), 중첩 분할(disjoint decomposition)으로 분류되며 각각 그리드 기반, R-Tree 기반, QuadTree 기반 인덱스에 해당된다(Singh and Bawa, 2017). 공간 인 덱스는 특정 인덱스가 타 인덱스에 비해 절대적으로 우수하기보다는 삽입, 삭제, 갱신, 조회 등 어떤 연산이 빈번한지 여부나 데이터의 분포 등 여러 요소에 따라 우수성이 다르다.
그리드 인덱스 기법 중 GeoHASH는 공간 빅데이터에서 공간정보 검색 속도를 높이기 위해 경위도 두 값 의 좌표를 한 개의 숫자로 변환하는 기법으로, 경위도 좌표의 이진화를 통해 생성한 코드를 32진법 또는 64 진법으로 변환하여 사용하는 것으로, 32진법으로 표현되는 지오 코딩 방법(Niemeyer and Geohash, 2000), 64 진법, Hilbert 등 다양한 변형 방식(Vukovic, 2016)을 사용하고 있다.
GeoHASH는 전 세계를 기준으로 경위도 좌표를 이용한 해당 영역을 탐색하는 것으로써, 2진화와 32진화 절차를 거쳐야 하므로, 소규모 지역의 대용량 데이터 맵핑에는 과다한 계산을 수행할 수 있다. 따라서, 본 연 구에서는 우리나라 영역에 맞는 소규모 그리드를 미리 생성하여 ID를 부여한 후 대용량 데이터를 신속하게 매핑할 수 있는 방법을 제시하고자 한다. 제안한 그리드 공간 분할 방식과 그리드 ID 부여 방식에 대하여 적 용 가능성 및 효과를 분석하였다. 차량 센서에서 실시간 분석된 강수 데이터를 전국 화물차의 디지털 운행기 록장치(DTG, Digital Tachograph) 데이터를 기반으로 가상 생성하여 좌표기반으로 맵핑하였으며, 제안 방식과 링크 단위 처리방식의 처리 속도를 비교하였다.
2. 관련 연구동향
다양한 센서에서 기하급수적으로 발생하는 다량의 센싱 데이터를 효율적으로 처리·분석하기 위하여 국내· 외에서 다수의 관련 연구가 수행되었다. 본 절에서는 수행된 관련 연구에 대하여 조사하여 본 연구와의 차별 성을 분석하였다. 각 센싱 데이터는 범위와 유형이 다르고 공간 분석을 위한 맵핑 구축 등 복잡성이 있기 때 문에 GIS 측량 및 재난 대응을 위한 비상 매핑 등의 분야에서 효율적이고 효과적인 데이터 처리는 큰 과제 로 떠오르고 있다. 데이터의 처리 효율성을 개선하기 위해 글로벌 멀티스케일의 그리드 인덱스 방식(Yi et al., 2020)을 제안했으며, 기존 데이터 처리방식과의 성능을 비교 검증하였다. 그러나 이는 기존 그리드 기반 의 데이터 처리방식에서 그리드의 형태를 변형하고, 시스템 SW를 달리한 개선방안에 대한 것으로 그리드 간의 비교분석으로 링크 단위의 데이터가 주를 이루는 도로교통 빅데이터를 대상으로 하는 본 연구 제안 방 식과는 차이점이 있다. 영국 런던의 대기환경 데이터를 대상으로 공간분석을 위한 데이터 매핑 기술 (Mouzourides et al., 2019)에 대한 연구가 수행되었으며, 제안 기술을 통하여 다중 스케일 및 다중 해상도를 가지는 데이터를 후처리하여 원하는 해상도로 일괄 조정할 수 있다. 해당 방식은 서로 다른 해상도의 데이터 를 모델링을 통한 확장 분석이 가능한 장점이 있으나 본 연구에서 다루는 단일 스케일의 차량 센싱데이터와 기술 대상에 차이가 있다. 국내에서도 공간 빅데이터의 효율적인 처리 분석을 연구가 수행되었다. GIS를 기 반으로 지반 공간정보를 통합한 지진 위험 평가 시스템(Kim, 2014)이 개발되었으며, 현장 시뮬레이션을 통해 실시간으로 지진 위험을 예측하기 위해 개발된 시스템의 적용 가능성과 효과를 검증하였다. 이 외에 그리드 인덱스 기반 뷰 선택 알고리즘(Hong et al., 2015)을 제안되었다. 제안 알고리즘 기술은 원하는 그리드 셀 영 역만을 탐색하여 보여주는 맵핑 기반의 그리드 인덱스를 구축하는 것으로 그리드 단위의 데이터 처리 및 시 각화 성능을 향상시키는 것으로 나타났다. 이들은 그리드 단위의 데이터 처리 효율성 검증 및 개선방안에 대 한 기술 제안으로 도로에서 생성되어 링크 단위로 처리하고 있는 교통 빅데이터를 효율적으로 맵핑하기 위 한 개선 방안 마련이 필요하다.
Ⅱ. 그리드 인덱스의 생성
그리드 인덱스 개발을 위해 전국 지도를 구글 좌표계 기준으로 균등 분할하여 각 그리드마다 그리드 ID를 부여하였다. 그리드 ID는 그리드의 영문 G와 전체 그리드의 위도 값과 경도 값을 순서대로 조합하여 부여하 였다. 예를 들어, 위도 좌표가 37.670000이고, 경도 좌표가 126.780000인 데이터의 그리드 ID는 G37670000 126780000이다. 그리드 영역에 대한 그리드 셀 정보는 그리드 메타데이터라 명명한 메타데이터로 저장하여 관리하고 있다.
공간정보 분석 시 아이콘, 링크, 그리드, 행정구역 중 하나의 공간 단위 선택이 필요하다. 이에 따라 분석 전에 그리드 매핑 테이블을 활용하거나 연산을 통해 공간 매칭을 하여야 한다. 아이콘은 해당 좌표에 아이콘 을 표시하는 것을 의미한다. 좌표 값은 그리드 영역에 해당하는 모든 좌표 값과 그리드를 매핑하여 별도의 테이블을 만들어 사용할 수 있으나 저장 공간을 많이 차지하며 오버헤드도 크다. 또한, 그리드에 해당하는 좌표 값이나 좌표 값에 해당하는 그리드 값은 별도의 테이블 저장 없이 연산이 가능하므로 본 연구에서는 좌표-그리드 매핑 테이블을 별도로 만들지 않았다. 본 연구에서의 그리드 인덱스 기반 공간 매핑은 그리드 인덱스 구축과 매핑의 두 단계로 이루어지며 다음 <Fig. 2>와 같다.
도로를 선형 링크로 취급하고 각 링크 ID를 LINK1, LINK2, LINK3, LINK4로 명명하였다. 해당 링크가 포 함된 그리드를 선택하여 매핑 테이블에 저장하였다. 예로 <Fig. 2>에서 그리드 ID가 G37670000126780000인 그리드에 있는 링크의 ID는 LINK1이므로 매핑 테이블에는 (G37670000126780000, LINK1)으로 저장하는 방식 이다. 도로 빅 데이터 매핑을 위한 그리드 인덱스 구축에서 그리드 ID G37450000126890000과 같이 교차로인 경우 그리드 내 LINK1, LINK2, LINK3, LINK4 등 다수 개의 링크가 존재한다. 여러 개의 링크 ID 중 어느 데 이터를 그리드 ID와 매핑 테이블에 저장할 것인가에 대한 문제가 발생한다. 이는 교차로 경우뿐만 아니라 접하지 않는 일렬 다중 도로가 존재하는 경우도 포함된다. 이러한 문제점을 해결하기 위하여 그리드 내 가장 큰 면적 비율을 차지하는 링크와 그리드를 매칭하는 방법이 있으나 링크에서 생성된 국부적인 데이터에 대 한 분석이 불가능하며, 그리드 단위 데이터의 정확성이 감소하는 단점이 있다. 더불어 차량센싱 빅 데이터의 처리·분석 경우, 실시간 응답의 필요성이 중요하므로 데이터의 빠른 처리 속도를 반드시 고려할 필요가 있 다. 이에 그리드 데이터의 정확도를 확보하며, 처리 속도를 개선하기 위하여 그리드 생성을 통한 데이터를 맵핑하는 방안 마련이 필요하다.
그리드 기반의 대용량 데이터에 대한 가공 및 처리는 <Fig. 3>과 같다. 공간 단위 매칭은 우선적으로 GIS 상의 링크 ID와 행정구역에 대한 그리드 인덱스 매칭 테이블을 구축한다. 그리고 구축된 매칭 테이블을 이 용하여 좌표 단위 차량센싱 데이터에 대한 링크 ID와 행정구역 매핑을 수행한다. 여기서, 좌표 단위 차량센 싱 데이터에 대한 그리드 ID 매핑은 별도의 공간 연산 없이 식(1)과 같이 위도 및 경도좌표를 단순 연결하여 산출한다.
기존 링크단위 처리 방식은 해당 링크에 센싱데이터를 맵핑하기 위하여 센싱데이터의 좌표 값을 추출하 고, 좌표 값이 포함되는 그리드, 링크를 순차적으로 검색하여 해당 링크와 매칭하는 방식을 의미하고, 본 논 문에서 제안한 그리드 인덱스기법은 센싱데이터의 좌표 값을 센싱데이터의 Grid ID로 부여하여 해당 그리드 에 바로 매칭하는 방식을 의미한다. 정수인 좌표 값을 사용하는 Grid ID는 센싱 데이터를 고유하게 식별하기 용이하며 검색 및 데이터 처리가 우수함에 따라 센싱데이터의 GIS 공간 맵핑에서의 효율성이 향상되어 기존 방식보다 유리할 것으로 판단된다.
그리드 매핑 테이블은 좌표-그리드, 링크-그리드, 행정구역-그리드로 크게 3가지로 구분하였다. 먼저 좌표 값은 점 단위의 위치 정보로 본 연구에서는 구글 좌표계를 기준으로 하였다. <Table 1>은 좌표 값을 그리드 와 매핑한 테이블 구조이다. 링크는 도로선형을 표현하는 선형 공간정보를 의미하며 본 연구에서는 표준노 드링크와 Sk T-map에서 사용하는 Sk네트웍스 공간 선형정보로 매핑 테이블을 구성하였다. <Table 2>는 링크 와 그리드를 매핑한 테이블 구조이다. 행정구역은 읍·면·동, 시·군·구, 광역시·도 중 하나의 면적 단위로 나타 낼 수 있다. 행정안전부에서는 행정구역을 코드화하여 관리하고 있고 본 연구에서는 행정안전부의 법정동코 드에 따라 행정구역을 구분하였다. 법정동 코드는 총 10자리로 왼쪽부터 2자리는 시도, 다음 3자리는 시군 구, 다음 3자리는 읍면동, 마지막 2자리는 리를 표현한다. 아래의 <Table 3>은 행정구역을 그리드와 매핑한 테이블 구조이다.
Ⅲ. 적용 및 분석
본 연구에서 제안한 그리드 공간 분할 방식과 그리드 ID 부여 방식에 대하여 적용 효과 및 가능성을 분석 하였다. 전국 DTG 데이터를 활용하여 좌표기반으로 도로 링크에 맵핑하는 처리 속도와 그리드에 맵핑하는 처리 속도를 비교 분석하였다. 그리드 맵핑의 적용 가능성 및 링크 단위 맵핑과의 차별성을 확인하고자 차량 센서에서 실시간 분석된 강수 데이터를 전국 화물차의 디지털 운행기록장치(DTG, Digital Tachograph) 데이터 를 기반으로 가상 생성한 데이터를 맵핑하여 시각화하였다.
1. 그리드 인덱스 기법을 적용한 데이터 처리 효율성 분석
본 연구에서 제안한 그리드 인덱스 기법을 적용한 차량센싱 빅 데이터의 처리 효율성을 확인하기 위하여 기존의 링크 단위 데이터 처리방식과 그리드 인덱스 방식의 데이터 처리 시간을 비교 분석하였다.
현재 고속국도, 일반국도 등 전국 모든 유형의 도로 길이는 총 110,714km이고, 모든 도로 네트워크를 대상 으로 국가교통조사 및 DB구축사업을 통하여 구축된 도로 네트워크에서의 노드 수는 139,949개이다. 또한 구 축된 링크 수는 321,153개이며, 구축된 링크 길이는 105,824km이다. 그리드의 경우, 1km 간격의 정사각형으 로 나누면 전국 면적에는 110,000개에 달하는 그리드가 생성된다. 단순 규모에 대하여 그리드와 링크를 비교 해보면 그리드 단위의 공간맵핑 인덱스는 링크 단위에 비하여 약 3배 적으며, 그리드를 넓은 간격으로 단순 화하고 특수 구간에 대해서만 좁은 간격으로 세분화를 할 경우, 그리드와 링크의 차이는 그 이상이 될 것으 로 판단된다. 제안 방식은 검색과 처리가 빠른 좌표 값을 ID로 부여함에 따라 별도의 계산 없이 해당 그리드 로 맵핑되고, 기존 방식은 좌표 값에 해당하는 그리드를 탐색하고, 그리드 내 해당 링크를 추가 검색하여 매 칭되므로 데이터 맵핑 및 처리에 많은 소요시간이 발생하는 차이가 있다.
제안 방식을 적용하여 전국 단위로 생성되는 센싱 데이터의 효율성을 검증하고자 가상의 데이터를 사용 하여 실제와 가까운 데이터 처리시간 효율성 분석을 수행하였다. 분석에서 사용한 데이터와 컴퓨터의 사양 은 <Table 4>와 같다. 분석 데이터는 전국 단위의 화물차 디지털 운행기록장치(DTG) 데이터로 데이터의 내 용은 화물차의 ID, 주행거리, 주행시간, 기록 시각, 주행 속도, 가속도, 위도·경도 좌표 값 등으로 구성된다. 모든 데이터는 1초 단위로 기록되며, 사고 등 이벤트 발생 시 전후 0.01초 간격으로 기록된다. 분석에서는 약 950만 개의 데이터로 구성된 파일을 3세트 적용하였으며, 데이터의 총 용량은 4.1GB이다. 또한 링크 단위의 데이터 처리를 위하여 <Table 5>와 같이 링크와 노드의 정보를 입력하고 링크 버퍼 거리를 5m로 설정하였으 며, 그리드 단위의 데이터 처리에서의 그리드 크기는 가로세로 1km로 설정하였다. 분석 결과, <Table 6>과 같이 링크 단위로 DTG 데이터가 처리되는 시간은 3회 평균 5,173초(약 86분)가 소요됐으며, 그리드 단위로 데이터가 처리되는 시간은 3회 평균 2.12초가 소요된 것으로 분석되었다. 이에 제안한 그리드 인덱스 기법을 적용하여 차량센싱 빅 데이터를 처리하는 하는 것이 기존의 방식보다 약 2,400배 빠른 처리 속도를 가지는 것으로 분석되었다.
2. 차량센싱 데이터를 적용한 맵핑 및 시각화
제안한 그리드 분할 방식의 효율성을 확인하기 위해서는 다량의 실시간 차량센싱 데이터가 확보와 데이 터 맵핑이 수행되어야 한다. 그러나 차량센싱 데이터 확보가 가능한 실험용 차량과 데이터 양이 한정되어 있 어 가상의 데이터 활용이 필요하다. 이에 DTG 데이터의 위치 정보를 활용하여 가상의 차량센싱 데이터에 대한 매핑 시뮬레이션을 수행하였다. 이를 통해 실제 차량센서를 이용하여 관측된 강수 데이터의 GIS 상 맵 핑과 유사한 환경을 구현하였다. <Fig. 4>는 DTG 데이터 기반의 가상 차량센싱 데이터를 맵핑한 화면이다.
다음 <Table 7>은 가상의 차량센싱 데이터를 맵핑하기 위하여 필요한 DTG 데이터베이스 테이블 및 구조 이다. 전국 단위의 DTG 데이터의 위치 기반으로 차량센싱 데이터를 맵핑한 지도 가시화 모형은 <Fig. 5>와 같은 점 단위 형태로 지도 위에 표출하였다.
링크 단위 데이터와 점 단위 데이터의 GIS 표출 결과를 비교한 아래 그림과 같다. <Fig. 6>은 링크 단위의 데이터를 속성정보에 따라 색깔로 구분하여 표출한 화면과 점 단위 데이터를 GIS 위치 기반으로 표출한 화 면이다. 표출 화면의 비교를 통하여 차량센싱 데이터 등 점 단위 표출이 필요한 데이터의 정보제공 및 시각 화를 위하여 데이터의 처리속도를 고려한 그리드 공간 분할 방법의 필요성을 확인할 수 있다.
Ⅴ. 결 론
본 연구에서는 우리나라 영역에 맞는 소규모 그리드를 미리 생성하여 ID를 부여한 후 대용량 데이터를 신 속하게 매핑할 수 있는 방법을 제시하고 그리드 공간 분할 방식과 그리드 ID 부여 방식에 대하여 적용 가능 성 및 효과를 분석하였다. DTG 데이터를 이용하여 기존 GIS 상에서의 데이터 처리 방식과의 비교를 통하여 제안 방식에 대한 처리 속도 및 시간의 우수성을 확인하였다.
향후 자율주행 시대에서의 방대한 양의 차량센싱 데이터를 처리하기 위하여 그리드 인덱스 기법을 이용 한 빅 데이터 맵핑 기술의 적용이 필수적일 것으로 판단되며, 원활한 차량센싱 데이터 처리를 통하여 자율주 행차의 안정성 확보가 가능할 것으로 기대된다. 본 연구에서 제안한 그리드 공간 분할 방법을 적용한 차량센 싱 데이터의 GIS 상 표출 시, 다른 유형의 데이터 및 단위가 상이한 데이터와의 복합적인 표출 가능성에 대 한 확인 및 최적의 시각화 방안을 위한 추가적인 연구가 필요할 것으로 보인다. 더불어 교통 빅 데이터의 유 형별 그리드 셀의 최적화 크기 산출에 대한 추가적인 연구 수행이 필요하다.