Ⅰ. 서 론
최근 스마트폰 등 모바일 단말기, 대용량 무선 네트워크 및 GPS 기술은 교통시스템에서 데이터의 수집을 위해 도로나 시설에 직접 장착되는 루프검지장치나 영상검지장치 등 고정식에서 차량이나 사람 등의 이동체 (Mobility)에 직접 탑재 또는 휴대가 가능한 스마트 모바일 기기로의 변화를 급속히 초래하였다. 협력 지능형 교통체계인 C-ITS (Cooperative ITS), 자율주행(Autonomous Driving)과 MaaS(Mobility as a Service) 등의 새로운 교통 관련 기술은 차량 및 사람의 개별 이동궤적과 관련된 모빌리티 데이터를 대량으로 생산 및 활용 할 수 있도록 하여 교통 데이터를 더욱 풍성하게 하고 있다.
The Korea Transportation Institute(2017)와 Lee and Jung(2018)은 교통 분야에서 활용 가능한 모빌리티 데이 터를 교통카드, 차량의 통행, 기타 영상 데이터 등 교통 관련 데이터와, 이동통신, 신용카드, 정밀지도 데이터 등 비교통 관련 데이터로 분류하였다. 특히, 모빌리티 데이터의 수집, 이용 등 생명주기(Life-Cycle) 전반과 교통카드, 차량 통행, 통신 데이터 등과 같은 개인정보가 포함된 이종 데이터 간의 결합, 분석, 활용을 위한 법적 규제에 대해 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보 없이 는 특정 개인을 알아볼 수 없도록 처리 한 가명정보(Pseudonymous Information)와 개인 식별이 불가능하도록 처리한 익명정보(Anonymous Information) 이용 등의 해결안을 제시하였다.
우리나라는 2020년 8월, 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)의 개정을 통해 <Fig. 1>과 같이 업무를 목적으로 개인정보파일을 운용하거나 제3자를 통해 개인정보를 처리하는 개인정보처리자 (Personal Information Controller, 이하 사용자)가 개인정보를 통계작성, 과학적 연구, 공익적 기록 및 보존 등을 위해 정보 주체의 동의 없이 가명정보를 이용할 수 있도록 하였다(Personal information Protection commission, 2022a). 그러나 사용자들 간의 가명정보 결합 및 반출에 있어서는 관련법에서 지정한 가명정보 결합전문기관 이 이를 처리하고 심사 및 반출을 승인토록 법제화 하였다(Personal information Protection commission, 2022a). 이와 더불어 사용자가 가명정보 결합을 위해 개인 식별정보를 Hash알고리즘 등으로 일방향 암호화 할 때 더 욱 강력한 보안을 제공하기 위해 사용되는 Salt를 생성하여 제공토록 하는 결합키관리기관을 별도로 두어 운 영하고 있다.
2022년 4월 제정된 ‘데이터 산업진흥 및 이용촉진에 관한 기본법’에서는 누구든지 데이터를 안전하게 분 석하고 활용할 수 있는 데이터안심구역 및 관리기관을 지정하는 근거를 마련하였다. <Fig. 2>는 데이터안심 구역이 개인정보를 제외한 정부, 지방자치단체, 공공기관, 법인 등이 보유, 관리하고 있으나 경영상 및 영업 상 비밀을 포함하는 이유로 외부로 공개하지 않는 매출 상세자료 등의 미개방데이터를 확보하여 제공하고, 사용자가 이를 안전하게 분석할 수 있는 공간, 시설 및 데이터 분석 도구 등을 제공하도록 하였다.
그러나 이와 같이 개인정보가 포함된 데이터의 가명처리 및 가명정보 결합시스템과 미개방 데이터를 이 용한 분석을 진행하는 데이터안심구역을 별도로 분리하여 운영 및 관리하는 기존의 방식은 실제적인 데이터 활용 시 여러 가지 문제를 내포한다. 즉, 사용자들이 가명정보 및 미개방데이터를 생성 및 획득하고, 분석 및 활용하기 위한 데이터의 생명주기 전 과정을 지원하지 못하므로 이를 이용하는 데에 필요 이상의 시간이 소 요되는 등 비효율성이 존재한다. 또한 이원화에 따른 문제의 해결을 위해 가명정보 결합과 데이터안심구역 을 동시에 운영하고자 하는 공공 및 민간 기업은 유사한 기능을 수행하는 별도의 공간 및 시설, 그리고 시스 템을 구축하고, 운영인력을 구성해야 하는 등 구축 및 운영상 부담이 존재한다. 또한 데이터 보안 측면에서 취약한 가명처리 및 분석환경을 보유한 사용자는 정보시스템 및 개인정보 보호를 위한 기반시설이나 시스템 을 충분히 보유하고 있지 않아 개인정보의 유출, 오남용 및 재식별의 위험 등과 같은 가명정보 및 미개방데 이터의 사후관리 측면에서 문제를 갖는다.
따라서 본 연구는 이와 같은 개인정보가 포함된 모빌리티 데이터 처리 및 활용과 관련된 기존의 문제를 해결할 수 있도록, 가명ㆍ익명처리, 결합, 분석, 활용 및 폐기의 데이터 생명주기 전 과정을 지원하는 통합 데이터안심구역(Integrated Data Safety Zone, IDSZ)의 개념적 프레임워크를 제시한다. 제시된 프레임워크의 구 성을 위해 공통 요구사항을 도출하고, 핵심 요소기술들을 정의 하였다. 또한, 도출된 요구사항을 충족시키는 핵심 요소기술의 상호 영향 관계를 분석 및 종합하여, 가명정보 결합시스템 및 데이터안심구역 시스템을 일 원적으로 통합하는 차세대형 통합 데이터안심구역의 아키텍처를 제시한다.
Ⅱ. 교통 분야 가명정보 결합전문기관 및 데이터안심구역에 대한 고찰
1. 교통 분야 가명정보 결합전문기관
1) 개인정보 가명처리 및 가명정보 결합 절차
Personal Information Protection Commission(2022a)의 ‘가명정보 처리 가이드라인’에 따른 사용자의 가명처리 프로세스와 교통 분야 가명정보 결합전문기관의 결합 및 반출처리 프로세스는 <Fig. 3>과 같다. <Fig. 3>은 고속도로 하이패스 통행정보와 관광지의 주차장 정보를 이용해 최적의 관광지 입지선정에 활용하기 위해 가 명처리, 결합 및 반출처리 과정을 도식화한 것이다.
첫 번째, 가명처리 단계에서는 ① 사용자가 결합키관리기관과 협의를 통해 SHA256 등 일방향암호화 알고 리즘을 선정하고, Salt값의 제공을 요청한다. ② 결합키관리기관은 사용자가 협의된 가명처리 암호화 알고리 즘에 사용할 Salt값을 생성해 사용자에게 제공한다. ③ 사용자는 가명처리 알고리즘과 Salt값을 사용해 개인 식별정보(차량번호)를 가명처리를 통해 결합키로 변환한다. ④ 사용자는 결합키와 이에 상응하는 임시 일련 번호를 생성한다. ⑤ 사용자는 결합키와 일련번호의 쌍으로 이루어진 결합키 정보를 생성해 결합키전문기관 에 전송하고, 이때 결합키는 삭제하고 일련번호를 포함시킨 결합대상정보를 생성해 결합전문기관으로 각각 전송한다.
두 번째, 가명정보 결합 및 반출단계에서는 ⑥ 결합키전문기관은 사용자들로부터 전송받은 결합키와 일련 번호를 사용하여 결합키연계정보를 생성한다. ⑦ 결합전문기관은 결합키전문기관으로부터 결합키연계정보 를, 사용자들로부터 결합대상정보를 각각 전송 받는다. ⑧ 결합전문기관은 결합키전문기관으로부터 전송받 은 결합키연계정보와 사용자로부터 전송받은 결합대상정보를 이용하여 하이패스 통행정보와 주차장정보를 결합한다. ⑨ 결합전문기관은 가명정보를 결합한 후 재식별이 불가능하도록 일련번호를 삭제하고, 최종 결합 결과물을 생성한다. ⑩ 결합전문기관은 결합에 대한 반출심사를 거처 최종 결합 결과물을 사용자에게 반출 한다. 이 경우 결합전문기관은 결합 및 반출관련 정보를 파기하고, 사용자는 가명정보 목적 외 활용 및 재식 별 방지 대책, 보유기간 및 파기기준 수립 등 안전조치 계획에 따라 활용 및 관리하는 순서로 결합전문기관 의 결합 및 반출 프로세스가 종료된다.
2) 가명정보 결합시스템의 논리구조 및 기능
교통 분야 가명정보 결합전문기관은 <Table 1> (A)와 같이 Personal Information Protection Commission(2022b) 이 고시한 ‘가명정보의 결합 및 반출 등에 관한 고시’에 의거하여 지정요건의 충족 여부에 따라 운영기관을 지정한다. 결합전문기관이 운영하는 결합시스 템은 <Fig. 4>와 같이 가명결합처리를 포함하는 어플리케이션, 데이터베이스관리시스템(DBMS) 및 데이터베이스와 파일들이 담긴 데이터저장소의 3계층 구조로 기능은 7 개의 모듈로 구성되어 있고, 각각의 모듈은 <Table 2>과 같은 기능을 수행한다.
2. 교통 분야 데이터안심구역 관리기관
1) 데이터안심구역 이용 절차
교통 분야 데이터안심구역은 4단계의 프로세스로 운영되며 <Fig. 2>와 같다. ① 사용신청 단계에서 사용자 는 데이터안심구역이 확보하여 제공이 가능한 미개방데이터를 요청 할 수 있으며, 사용자가 보유한 데이터 를 업로드하고, 데이터 분석환경을 신청한다. ② 사용승인단계에서 데이터 안심구역 관리기관은 사용신청에 대해 데이터의 적정성 등을 심사하고, 사용자에게 데이터안심구역의 사용을 승인한다. ③ 데이터 분석단계에 서 사용자는 데이터안심구역을 방문해 미리 신청한 분석시스템을 할당 받고, 사전 승인된 데이터를 이용해 분석을 수행한 후 분석결과에 대한 반출신청을 한다. ④ 반출단계에서는 데이터안심구역 운영자는 사용자가 반출 신청한 데이터에 대해 심사하고 반출을 승인한다. 사용자는 데이터안심구역 홈페이지에 접속해 분석결 과를 다운받아 업무에 활용한다.
2) 데이터안심구역 논리구조 및 기능
교통 분야 데이터안심구역은 <Table 1> (B)와 같이 과학기술정보통신부가 고시한 ‘데이터안심구역 지정 및 운영에 관한 지침(Ministry of Science and ICT, 2022a)’ 및 ‘데이터안심구역 보안대책에 관한 고시(Ministry of Science and ICT, 2002b)’에 의거하여 인증요건의 충족 여부에 따라 관리기관을 지정한다. 데이터안심구역 의 논리적 구조는 <Fig. 5>와 같이 어플리케이션, 데이터베이스관리시스템(DBMS) 및 데이터베이스와 파일들 이 담긴 데이터안심저장소의 3계층 논리구조로 7개의 모듈로 구성되어 운영 중에 있으며 각각의 기능모듈은 <Table 3>와 같은 기능을 수행하고 있다.
3. 현행 문제점 고찰 및 개선안
결합전문기관에 대한 기존 문헌은 대부분 데이터 3법 개정에 따른 법적 소고와 제언이 대부분이다. 그중 에서 참고할 만한 문헌으로 결합전문기관을 통한 개인정보의 안전한 처리기준, 처리 위험 및 사회적 불안 해 소, 보호와 이용 간의 조화(Kim, 2020b), 데이터 결합, 분석, 개방, 거래에 이르는 시너지 창출을 위한 원스톱 지원 활용체계 구축(Kim & Kim, 2020)의 주장이 있다. 특히, Kim and Kwon(2023)은 실제 결합전문기관의 지 정에 대한 법/제도 및 운영현황 등을 살펴보고, 개인정보 등의 가명처리와 가명정보 결합을 확장해 데이터의 안전한 재활용을 위한 공동저장소 구축 등 데이터 생태계 시너지 창출 필요성을 제기했다. 한편, 데이터안심 구역에 대한 기존 연구는 아직 제대로 이루어지지 않고 있으나, 최근 데이터안심구역에서 활용하는 미개방 데이터(기업의 경영상, 영업상 비밀자료)의 확보와 활용 데이터의 범위를 어디까지 봐야 하는지에 대한 논의 와 개인정보 등의 가명처리와 결합기능을 데이터안심구역에 통합할 필요성을 제기하였다(Kim, 2023).
이에 본 연구에서는 현재 운영되고 있는 교통 분야 가명정보 결합전문기관과 데이터안심구역 관리기관을 이원화하여 지정 및 운영함에 따라, 교통데이터를 활용하고자 하는 개인, 스타트업 및 중소기업 등 사용자에 게 다음과 같은 세 가지 측면의 문제점이 있을 수 있으며, 이에 대한 각각의 개선안을 도출하였다.
첫째, 가명정보 생성 및 활용 프로세스의 복잡성과 중복의 문제이다. <Fig. 1>의 가명처리, 가명정보 결합 및 반출 프로세스에서 나타나는 것과 같이, 1단계 가명처리 단계에서는 결합키관리기관과 결합전문기관을 통해 사용자가 가명처리를 진행하는 5개(사전준비, 위험성 검토, 가명처리, 적정성 검토, 사후관리)의 절차를 거쳐야 하고, 2단계 가명정보 결합 및 반출 단계에서는 1단계를 통해 생성된 가명정보를 결합 및 반출하는 데에 4개(결합신청, 적정성 심사, 가명결합, 반출심사 및 반출)의 절차를 거쳐야 한다. 또한 <Fig. 2>의 데이 터안심구역을 통한 가명정보 분석을 위해서는 4개(이용신청, 이용심사, 데이터 분석, 결과심사 및 반출)의 절 차를 거쳐야 한다. 이때 각 기관이 수행하는 프로세스 중 결합(이용)신청, 적정성(이용) 심사, 결과심사 및 반 출은 기능적인 면에서 동일한 것으로 인식할 수 있으므로, 데이터를 활용하려는 사용자 관점에서의 데이터 활용 생명주기, 즉 데이터 검색부터 활용 및 출력까지의 일련의 절차를 지원하지 못한다. 또한 운영 및 관리 기관이 서로 상이하여 가명정보 생성을 위한 필수 기능 간 상호연계가 되지 않는 경우로 인하여 데이터 유 출 및 오남용 등의 보안관리 상의 문제가 발생될 수 있다. 따라서 개인정보 보호 중심 설계인 PbD(Privacy by Design)의 7가지 원칙(Kim, 2022)의 적용을 통해 가명정보 활용 생명주기 전 과정을 지원할 수 있도록 통합 된 가명정보 생성 및 활용 프로세스의 설계가 필요하다.
둘째, 두 기관이 운영하는 현재의 시스템을 통합함에 따라 발생될 수 있는 신뢰성(Reliability) 및 투명성 (Transparency)의 확보 문제이다. 개인정보에 준하는 가명정보와 미개방데이터의 안전한 활용을 위해서는 데 이터의 저장과 이동에 따른 데이터 유출, 오남용, 그리고 불법적인 접근은 원천적으로 차단되어야 한다. 데 이터 전반에 대한 추적관리와 사용자의 신분과 그에 따른 서비스 및 데이터 접근 권한을 통합적으로 관리할 수 있도록 통합 인증 등을 통한 안전한 데이터 저장소의 구성이 필요하다(Min and Son, 2022).
셋째, 데이터 활용 주체, 즉 개인, 스타트업 및 중소기업 등 사용자의 시스템 보안 수준에 따른 차별적인 데이터 보안 정책 및 솔루션 구축 등과 관련된 한계가 존재 한다(Kim, 2020a). 가명정보 및 미개방데이터의 활용을 통해 생성된 결과물을 데이터안심구역 내에서 확인하는 경우와 이를 추가적인 활용이 가능하도록 외 부로 반출하는 경우에 따라 차별적인 데이터 보안 정책이 필요하고, 이를 지원하는 시스템적 기능이 요구 된 다. 즉, 가명정보 생성, 개방, 분석, 거래 등의 과정을 원스톱 서비스로 제공할 수 있는 통합 데이터안심구역 개발 및 활용과 관련된 전반적인 정책과 전략이 필요하다.
Ⅲ. 통합데이터안심구역(IDSZ) 시스템 프레임워크
본 연구에서 제시하는 통합데이터안심구역 서비스는 <Fig. 6>과 같은 6가지 특징을 가지며, 이를 구체적으 로 설명하면 다음과 같다.
-
- Management of Authentication & Authorization : 가명정보 및 미개방데이터 등 민감한 데이터의 생성, 획 득, 사용 및 관리를 위해서는 정당한 사용자가 접근하고, 허가받은 서비스와 데이터를 조작 및 분석할 수 있는 사용자 인증 및 권한관리가 보장된다.
-
- Autonomous acquisition of data catalog : 가명정보, 미개방데이터 및 데이터의 속성정보 등 메타데이터를 확보하고, 자동 프로파일링(Auto profiling)되어 필요한 정보를 쉽게 검색하고, 사용 할 수 있어야 한다.
-
- De-identification Processing & Crypto key management : 비식별화(가명처리, 익명처리) 및 결합처리를 지원 하고, 처리과정이 안전하게 수행되는지를 확인하는 기능과 이들 프로세스의 처리를 위한 암호화 키의 생성, 저장, 폐기 등이 관리된다.
-
- Provision for data analytics tools & resources : R, 파이썬 등의 사용자 분석도구 및 GPU, 메모리, 스토리 지, 데이터베이스 등의 인프라 자원을 사용자 요구에 맞게 사전에 템플릿하여 자동 제공하고, 사용 후 자원회수를 위한 스케줄링이 지원된다.
-
- Secure data store & management of sensitive data : 가명정보와 미개방데이터 등 민감한 데이터와 일반데 이터의 분리 운영이 가능한 안전한 데이터저장소(분산 스토리지 및 데이터베이스)를 제공하고, 데이터의 수집부터 활용 및 폐기까지 데이터의 생명주기 관리(Data Lifecycle Management)가 제공된다.
-
- Data tracking & monitoring : 사용 주체(Subject), 가명정보와 미개방데이터 등 대상정보(Object, DB), 익명 화, 비식별화, 결합, 심사, 승인 및 반출의 작업 전 과정의 내역이 관리 및 추적된다.
개인정보와 미개방데이터 등 민감한 데이터의 전처리 등을 통해 데이터를 생성(Data Creation)하기 위해서 는 Personal information Protection commission(2022a)가 제시한 ‘가명정보 처리 가이드라인’의 준수가 필수이 다. 따라서 통계작성, 과학적 연구, 기록보존과 같은 사용 목적설정 등의 사전준비와 주민번호와 같은 개인 식별정보 등 데이터 자체 식별 위험성이나 가명처리 환경의 식별 위험성의 검토가 필요하다. 이후 적정한 암 호화 알고리즘, 암호화 키 등 가명처리 방법 및 수준의 정의와 가명처리 된 결과가 적정한지의 검토하고, 안 전한사후관리의 5단계의 프로세스가 워크플로우에 따른 진행사항의 관리가 필요하다.
데이터 획득(Data Collection)을 위해서는 암호화된 네트워크를 이용하여 가명정보 및 미개방데이터를 배치 또는 실시간으로 안전하게 유통하고, 적재된 데이터를 쉽게 검색하여 이를 결합, 분석 등에 이용 할 수 있도 록 데이터의 형식과 내용을 설명하는 메타데이터를 획득하여 자동분류 할 수 있는 데이터 카탈로그가 필수 적이다.
사용 및 관리(Data use and management)단계에서는 사용자가 데이터안심구역에 데이터를 조작하고, 분석 할 수 있도록 데이터안심구역 내 서비스를 이용할 수 있는 표준ID를 발급하고, 사용자의 역할 등에 기반 하 여 데이터 및 서비스의 이용이 가능하도록 권한 및 접근제어가 이루어져야 한다. 또한, 데이터안심구역에 보 유하고, 있는 필요한 데이터를 분석할 수 있도록 분석 도구와 인프라 등이 사용자의 특성에 맞게 자동으로 제공되어야 한다.
본 연구에서 제시하는 차세대 통합데이터안심구역(IDSZ) 프레임워크는 개인정보보호체계와 분석환경이 제대로 갖추어지지 않은 개인, 스타트업이나 중소기업 등의 사용자가 개인정보 등이 포함된 데이터를 이용 하여 Insight를 도출하고, 혁신서비스를 안전하게 개발 할 수 있도록 데이터의 생명주기 전 과정을 모두 지원 한다. 따라서 <Fig. 7>과 같이 프레임워크를 정의할 수 있으며, 다음과 같이 5가지 세부시스템으로 구성된다.
-
- 정당한 사용자가 통합데이터안심구역을 이용하기 위한 표준ID를 제공받아 이를 통해 데이터와 분석 공 간 및 도구를 할당받아 필요한 서비스 및 데이터를 쉽게 접근하도록 하는 사용자 친화 UI포털
-
- 개인정보 및 미개방데이터를 익명 및 가명화 등 비식별 처리하고, 이에 생성된 가명정보 및 익명정보의 결합을 지원할 수 있는 비식별화 및 결합지원시스템
-
- 데이터안심구역에 수집되는 데이터를 자동 프로파일링하여 메타데이터 및 데이터 지도를 구성하여 사용 자가 데이터를 쉽게 검색하고 이용할 수 있도록 지원하는 자율형 데이터 카탈로그 시스템
-
- 개인정보 및 미개방데이터를 비식별화 및 결합지원을 위해 사용되는 암호화키의 생성, 분배, 폐기 및 관 리를 위한 암호화키 관리시스템
-
- 가명정보, 익명정보, 일반데이터(Raw data)의 민감도에 따라 수집, 저장, 분석, 가공, 제공 및 관리를 위한 데이터 안심저장소 및 관리시스템
사용자 친화 UI시스템, 비식별화 및 결합지원시스템, 암호화키 관리시스템을 통해 개인정보 및 미개방데 이터를 익명정보 및 가명정보로 생성 및 획득하고, 자율형 데이터 카탈로그 시스템, 데이터안심저장소 및 관 리시스템을 통해 데이터의 사용 및 관리가 이루어진다. 각 세부 시스템은 가명정보 및 미개방데이터 등 민감 한 데이터의 생명주기(생성-획득-사용-관리) 전반의 서비스를 제공하고, 상호 유기적으로 연동하기 위해 각각 의 모듈 또는 컴포넌트로 구성하여 Public, Private, Hybrid Cloud 서비스에 특성에 맞추어 구성(Fabric) 할 수 있도록 하였다.
Ⅳ. 통합데이터안심구역(IDSZ) 시스템 아키텍처
1. IDSZ 시스템 아키텍처 요구사항
1) IDSZ 통합 프로세스 재설계
통합데이터안심구역(IDSZ) 업무처리 절차는 <Fig. 1>의 가명처리 단계의 5개 절차(사전준비, 위험성 검토, 가명처리, 적정성 검토, 사후관리) 및 가명정보 결합 및 반출단계의 4개 절차(결합신청, 적정성 심사, 가명결 합, 반출심사 및 반출), <Fig. 2>의 기존 데이터안심구역을 통한 4개 절차(사용신청, 사용심사, 데이터 분석, 결과심사 및 반출)를 데이터의 입력과 출력 및 이를 처리하는 프로세스를 중심으로 하향식 개념 프로세스의 모델링에 특화 되어 있는 구조적 개발방법론의 DFD(Data Flow Diagram)를 이용하여 재설계하였다(Kim and Kang, 2005). 즉, 이들 절차 중 기능적인 면에서 동일한 것으로 인식할 수 있는 가명정보 결합 및 반출단계 중 결합신청, 적정성 심사, 결과심사 및 반출과 데이터안심구역의 절차 중 사용신청, 사용심사, 결과심사 및 반출 절차를 통합된 3개의 절차로 구성하고, <Fig. 1>의 결합키관리기관의 기능을 통합데이터안심구역내에서 지원할 수 있도록 하였다. 이는 사용자 관점에서 <Fig. 1>과 <Fig. 2>의 운영 및 관리기관이 서로 상이하여 연계가 되지 않던 시스템의 기능을 상호 연계함으로써 프로세스 단절에 따라 발생 될 수 있는 데이터 유출 및 오남용, 개인정보 재식별 등 보안관리 상의 문제를 해결 할 수 있도록 하였다. 또한, <Fig. 8>과 같이 데이 터 검색부터 활용 및 출력까지 데이터 활용 생명주기 전 과정을 지원할 뿐만 아니라 업무처리시간을 획기적 으로 단축 할 수 있도록 차세대 통합데이터안심구역의 프로세스를 재설계 하였다. <Fig. 9>는 A 가명정보 결 합기관이 실제 수행한 4건의 결합사례 중 가장 시간이 적게 소요된 <Fig. 3> 사례의 처리시간을 기준으로 소 요시간을 산정하고, 차세대형 IDSZ의 프로세스의 소요시간을 추정하여 상호 비교한 결과, 업무처리 시간을 50%이상 단축 할 수 있을 것으로 기대된다.
2) IDSZ 공통 요구사항 및 핵심 요소기술 도출
<Table 1>의 교통 분야 가명정보 결합전문기관과 데이터안심구역의 관리적, 물리적, 기술적 인증기준에서 요구되나 통합데이터안심구역 시스템의 기능 및 서비스 구성에 불필요한 재정ㆍ인력부문, 공간ㆍ시설부문 및 관리부문(정책 및 절차)의 일부를 제외하고, 통합 요구사항을 도출하였다. 더불어 <Fig. 4> 및 <Fig. 5>의 시스템 논리구조와 <Table 2>과 <Table 3>의 핵심기능을 선별해 통합데이터안심구역의 응용시스템 기능과 시스템보안 기능의 요구사항을 <Table 4>와 같이 도출하였으며, 이에 따른 핵심 요소기술은 다음과 같다.
첫째, 응용시스템 기능부문은 사용자가 가명결합시스템과 데이터안심구역 운영시스템에 접속하여 데이터 검색부터 활용 및 출력까지 전 과정의 데이터 생명주기를 지원하는 6개의 핵심 요소기술로 정의하였다.
-
- 비식별화 및 결합기술 : Personal information Protection commission(2022a)의 ‘가명정보 처리 가이드라인’ 에서 제시하는 개인정보의 비식별화(가명처리, 익명처리)를 위한 삭제기술, 개인정보 일부 또는 전부 대 체를 위한 통계, 일반화(범주화) 및 암호화 기술, 토큰화 등 무작위화 기술 등 비식별화 기술과 가명정 보, 익명정보의 결합을 위한 Inner join, outer join 등을 지원한다. 특히, 암호화 된 상태에서 데이터의 연 산이 가능하고 복호화 하면 원본 값을 연산한 것과 동일한 결과를 얻을 수 있는 동형암호화(Polymorphic encryption) 기술과 원본과 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 익명데 이터를 생성하는 재현데이터(Synthetic data) 기술을 적용하는 차별화된 비식별화 기술의 적용도 필요 하다.
-
- Autonomous data catalog 기술 : 관계형 및 NoSQL 데이터베이스와 HDFS 등 분산파일시스템의 데이터 객 체와 이들의 메타데이터 관리를 포괄한다. 또한, 기존의 메타데이터의 관리항목인 테이블, 컬럼 등의 데 이터 구조정보인 데이터 스키마에 더하여 데이터 출처, 데이터 설명 등의 비즈니스 메타데이터와 데이 터 프로파일링 등 기술 메타데이터, 쿼리, API 등의 활용 메타데이터를 제공한다. 카탈로그 Agent는 데 이터 맵을 자동으로 생성하고, 사용자에게 추천하는 서비스를 제공한다. 또한 데이터 카탈로그는 용어사 전의 제공과 데이터 전처리 및 분석 도구 등 다른 도구와의 연계 API기능을 제공한다(Yoon, 2021).
-
- 가상분석 환경구성 및 프로비저닝 기술 : 스타트업 및 중소기업 등의 사용자가 통합데이터안심구역 내 에서 안전하게 데이터를 분석 및 활용 할 수 있도록 개인저장소를 할당하고, VDI(Virtual Desktop Infra), Analytics 도구, Best Practice의 예제 소소코드 및 데이터 등을 컨테이너 기반에서 미리 설정된 템플릿을 통해 자동으로 제공하는 가상환경을 제공한다.
-
- Data pipeline 기술 : 실시간 및 배치형 데이터를 수집, 적재 및 활용하기 위한 메시지 큐, 메시지 브로커, 메시지 라우팅, ETL(Extrat, Transfer, Load) 기술과 데이터처리 스케줄링, 데이터 처리와 오류보고 및 재 처리 등을 위한 데이터 워크플로우 기술이 필요하다.
-
- 암호화키 관리 기술 : 개인정보 등의 가명처리를 지원하는 암호화 알고리즘과 Salt값을 생성, 제공 및 관 리하기 위한 가명처리 Client와 Server 모듈 및 동형암호화를 통한 데이터 분석을 위한 암호화 키의 생성, 분배, 폐기 및 관리를 지원하는 동형암호 Client와 Server 및 분석지원 기술 등을 제공한다.
-
- 안전한 데이터 저장소 및 관리기술 : 개인정보 등 민감 정보가 포함되지 않은 일반데이터와 민감 정보가 포함된 가명정보 및 미개방데이터 등에 대해 데이터 민감도에 따른 저장소의 분리 저장과 민감 정보 분 석을 위한 데이터 암호화 및 분석격리(Sandbox) 환경을 제공해야한다. 또한, 데이터 파이프라인 기술과 연계하여 데이터의 수집, 분석, 반출, 폐기의 데이터 활용 단계별 안심 데이터 저장소의 관리와 비정상적 인 데이터의 모니터링 및 추적관리를 지원해야 하며 필요시 데이터의 백업 및 복구를 위한 기술의 적용 이 필요하다.
둘째, 시스템보안 기능부문은 사용자가 통합데이터안심구역을 안전하게 사용하고, 사용자 데이터의 안전 한 수집, 저장, 관리 및 폐기를 위해 2개의 핵심 요소기술을 정의하였다.
-
- 인증, 권한 및 접근제어 기술 : 정당한 사용자가 통합 데이터안심구역에 접속 할 수 있도록 OAuth, OpenID 등의 표준기술을 적용한 사용자 단일 계정(Single Sign On)을 제공하고, 역할(Role Based Access Control)에 따라 데이터 및 서비스를 활용할 수 있도록 사용자 접근제어와 권한을 관리할 수 있어야 한다.
-
- 네트워크 보안 기술 : 데이터 제공자 또는 사용자가 통합데이터안심구역에 데이터를 송신 및 수신하기 위해 전용회선 및 인터넷을 이용하게 된다. 이때 데이터의 안전한 전송 및 수신을 위해 Gateway에 TLS(Transportation Layer Security) 또는 VPN(Virtual Private Network) 등의 네트워크 암호화 기술과 비 인 가된 IP의 차단을 위한 IDPS(Intrusion Detection and Protection System) 등의 네트워크 보안기술의 적용이 필요하다. 또한 악성 소프트웨어의 원천 차단을 위해 Anti-Virus, Code-inspection 등의 소프트웨어 무결성 검사 기술의 적용도 필수이다.
2. IDSZ 시스템 아키텍처 및 모듈명세
통합 데이터안심구역 시스템은 앞서 도출한 요구사항을 충족하는 핵심 요소기술을 모듈화 하여 구현이 가능하며, 프레임워크에서 파악되는 전체 워크플로우를 기반으로 시스템의 특성 및 관계를 고려하여 <Fig. 10>과 같이 아키텍처를 설계하였다. 제시한 아키텍처는 총 8개의 모듈로 구성 되며, 각각의 모듈은 독립적인 입력, 처리 및 출력을 갖는 어플리케이션으로 동작 할 수 있다. IDSZ의 기본모듈 및 워크플로우는 <Table 5> 와 같으며, 이들 모듈은 상호 유기적으로 연계하여 활용 할 때 그 가치를 극대화 할 수 있다.
Ⅴ. 결 론
본 연구는 교통 분야에서 공공 및 민간 기업이 보유하고 있는 개인정보가 포함된 모빌리티 데이터와 대외 비로 취급하는 미개방데이터를 안전하게 다룰 수 있도록, 가명정보 결합시스템 및 데이터안심구역 운영시스 템의 논리구조 및 기능에 대한 현황을 분석하였다. 분석 결과에 따라 두 시스템의 기능적인 면에서 중복이 되는 일부 프로세스를 간소화하고, 통합 데이터안심구역의 프로세스를 재설계 하였다. 또한, 공통 요구사항 과 8개의 핵심 요소기술을 도출 하여 통합 데이터안심구역 구성을 위한 개념적인 프레임워크를 정의하였다. 이를 토대로 데이터 활용 생명주기 전 과정을 지원할 수 있는 차세대형 통합데이터안심구역 시스템 아키텍 처를 제시하였다.
차세대 통합데이터안심구역은 사용자가 민감한 데이터의 생명주기 전 과정, 즉 데이터의 생성, 획득, 사용 및 관리의 프로세스를 지원함으로써 중복 작업을 배제하고, 업무 처리시간을 획기적으로 단축할 수 있다. 또 한 사용자에게 확장성, 상호운용성 및 보안성을 기반으로 데이터를 쉽게 검색하고 활용 할 수 있도록 사용자 특화 UI를 제공한다. 특히 사용자가 개인정보 등의 비식별화 처리(가명화, 익명화, 동형암호화 및 재현데이 터) 및 결합 기능을 통합하여 사용 할 수 있도록 하고, 클라우드 서비스 기반에서 데이터를 분석 및 활용할 수 있도록 분석 체험환경, 분석 툴 및 데이터안심저장소 등의 기능을 제공한다.
본 연구에서는 차세대 통합데이터안심구역 시스템 아키텍처를 실제로 구현하여 실증서비스를 구성하고 테스트 하지 못한 한계가 있다. 향후 본 연구에서 제시된 시스템 아키텍처 중에서, 두 시스템의 프로세스를 통합한 사용자 지원 비즈니스 워크플로우와 비식별화 처리 및 결합에 필요한 데이터 생명주기 관점에서의 핵심 업무기능에 대해 Prototype을 개발하고, 이에 대해 사용자 또는 전문가 등의 평가가 필요하다. 이를 통 해 차세대 통합데이터안심구역 시스템이 사용자에게 보다 안전하고 편리한 기능 및 서비스를 제공할 수 있 도록 하여 교통 분야 데이터 산업 활성화에 기여 하도록 보다 진화시킬 필요가 있다.
본 연구는 학술적인 관점에서 사용자가 개인정보가 포함된 모빌리티 데이터와 미개방데이터를 데이터 생 명주기 전 과정에서 쉽고, 안전하게 사용할 수 있는 원스톱 서비스를 제공하기 위한 선도적인 연구사례로 가 치가 있으며, 사용자의 실무적 관점에서는 개인정보 등을 활용하기 위해 공신력을 가진 기관이 데이터 생명 주기 전 과정의 프로세스와 기술 및 공간을 안전하게 제공 할 수 있게 하고, 추후 공공 및 민간 기업이나 사 용자들이 유사한 기능의 시스템을 구성 할 때 참고할 자료로 활용 될 수 있다.