Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.20 No.4 pp.57-70
DOI : https://doi.org/10.12815/kits.2021.20.4.57

An Analysis of Civil Complaints about Traffic Policing Using the LDA Model

Sangyub Lee*
*Dept. of Police Science, Korea National Police University
Corresponding author : Sangyub Lee, yubii02@gmail.com
12 July 2021 │ 26 July 2021 │ 10 August 2021

Abstract


This study aims to investigate the security demand about the traffic policing by analyzing civil complaints. Latent Dirichlet Allocation(LDA) was applied to extract key topics for 2,062 civil complaints data related to traffic policing from e-People. And additional analysis was made of reports of violations, which accounted for a high proportion. In this process, the consistency and convergence of keywords and representative documents were considered together. As a result of the analysis, complaints related to traffic police could be classified into 41 topics, including traffic safety facilities, passing through intersections(signals), provisional impoundment of vehicle plate, and personal mobility. It is necessary to strengthen crackdowns on violations at intersections and violations of motorcycles and take preemptive measures for the installation and operation of unmanned traffic control equipments, crosswalks, and traffic lights. In addition, it is necessary to publicize the recently amended laws a implemented policies, e-fine, procedure after crackdown.



토픽모델링을 활용한 교통경찰 민원 분석

이 상 엽*
*주저자 및 교신저자 : 경찰대학 경찰학과 교수

초록


본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하 였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일 관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교 차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로 내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.



    Ⅰ. 서 론

    경찰의 활동과 정책은 국민 생활과 사회 전반에 큰 영향을 미치는 만큼 공감받는 정책이 될 수 있도록 치 안 수요를 정확히 파악할 필요가 있다. 정확한 치안 수요의 파악은 비단 만족도 향상에 기여할 뿐만 아니라 (Hong et al., 2019) 치안정책 수립 및 집행, 정책자료, 경찰관 교육자료 등으로 활용할 수 있다는 면에서도 중 요성이 작지 않다(Baeck, 2013). 치안 수요를 측정하기 위해 객관적· 주관적 지표, 각종 민원 자료를 활용할 수 있으며 민원 자료는 경찰 업무에 대한 주민 입장을 반영하고 있다는 면에서 훌륭한 자료원으로 역할을 할 수 있다.(Kim, 2009). 그러나 서울시가 정책결정자와 실무담당자가 정책의제 발굴 및 신속한 대응을 할 수 있도록 ‘AI 기반 응답소 민원분석 시스템’을 구축하고(Moneytoday, 2020) 부산광역시 해운대구는 민원 빅데 이터 분석 결과를 활용해 지역 맞춤형 정책을 개발하는 등(Yonhap News Agencys, 2014) 다양한 행정기관에 서 민원자료를 활용하고 있는 반면 경찰은 민원 자료를 정보로써 잘 활용하지 못한다는 지적이 있다(Baeck, 2013).

    경찰의 여러 기능 중 교통경찰은 그 대상이 모든 사람이고, 교통규제를 통해 사회· 경제생활에 큰 영향을 미치며, 국민과 직접 접촉하는 경우도 많은 만큼(Kang, 2009) 국민의 관심이 높고 국민과 관련성도 높은 분 야이다. 그러나 민원데이터 활용에 관한 연구는 활발한 반면(Woo and Kim, 2020;Yang et al., 2021;Park and Lee, 2020;Choi, 2016;Kim and Chang, 2018) 경찰과 교통 관련 민원이 전체 민원에서 상당한 비중을 차지함 에도1)(Medical World News, 2019) 정작 교통 민원에 대한 연구는 부족한 편이다(Kim and Chang, 2018). 특히 교통경찰을 “교통에서 발생되는 모든 위해를 방지하고 제거하여 교통의 안전과 원활한 소통을 도모함을 목 적2)으로 하는 경찰 활동”이라고 볼 때 그 특성상 일반 행정부처에 제기되는 행정서비스 위주의 교통민원과 는 차이가 존재할 수밖에 없으므로 개별적인 연구가 필요하다.

    그러나 민원 자료와 같이 다량의 텍스트를 직접 분석하는 것은 현실적으로 매우 어렵고 비효율적으로 이 문제는 빅데이터 분석 방법 중 텍스트 마이닝 기법으로 해결이 가능하다(Park and Lee, 2020). 따라서 본 연 구에서는 공공데이터포털을 통해 확보한 교통경찰 관련 민원데이터를 대상으로 텍스트 마이닝 기법을 적용 해 교통경찰에 대한 국민의 치안 수요를 분석하고 특징을 파악하고자 한다. 텍스트 마이닝 기법 중 단어들을 이용해 문서들의 주제를 도출하고 군집화하는 방법인 토픽모델링(topic modeling) 기법(Park et al., 2021)으로 잠재 디리클레 할당(latent dirichlet allocation; 이하 LDA)을 활용하였고, 1차 추출된 토픽을 대상으로 키워드 와 대표문서의 일관성, 합치성을 기준으로 최종 토픽을 추출하고 해석해 교통경찰에 대한 시사점을 살펴보 았다. 특히 경찰 민원의 특성상 상대적으로 많은 비중을 차지하는 위반신고 회신에 대하여는 토큰(token)을 대상으로 빈도분석3)을 실시해 법규위반의 종류에 따라 재분류하였다. 구체적으로 제2장에서는 LDA를 활용 한 기존 연구를 검토해 시사점을 도출하고, 제3장에서는 분석방법을 설명하였다. 제4장에서는 분석 결과를 정리하며, 제5장에서는 결론을 제시하였다.

    Ⅱ. 선행연구 고찰

    1. LDA 기법을 활용한 민원데이터 분석

    Woo and Kim(2020)은 국민청원 데이터를 주제별로 분류하기 위해 먼저 K-means 클러스터링 알고리즘을 적용해 대주제를 선정하고, 세분화가 필요한 대주제에 토픽모델링을 적용해 세부 주제를 추출하는 방식으로 기타 포함 14개의 주제로 분류하였다. 최종적으로는 동의 수가 20만을 넘겨 답변을 받을 수 있는 청원을 예 측하기 위해 딥러닝 알고리즘 중 LSTM을 적용하였고 변수로 글의 내용, 길이, 품사 비율 외에 LDA로 분류 한 카테고리를 활용하였다. 그 결과 단순히 제목이나 본문과 같은 내용 외에 글의 길이, 체언· 용언 등 품사 비율, 카테고리를 변수로 활용한 경우 예측 결과가 좋은 것으로 나타났다.

    Yang et al.(2021)은 한국인의 불공정 경험과 인식을 탐색하기 위해 국민 청원 6,084개를 수집하여 분석하 였다. LDA를 통해 주요 토픽을 추출하되 양적 기준과 질적 분석 결과를 함께 반영해 28개의 토픽을 선정하 고 키워드, 토픽의 언급 순위, 대표문서를 질적 분석하였다. 분석 결과 우리나라 국민은 응보적 정의의 실현 을 중요하게 생각하였다. 또한 공정성과 관련한 새로운 주제로서 환경오염을 도출하였고 시설건립의 절차적 정의 외에도 해당 지역 내 깨끗한 공기의 박탈로 인한 피해를 지적하며 불공정을 주장하는 것으로 나타났다.

    Park and Lee(2020)는 부산시 전자민원 9,625건을 대상으로 LDA 토픽모델링 기법을 활용해 20개의 민원토 픽을 추출해 핵심민원을 파악하였다. 또한 분기별 추이를 확인해 4개의 Hot 민원(버스정차, 택시기사, 칭찬, 민원처리)과 4개의 Cold 민원(cctv 설치, 버스노선, 공원주차장, 축제 불만)을 도출하였다

    2. LDA 기법을 활용한 교통 분야 연구

    Park et al.(2021)은 자율주행자동차 교통사고의 특성을 파악하기 위해서 미국 캘리포니아 자동차 차량 관 리국에서 수집한 자율주행자동차의 교통사고 데이터 내 ‘사고 상세 설명’ 항목에 대해 키워드 분석과 LDA 를 수행하였다. 도출된 키워드는 승용차, 범퍼, 교통, 차로, 후방, 교차로의 순이었으며 주요 상황은 자율주행 자동차가 다른 차량에 의해 후방 또는 측면 충돌되는 상황임을 발견하였다.

    Kim and Chang(2018)은 서울시 응답소에 게재된 교통 민원을 대상으로 단계별 분석을 수행하였는데 먼저 LDA를 통해 주제를 추출하고 시계열적으로 분석하였다. 둘째, 시각화를 통해 주제 간의 관계를 파악하였으 며, 셋째, 1단계에서 추출된 주제 중 주차주제에 대해 LDA를 적용해 세부 주제를 도출하고 시각화하였다. 마지막으로 주차주제 키워드 간의 관계를 텍스트연결망분석(Text Network Analysis : TNA)를 통해 파악하였 다. 그 결과 ‘신규서비스, 버스, 교통운영, 무동력교통, 주차, 통근통행, 교통행정, 지하철, 택시’의 주제가 추 출되었다. 또한 지하철과 주차문제의 가중치가 상승함을 확인하였고 시각화를 통해 무동력교통과 주차문제 가 인접해 있음을 확인하였다. 주차주제에 대해 LDA를 적용했을 때 “도로주차, 거주지, 불법주차단속” 3가 지 주제가 도출되었고 이 중 불법주차단속이 가장 큰 문제로 나타났다.

    Oh et al.(2016)은 LDA 모형을 이용해 공개된 텍스트 데이터로부터 정책 이슈를 탐색하는 기법을 정립하 고 도로 부분 ITS분야에 적용한 결과, 인터넷에 공개된 자료 등을 이용해 한정된 자원과 시간 내 빠르게 정 책 이슈를 발굴할 수 있음을 확인하였다..

    Woo and Lee(2020)는 국가연구개발사업을 통해 수행되는 ICT(Information and Communication Technology) 분야의 연구결과에 대해 LDA 모델을 적용해 주요 연구 토픽과 동향을 탐색하였다. 주요 연구토픽은 인공지 능, 빅데이터, 사물인터넷(Internet of Things)으로 확인되었고 활발히 진행되는 연구는 초실감미디어에 대한 연구로 나타났다.

    3. 시사점

    선행 연구를 검토한 결과 민원 분석과 교통 분야에서 LDA를 활용해 토픽과 시사점을 도출하는 경우가 대 부분이었으며 다량의 텍스트 데이터로부터 토픽을 도출하고 토픽별로 군집화가 가능함을 확인할 수 있었다. 또한 필요한 경우 도출된 토픽에 대해 LDA 또는 시계열적 분석을 추가로 시행하거나 빈도분석, 질적 분석 을 병행한 경우도 있었다. 본 연구에서는 LDA와 질적분석을 혼합해 최종 토픽을 도출하였고 빈도분석을 추 가로 실시하였다.

    Ⅲ. 분석 방법

    1. 연구 자료

    경찰청에 민원을 제기할 수 있는 방법은 방문, 전화, 인터넷 민원, 기타 서면 등이 있으며 인터넷접수 민 원은 국민신문고를 통해 접수되는 민원과 경찰청(서) 홈페이지를 통해 접수되는 민원으로 나눌 수 있다 (Baeck, 2013). 국민신문고는 국민권익위원회가 운영하는 범정부 대표 온라인 소통창구로, 경찰청을 포함한 모든 행정기관(중앙·지자체·교육청·해외공관), 사법부, 주요 공공기관과 연결되어 있다. 실제로 경찰민원 포털 사이트는 민원 창구로 ‘국민신문고 민원’ 메뉴를 운영하며, 전자민원은 국민신문고를 통해 관리됨을 안 내하고 있다. 반면, 경찰청 홈페이지 내 민원과 관련된 메뉴는 ‘청장에게 바란다’와 ‘자유게시판’로 볼 수 있 는데, ‘청장에게 바란다’ 메뉴는 당사자 외에는 내용을 외부에 공개하지 않고 있으며, ‘자유게시판’은 개인의 의사를 자유롭게 개진하는 곳으로 대부분 별도의 답변을 하지 않고 있다.4) 따라서 본 연구에서는 인터넷 접 수 민원을 분석하기 위해 국민신문고의 민원데이터를 사용하였다.

    국민신문고의 민원데이터를 확보하기 위해 공공데이터포털의 OPEN API를 통해 제공되는 국민권익위원회 민원정책 질의응답조회 서비스를 이용하였다. 위 서비스는 키워드를 통해 민원 또는 정책 질의응답 목록을 조회하고 건별로 다운로드 받는 방식이다. ‘교통’을 키워드로 해 검색되는 민원 또는 정책 질의응답 자료 중 담당 기관이 경찰청인 민원 질의응답자료는 2,080건이었으며 민원 기간은 2019년 1월부터 2021년 5월까지이 다. 이 중 교통경찰과 무관한 18건5)을 제외하고 최종 분석대상은 2,062건이며 각각의 문서는 제목, 질의 내 용, 답변 내용, 담당기관명 등으로 구성되어 있다. ‘답변 내용’은 경찰관이 작성하는 부분으로 민원내용별로 내용이 유사하고 공식적인 용어를 사용한다는 면에서 주제를 효과적이고 정확하게 분류할 수 있는 장점이 있다. 반면 ‘질의 내용’은 상대적으로 비정형화된 용어의 사용, 맞춤법과 띄어쓰기 등의 오류로 인해 전처리 의 어려움이 있다. 또한 형태소 분석 결과 문서별 평균 형태소의 개수가 ‘질의 내용’은 10.3개로 83.2개인 ‘답 변 내용’에 비해 매우 적었다. 문서의 단어 수가 적은 경우에 데이터 희소성 문제가 발생해 토픽 분포를 어 렵게 하고 도출된 토픽이 의미론적으로 일관성이 떨어지는 문제가 발생할 수 있다(Na et al., 2019). 따라서 본 연구에서는 문서의 내용 중 ‘답변 내용’을 분석대상으로 하였다.

    2. 잠재 디리클레 할당

    텍스트 마이닝은 비정형데이터의 일종인 텍스트 데이터로부터 의미 있는 정보를 추출하는 방법으로(Park et al., 2021) 토픽모델링이 대표적인 기법이다. 토픽모델링은 초기, 잠재 의미 분석(latent semantic analysis: LSA), 확률론적 잠재 의미 분석(probabilistic LSA: pLSA)등이 개발되었고 pLSA가 갖고 있는 학습 밖의 문서 들에 토픽 할당이 어렵다는 한계와 문서가 많아지면 과적합(overfitting)이 발생하는 문제를 해결하기 위해 제 시된 것이 잠재 디리클레 할당(latent dirichlet allocation: LDA)(Blei et al., 2003)이다.

    LDA는 문서가 여러 개의 토픽들로 구성되며 토픽들은 단어들로 표현될 수 있다고 전제하며(Yu, 2017) 토 픽과 단어의 확률분포에 대한 사전분포로서 디리클레(dirichlet) 분포를 가정한다. 디리클레 분포를 가정하는 이유는 사후분포를 구하는 과정에서 디리클레 분포가 다항분포 함수와 곱해지면 다시 디리클레 분포의 형태 가 되는 ‘공액 사전 분포’(conjugate prior distribution)로서 계산의 편의성이 있기 때문이다(Baek, 2019).

    이러한 전제하에 LDA 문서 생성의 과정은 <Fig. 1>과 같다. K는 주제의 수, D는 문서의 수, N은 d번째 문 서의 단어 수를 나타낸다. α, β는 하이퍼 파라미터로 전체 문서에서 동일한 값을 갖는다. θ는 문서별 토픽 비율로 디리클레 분포를 따르며 α값에 따라 형태가 결정된다. ϕ는 토픽별 단어 비율로 디리클레 분포를 따 르며 β값에 따라 형태가 결정된다. z는 단어에 할당된 토픽으로 다항분포를 따르며 문서별 토픽 비율인 θ에 따라 결정된다. 각 단어에 토픽이 할당되면 토픽별 단어비율인 ϕ에 따라 단어 w가 결정된다. 즉, ‘문서 내에 서 토픽이 발생할 확률’에 따라 토픽을 선택하고 ‘토픽 내 단어의 출현확률’에 따라 하나의 단어를 선택하는 과정을 반복하며 문서를 생성한다고 볼 수 있다6)(Yu, 2017). 여기서 관찰이 가능한 단어(w) 외에 θ, ϕ, z는 실제로 관측할 수 없는 잠재 변수이다. 따라서 LDA를 통한 토픽모델링은 역으로, 관찰된 자료인 문서 내 존 재하는 단어들을 바탕으로 ‘문서 내에서 토픽이 발생할 확률’과 ‘토픽 내 단어의 출현확률’을 추정하는 과정 이며(Yang et al., 2021) 단어(w)의 집합인 문서(w)가 주어졌을 때 토픽을 추출하기 위해 아래 사후분포를 계 산하는 것이다(Shin, 2019).

    p ( ϕ , θ , z | w ) = p ( ϕ , θ , z , w ) p ( w )
    (1)

    <Fig. 1>

    Document Generation Process(LDA)(Blei, 2012)

    KITS-20-4-57_F1.gif

    3. 자료 분석 절차

    본 실험에 앞서 문서의 토큰화와 벡터화의 방법을 결정하기 위해 사전 실험을 실시하였다. 여기서 토큰화 는 분석대상인 문서 집합을 토큰(token)이라는 단위로 나누는 작업이며(Kim et al., 2019), 벡터화는 문서-단어 행렬(Document-Term Matrix, DTM)을 생성하는 과정으로 문서마다 각 단어의 빈도를 행렬로 표현하는 것이다 (Yoo et al., 2020). 토큰화는 명사와 형태소분석, 벡터화는 ‘단어 빈도(Term Frequency : TF)7)와 ’단어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency: TF-IDF)8)로 나누어 총 4가지의 방법으로 예비결과를 분석하였다. 이 때 적정 토픽 수는 후술할 토픽 응집성(Topic Coherence)을 기준으로 각 방법마다 결정하였 다. 키워드, 대표문서의 일관성, 키워드와 대표문서의 관계를 고려해 4가지 방법 중 토큰화는 형태소로, 벡터 화는 TF의 방식이 가장 효과적이라고 판단하였다.9) 따라서 본 실험은 형태소분석- TF의 방식으로 파이썬 3.7 환경에서 시행하였으며 연구개요는 <Fig. 2>와 같다.

    <Fig. 2>

    Research Process

    KITS-20-4-57_F2.gif

    1) 텍스트 전처리와 형태소 분석

    토픽모델링을 포함한 텍스트 마이닝 분석을 위해서는 전처리 과정이 필수적이며, 언어데이터의 비정형성 을 어느 정도 감소시키는 장점이 있다(Kil, 2018). 본 연구에서는 분석과정에서 도출되는 키워드와 대표문서 를 참고해 불용어를 제거하는 작업을 반복적으로 실시하였다. 파이썬에 내장된 ‘re’ 패키지로 정규표현식을 사용해 특수기호(예 : ‘&)’와 문서 스타일 정보(예: ‘font’, ‘style’), 문장부호를 삭제하였다.10) 또한 의존명사, 접속사, 기타 수집된 데이터로부터 구축한 불용어는 별도의 불용어 사전을 구축해 삭제하였다.

    형태소 분석은 konlpy 라이브러리 내 Mecab 형태소 분석기를 활용해 형태소를 추출하였다. 형태소 분석 시 교통경찰과 관련된 형태소를 사전에 추가하여 시행하였다. 구체적으로 중요 법률명, 도로교통법 제2조(정 의)의 중요 용어(예 : 길가장자리구역, 안전지대, 한정면허), ‘제1조’부터 ‘제166조’를 추가하였다.11) 중요 법 률명과 용어를 추가한 이유는 기본 사전만을 사용할 경우 ‘도로교통법’이 ‘도로’, ‘교통’, ‘법’으로 나뉘어 중 요한 단어가 누락되는 경우를 방지하기 위함이다. 그리고 ‘제1조’부터 ‘제166조’는 많은 답변이 법령 조항을 근거로 하고 있을 뿐만 아니라 토픽을 결정하는 중요 단어가 될 수 있음에도 역시 기본 사전에 포함되지 않 은 점을 해결하기 위해 추가하였다.

    2) 토픽 모델링

    토픽모델링을 수행하기 전 사전 단계로 최적 토픽 개수를 결정해야 한다. 토픽 수를 결정하는 대표적인 정량지표로는 복잡도(perplexity)와 토픽 응집성(topic coherence)이 있다. 복잡도는 모델의 예측가능도를 평가 하는 척도로 학습 성능 정도를 잘 나타낼 뿐 사람이 직접 평가한 토픽과 상관관계가 낮다는 연구 결과가 발 표되었고 이를 해결하기 위한 방법 중 하나로 토픽 응집성이 제안되었다.(Baek, 2019;Lee et al., 2020;Yu, 2017;Lee et al., 2020;Choi et al., 2019). 따라서 본 연구에서는 토픽 수를 결정하기 위해 토픽 응집성을 사용 하였고 관련한 여러 지수 중 성능이 우수하다고 평가되는 ‘Cv’를 적용하였다. 토픽 응집성은 사람이 텍스트 를 해석하는 방식을 반영하여 추출된 토픽의 해석가능성을 해당 토픽을 구성하는 단어들로부터 찾는 기법으 로, 추출된 토픽의 단어집합에서 단어들 간 짝 유사도의 평균이 높을수록 토픽의 응집성이 높다고 가정한다 (Yu, 2017). ‘Cv’는 Röder et al.(2015)가 제안한 방법으로 키워드를 주변 단어와의 동시 출현 빈도로 나타낸 문맥 벡터(context vector)로 표현하고, 키워드 간 짝 유사도를 코사인 유사도로 계산해 산술평균하는 방식이 다(Syed and Spruit, 2017;Hamzeian, 2021). 직접 단어들 간의 유사도를 계산하는 방식과 달리 주변 단어와의 관계를 고려하기 때문에 유사도를 더 정확히 측정할 수 있는 장점이 있다(Röder et al., 2015).

    토픽모델링은 민원데이터의 변수 중 ‘답변 내용’을 이용해 LDA 기법으로 분석하였다. 그러나 LDA를 통 해 도출한 토픽이 모두 쉽게 해석되는 것은 아니므로 토픽모델링과 질적 분석방법을 혼합해 사용한 선행연 구(Yang et al., 2021)의 방식을 따라 키워드들 간의 일관성, 대표문서들 간의 일관성, 키워드들과 대표문서들 간의 합치성을 기준으로 해석이 불가능한 토픽은 제외하고 비슷한 토픽은 통합해 최종 토픽 수와 토픽을 선 정하였다. 사용한 키워드와 대표문서의 개수는 토픽별로 10개씩이다.

    LDA를 활용한 1차 분석 결과 ‘위반신고 회신’ 토픽이 약 27%를 차지해 재분류가 필요하다고 판단하였다. 그 이유는 도로교통법 상 단순 운전자 범칙행위의 종류만 68가지로12) 교통 경찰에 대한 치안 수요를 정확히 파악하고 의미 있는 시사점을 도출하기 위해서는 구체적인 위반사항을 확인할 필요가 있기 때문이다. 그러 나 LDA로 재분류를 시도한 결과 전술한 기준을 만족하는 토픽이 추출되지 않았다.13) 이를 해결하기 위해 경찰관이 위반신고에 대한 회신을 할 때 도로교통법 법 조항을 근거로 답변하는 점에 착안하고 법조항 토큰 (예: ‘제1조’)에 대해 빈도분석을 실시하였다. 구체적으로 도로교통법 외 다른 법률의 법 조항을 포함할 수 있으므로 ‘도로교통법’ 토큰과 연이은 법 조항 토큰을 결합해 새로운 토큰(예 : ‘도로교통법_제1조’)을 생성 해 문서별로 추가하였고 해당 토큰을 포함하고 있는 문서의 빈도를 계산하고 토픽별로 빈출 단어를 분석해 정확하게 분류되었는지 확인하였다. 예를 들어 ‘위반신고 회신’ 중 가장 많은 비중을 차지한 ‘신호·지시위반’ 의 경우 해당되는 문서는 57개였으며, 주요 키워드는 빈도 순으로 ‘위반, 차량, 부과, 과태료, 신호, 신고, 지 시, 확인, 도로교통법, 제5조’였다. ‘위반’, ‘차량’, ‘부과’, ‘과태료’는 위반신고 회신 문서에 공통으로 등장하 는 단어들로 예를 들면 ‘차량 소유주에게 위반사실 통지 및 과태료 부과 사전통지서를 발송 예정입니다’와 같은 문장이다.14) 위의 과정 모두 파이썬 환경에서 오픈 소스 라이브러리인 Gensim을 활용해 이루어졌다.

    Ⅳ. 분석 결과

    1. 1차 LDA 분석 결과

    토픽응집성을 기준으로 토픽 수를 46개로 설정하여 LDA를 실시한 결과, 해석 가능한 토픽은 재분류가 필 요한 7개 토픽을 포함해 토픽 32개를 확인할 수 있었다. 분류된 문서의 빈도가 지나치게 적은 5개의 토픽과 해석이 불가능해 주제를 명명하기 모호한 5개의 토픽은 결과에서 제외하였다. 또한 ‘위반사항 회신’으로 분 류된 5개의 토픽은 하나로 통합하였다.

    도출된 토픽의 종류와 문서집합 내 비율은 <Table 1>과 같다. 각종 위반사항에 대한 회신이 27.5%로 가장 높은 비중을 차지하였고, 교통안전시설15), 신호에 따른 교차로통행방법, 과태료 미납에 따른 번호판 영치, 개 인형 이동장치, 자동차 불법 튜닝, 이륜자동차에 대한 단속요청 등의 순으로 확인되었다.

    <Table 1>

    Weightings by Topics

    KITS-20-4-57_T1.gif

    2. 재분류 토픽 분석 결과

    1차 분석 결과, 일부 토픽은 재분류가 필요한 것으로 나타났다. ‘위반사항 회신’의 경우는 상대적으로 비 중이 높아 세부적인 분석이 필요하며, 이외에도 1~2개의 분명한 토픽은 존재하나 전술한 키워드들과 대표문 서들의 일관성, 키워드와 대표문서들과의 합치성을 기준에서 분류가 모호해 재분류로 정확한 분석이 필요한 토픽들이 존재했다.

    분석 결과, 재분류 1)은 착한운전 마일리지와 운전면허 적성검사 및 갱신, 재분류 2)는 경찰청 교통민원24 사이트(이파인), 운전경력증명서 발급, 교통사고 사실확인원 발급, 재분류 3)은 보복 및 난폭운전, 재분류 4) 는 무인교통단속장비 설치 요청, 재분류 5)는 교통안전교육, 재분류 6)은 안전띠 및 카시트, 재분류 7)은 해석 이 불가능했다.

    ‘위반사항 회신’에 대한 분석 결과, 신호·지시위반(도로교통법 제5조), 진로변경(같은 법 제14조), 제차신 호조작불이행(같은 법 제38조)16), 중앙선 침범(같은 법 제13조), 교차로통행방법(같은 법 제25조)17), 고속도로 지정차로·갓길 위반(같은 법 제60조), 적재물추락방지(같은 법 제39조), 끼어들기(같은 법 제23조) 순으로 재 분류되었다. 분류 결과는 <Table 2>와 같다.

    <Table 2>

    Weightings by Report of Violation Topic

    KITS-20-4-57_T2.gif

    3. 최종 토픽 분류

    1, 2차 LDA 분석 결과를 종합해 41개의 토픽을 최종적으로 선정하였다. 비중 순으로 교통안전시설, 신호 에 따른 교차로 통행방법, 번호판영치, 개인형 이동장치, 신호· 지시위반 등으로 <Table 3>과 같다. ‘교통안전 시설’의 키워드는 ‘설치, 도로, 횡단보도, 검토, 요청, 신호기, 관리, 신호등, 차량, 안전시설’로 이루어져 있으 며 이는 횡단보도 또는 신호등의 설치와 합리적 신호 운영에 대한 요청으로 보인다. ‘신호에 따른 교차로 통 행방법’은 ‘교차로, 보행자, 우회전, 좌회전, 신호, 보호, 직진, 차로, 횡단보도, 사거리’ 등의 키워드로 구성되 어 있으며, 이는 비보호좌회전, 또는 적색 신호 시 우회전, 적색 신호 시 보행자가 있는 횡단보도 통과허용 여부에 대한 내용임을 보여주고 있다. ‘번호판 영치’는 ’자동차, 번호판, 과태료, 등록, 운행, 영치, 신고, 따른, 상보, 관련’을 키워드로 포함하고 있으며 이는 과태료 미납에 따른 조치인 번호판 영치와 관련된 내용임을 알 수 있다.

    <Table 3>

    Final Topics

    KITS-20-4-57_T3.gif

    ‘개인형 이동장치’는 '범칙금, 자전거, 통행, 전동, 개인, 개정, 도로교통법, 이하, 운행, 관련’ 등의 키워드가 높은 확률로 나타났으며 이는 최근 도로교통법 개정으로 전기자전거, 전동킥보드 등 개인형 이동장치 관련 법령이 신설된 것과 연관된다. ‘신호·지시위반’은 ’위반, 차량, 부과, 과태료, 신호, 신고, 지시, 확인, 도로교 통법, 제5조’의 단어가 주로 나타나고 있으며 이는 다른 차량의 신호· 지시위반에 대해 불편함을 느끼고 신 고하는 상황이 많음을 보여주고 있다.

    교통경찰 기능별로는 단속을 포함한 교통안전 관련이 24개로 가장 많았고, 운전면허 관련 5개, 교통사고 조사 관련 3개, 교통시설 관련 3개, 기타가 6개로 교통안전에 대한 민원이 높은 비중을 차지한 반면 교통사 고조사에 대한 민원은 토픽 건수와 문서 빈도 모두 상대적으로 낮은 것으로 나타났다. 이는 교통사고조사는 교통사고의 당사자가 직접 겪은 사람에 한정되어 있고, 조사 과정에서 담당 조사관에게 문의 또는 요청을 하 는 경우가 많기 때문으로 보인다. 교통안전과 관련해서는 교차로에서의 통행방법(관련 토픽 : 신호에 따른 교차로 통행방법, 교차로 통행방법, 신호·지시위반)에 대한 단속 및 홍보, 이륜자동차의 법규위반에 대한 단 속이 필요해 보이며, 교통시설과 관련해 무인교통단속장비, 횡단보도, 신호등 설치 및 운영(관련 토픽 : 교통 안전시설, 무인교통단속장비 요청)에 대한 선제적인 조치의 필요성이 높다고 볼 수 있다.

    이외에도 ‘무인단속여부 확인’. ‘과태료납부’, ‘착한운전 마일리지’’, ‘교통사고사실 확인원’ 등 경찰에서 운 영하는 교통민원24사이트에서 확인 또는 신청 가능한 조치에 대한 문의가 많다는 점에서 해당 사이트에 대 한 홍보를 강화할 필요가 있다. 또한, 개인형 이동장치, 어린이통학버스19), 안전속도 5030정책 등 최근 법령 이 개정되거나 새롭게 시행되는 정책도 개별 토픽으로 분석된 만큼 더욱 강화된 홍보가 필요한 것으로 판단 된다.

    Ⅴ. 결 론

    교통경찰은 그 특성상 일상생활과 맞닿아 있어 국민에게 미치는 영향이 적지 않으며 국민의 관심도 크다. 그만큼 교통경찰에 대한 요구도 많고 다양해 경찰 활동에 대한 만족도를 높이고 공감을 이끌어 내기 위해서 는 교통경찰에 대한 치안 수요를 정확히 파악하는 것이 필요하다. 또한 교통정책의 수립과 집행, 정책자료, 교통경찰관의 교육자료 등으로 활용될 수 있다는 점에서 중요성도 크다.

    본 연구는 교통경찰에 대한 국민들의 치안 수요를 파악하기 위해 국민신문고에 게재된 교통경찰 관련 민 원데이터를 LDA 기법으로 분석하고 그 특징과 시사점을 파악하고자 하였다. 정량적 지표를 기준으로 토픽 을 추출하되 키워드와 대표문서를 활용해 최종 토픽을 선정하고 교통경찰의 특성상 많은 비중을 차지하는 위반신고 민원에 대해서는 추가로 빈도분석을 실시하였다. 분석 결과 민원데이터는 41개의 주제로 구성된다. 주요 토픽은 교통안전시설, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등이었고 위반신고 민원은 신호·지시위반, 진로 변경, 제차신호조작불이행, 중앙선 침범 등으로 분류할 수 있었다. 교통경찰 기 능별로는 단속을 포함한 교통안전 관련이 24개로 가장 많았으나 운전면허, 교통사고조사, 교통시설 관련 민 원도 3~6개로 나타났다.

    연구 결과를 토대로 다음과 같은 정책적 활용방안을 생각해볼 수 있다. 첫째, 교차로를 집중 관리할 필요 가 있다. ‘신호·지시위반, 교차로 통행방법(꼬리물기)’의 토픽에 비추어 볼 때 교차로에서 다른 차량이 위반 하는 경우에 불편함을 느끼는 국민들이 많은 것으로 보이기 때문이다. 이와 관련해 ‘교통안전시설, 무인교통 단속장비 요청’의 토픽을 고려해 무인단속카메라의 선제적 설치를 검토해 볼 수 있다. 아울러 ‘신호에 따른 교차로 통행방법’의 토픽에 따르면 단속과 함께 신호 교차로에서 올바른 통행방법에 대해 교육과 홍보를 강 화할 필요가 있다. 둘째, 국민들이 필요로 하는 정보의 제공이다. 필요한 정보의 제공은 도출된 토픽을 통해 3가지로 나눌 수 있다. 먼저 ‘개인형 이동장치, 안전속도 5030, 어린이 통학버스’와 같이 최근 개정된 법령이 나 시행된 정책의 구체적인 내용과 취지를 홍보할 필요가 있다. 또한 교통민원24사이트와 관련한 정보 제공 이 필요하다. ‘착한운전 마일리지’ 신청, ‘교통사고사실확인원’ 발급, ‘무인단속여부 확인’, 과태료 납부’는 모 두 교통민원24사이트에서 해결이 가능한 사안임에도 관련 민원이 토픽으로 도출되는 것은 아직 교통민원24 사이트에 대한 인지도가 높지 않은 원인으로 짐작할 수 있다. 마지막으로 교통법규 위반에 대한 처벌은 형 벌, 범칙금, 과태료로 구분되며 행정처분이 병행될 수 있고 범칙금, 과태료, 행정처분은 이의·구제절차가 상 이하므로 단속이 되었을 때 처벌 내용과 향후 절차에 대한 충분한 설명과 통지가 필요하다(관련 토픽 : 벌금 과 범칙금, 과태료, 번호판 영치).

    이 연구는 다음과 같은 한계가 있다. 첫째, 국민신문고 데이터의 특성상 교통법령과 정책에 대한 국민들의 요구를 충분히 반영하지 못했다. 실례로 2018년 대전 아파트 단지 내 교통사고 이후 교통사고처리특례법 개 정에 대한 요구가 적지 않았으나 본 연구에서 활용한 민원데이터에서 이를 확인할 수 없었다. 향후에는 보다 다양한 창구를 활용한 자료 수집이 이루어져야 할 것이며, 이 연구 결과의 해석에도 이러한 점을 고려할 필 요가 있다.

    둘째, 지역별로 상이한 교통환경과 운전자의 행태를 고려할 때 지역을 구분해 민원의 종류와 중요도를 연 구할 필요가 있다. 자치경찰제가 시행되고 교통경찰의 많은 영역이 국가경찰에서 자치경찰로 옮겨간 만큼 그 중요성도 더욱 높아질 것이며 지역민의 요구를 지역 공간정보와 결합한다면 더욱 의미 있는 시사점을 찾 아낼 수 있을 것이다.

    Figure

    KITS-20-4-57_F1.gif

    Document Generation Process(LDA)(Blei, 2012)

    KITS-20-4-57_F2.gif

    Research Process

    Table

    Weightings by Topics

    Weightings by Report of Violation Topic

    Final Topics

    Reference

    1. Baeck B. (2013), “A Study on the Administrative System and Problems ‘Voice of Customer’,” The Korean Association of Police Science Review, vol. 15, no. 5, pp.115-146.
    2. Baek S. (2019), Exploration on utilization of word embedding for topic modeling in Korean data, Master’s Thesis, The Graduate School of Seoul National University.
    3. Blei D. M. (2012), “Probabilistic Topic Models,” Communications of the ACM, vol. 55, no. 4, pp.77-84.
    4. Blei D. M. , Ng A. Y. and Jordan M. I. (2003), “Latent dirichlet allocation,” The Journal of Machine Learning Research, vol. 3, pp.993-1022.
    5. Choi H. (2016), “Study on Selecting Priority Criteria Utilizing Civil Complaint Data in the Field of Environment and Sanitation,” Journal of Environmental Policy and Administration, vol, 24, no. 2, pp.45-57.
    6. Choi S. and Ko E. (2019), “Analysis of 〈Korean Journal of Journalism & Communication Studies〉 from 1960 to 2018 using Metadata with Dynamic Topic Modeling,” Korean Journal of Journalism & Communication Studies, vol. 63, no. 4, pp.7-42.
    7. Hamzeian D. (2021), Using Machine Learning Algorithms for Finding the Topics of COVID-19 Open Research Dataset Automatically, Master's Thesis, University of Waterloo.
    8. Hong S. , Jeong I. and Lee Y. (2019), “A Study on the Automatic Categorization of Security Demand through Text Mining,” The Journal of Police Science, vol. 19, no. 2, pp.271-298.
    9. Kang M. (2009), “Traffic Accident analysis and Traffic Police Activity-Centering Gwangju Province Police Agency,” Journal of the Korea Contents Association, vol. 9, no. 9, pp.199-209.
    10. Kil H. (2018), “The Study of Korean Stopwords list for Text mining,” URIMALGEUL: The Korean Language and Literature, vol. 78, pp.1-25.
    11. Kim C. , Kang J. and Park J. (2019), “A Study on the opinion spam detection system using natural language processing based on machine Learning,” Proceedings of Symposium of the Korean Institute of Communications and Information Sciences, pp.956-957.
    12. Kim J. Y. and Chang J. S. (2018), “Analysing Civil Traffic Complaints using Latent Dirichlet Allocation,” Proceedings of the KOR-KST Conference, vol. 79, pp.106-111.
    13. Kim S. (2009), “An Analysis of Policing Needs in Daegu‧Gyeongbuk Areas,” Korean Local Government Review, vol. 11, no. 3, pp.185-203.
    14. Korea Information Society Agency,https://www.data.go.kr/, 2021.06.15.
    15. Korea Legislation Research Institute,https://elaw.klri.re.kr/kor_service/main.do, 2021.07.05.
    16. Lee H. , Chang J. and Kim G. (2020), “A Study on the Conflict Structure of the Standing Committee through Topic Analysis of the National Assembly Minutes: Health and Welfare Committee in the First Half of the 20th National Assembly,” Korean Party Studies Review, vol. 19, no. 2, pp.131-167.
    17. Lee S. and Kim H. (2009), “Keyword Extraction from News Corpus using Modified TF-IDF,” The Journal of Society for e-Business Studies, vol. 14, no. 4, pp.59-73.
    18. Lee Y. , Lee Y. , Seong J. , Stanescu A. , Ji S. and Hwang C. S. (2020), “An Analysis of the latest Trends and Topics in Geography Research Using Topic Modeling,” Journal of the Korean Geographical Society, vol. 55, no. 6, pp.589-599.
    19. Medical World News,http://medicalworldnews.co.kr/news/view.php?idx=1510929258, 2021.06.21.
    20. Ministry of Government Legislation,https://www.moleg.go.kr/lawinfo/makingInfo.mo?lawSeq=60649&lawCd=0&&lawType=TYPE5&mid=a10104010000, 2021.07.05.
    21. Moneytoday,https://news.mt.co.kr/mtview.php?no=2020091716432163577, 2021.07.02.
    22. Na S. , Yang G. and Shin J. (2019), “Classifying Customer’s Written Questions by Topics Using Deep Learning(LSTM),” The Transactions of the Korean Institute of Electrical Engineers, vol. 68, no. 11, pp.1411-1416.
    23. Oh C. , Lee Y. and Ko M. (2016), “Establishment of ITS Policy Issues Investigation Method in the Road Section applied Text mining,” The Journal of the Korea Institute of Intelligent Transport Systems, vol. 15, no. 6, pp.10-23.
    24. Park H. , Kim H. and Hong Y. (2017), “A Topic Modeling Analysis on the Major Social Issues of the Students’ Human Rights Ordinance in Korea,” Asian Journal of Education, vol. 18, no. 4, pp.683-711.
    25. Park J. and Lee S. (2020), “Big Data Analysis of Busan Civil Affairs Using the LDA Topic Modeling Technique,” Information Policy, vol. 27, no. 2, pp.66-83.
    26. Park S. , Lee H. , So J. and Yun I. (2021), “Study of Analysis for Autonomous Vehicle Collision Using Text Embedding,” The Journal of the Korea Institute of Intelligent Transport Systems, vol. 20, no. 1, pp.160-173.
    27. Röder M. , Both A. and Hinneburg A. (2015), “Exploring the space of topic coherence measures,” In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, pp.399-408.
    28. Shin A. (2019), Keyword and Topic Analysis on Free Semester Policy Using Big Data, Ph.D. Dissertation, The Graduate School of Seoul National University.
    29. Syed S. and Spruit M. (2017), “Full-text or abstract? Examining topic coherence scores using latent dirichlet allocation,” In 2017 IEEE International Conference on Data Science and Advanced Analytics(DSAA), pp.165-174.
    30. Woo C. W. and Lee J. Y. (2020), “Investigation of Research Topic and Trends of National ICT Research-Development Using the LDA Model,” Journal of the Korea Convergence Society, vol. 11, no. 7, pp.9-18.
    31. Woo Y. H. and Kim H. H. (2020), “Topic Analysis of the National Petition Site and Prediction of Answerable Petitions Based on Deep Learning,” KIPS Transactions on Software and Data Engineering, vol. 9, no. 2, pp.45-52.
    32. Yang H. , Ahn J. and Lee T. (2021), “A Study of Korean's Experiences of Unfairness Based on Analysis of Text Big Data Posted on the Blue House National Petition,” Survey Research, vol. 22, pp.25-59.
    33. Yonhap News Agencies,https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=102&oid=001&aid=0006801892, 2021.07.02.
    34. Yoo S. , Kang B. , Kim J. , Lee G. , Lee M. and Koh S. (2020), “The Lowest Price Matching Service Using Cosine Similarity Analysis,” Proceedings of the Korean Society of Broadcast Engineers Conference, pp.502-507.
    35. Yu Y. R. (2017), Analysis of media coverage on 2015 revised curriculum policy using Big Data Analysis, Ph.D. Dissertation, The Graduate School of Seoul National University.

    저자소개

    Footnote

    • 2009년~ 2018년 10년간 민원데이터를 국민권익위원회에서 분석한 결과, 민원 발생 분야별로 경찰이 36.7% 로 첫 번째, 교통이 6.1%로 네 번째였다.
    • <sup>「</sup>도로교통법<sub>」</sub> (개정 2021. 7. 13. 법률 제17891호) 제1조(목적)의 내용을 참고하였다.
    • 위반신고 회신 건수의 건수가 LDA를 적용할 정도로 충분하였으나 분류 결과가 불충분하여 재처리를 통해 법 조항토큰을 생성하고(예 : 도로교통법_제1조) 빈도를 분석하였다. 자세한 내용은 Ⅲ. 연구결과에서 상술하였다.
    • 사례를 보면 대부분 별도의 답변은 제공하지 않고 있으며, 민원 중 ‘도로교통법 25조는 왜 존재하는가’는 게 시물에 대해 국민신문고에 게재해 줄 것을 안내하고 있다.
    • 제외된 문서들은 대중교통 내 성추행, 유치장 내 유치인의 접견교통권, 경찰박물관 교통안내 등이다.
    • 생성과정은 다음과 같이 나타낼 수도 있다. 1. ϕ ~ Dir(β) 2. 각 문서별로 (1) θ ~ Dir(β) (2) 각 단어별로 ① z<sub>d,n</sub> ~ Multi(θ) ② w<sub>d,n</sub> ~ Multi(ϕ, n)
    • 단어 빈도란 한 문서 내 특정단어가 나타난 빈도수를 말한다(Lee and Kim, 2009).
    • TF-IDF는 단어 빈도(Term Frequency)값과 역문서 빈도(Inverse Document Frequency)값을 곱한 것이다. 역문서 빈도는 문서 집합 내 총 문서 수를 특정 단어가 나타난 문서의 수로 나눈 값이다. 자주 출현하는 보편 적인 단어보다 해당 문서에 자주 출현하는 단어를 중요하게 평가하기 위한 방법이다(Lee and Kim, 2009)
    • 짐작컨대 토큰화의 경우 명사만을 추출할 때 발생하는 정보의 손실 때문으로 볼 수 있다. 또한, 벡터화의 경 우 TF-IDF의 방식이 중요성이 떨어지나 반복적으로 나타나는 공통어의 문제를 해결하는 장점이 있다고 알려 져 있지만 본 연구에서 분석대상으로 한 민원답변 내용은 비록 담당자가 다를지라도 공통 토픽에 대해서는 교육과 경험을 통해 비슷한 답변을 게재할 가능성이 높으므로 중요단어는 반복적으로 나타나 저평가되는 반 면 개인의 글쓰기 방식의 차이에서 오는 사소한 단어는 오히려 고평가된 때문으로 생각된다.
    • 다음은 첫 번째 문서의 예이다. &lt;span style=&quot;font-family:함초롬바탕&quot;&gt;안녕하세요&
    • 법령의 본문을 추가한 것은 아니며, ‘제1조’를 하나의 단어로써 명사로 추가한 것이다.
    • 보행자의 범칙행위, 과태료 부과대상, 형사처벌 대상 행위를 모두 포함하면 그 종류는 더 많을 것이다.
    • ‘Cv’를 기준으로 명사와 형태소, TF와 TF-IDF를 조합해 LDA를 실시하였으나 충분한 결과를 얻기 어려웠 다. 휴리스틱한 방법으로 토픽 수를 조정한 경우 역시 마찬가지였다.
    • ‘위반’, ‘차량’, ‘과태료’, ‘부과’와 같은 단어들을 불용어 처리한 뒤 LDA를 실시하거나 TF-IDF방식을 활용하 는 방법을 생각할 수 있다. 하지만 위 단어들의 용도가 통일적이라고 가정할 수 없으므로 결과를 왜곡할 수 있고 실제로 분석을 실시한 결과도 정확한 분류가 이루어지지 않았다.
    • 교통안전시설은 신호기와 안전표지를 말한다.(도로교통법 제3조)
    • 좌·우회전 또는 진로변경 시 차의 신호를 하지 않은 위반이다.
    • 여기에서 교차로 통행방법은 흔히 ‘꼬리물기’라 불리는 운전에 대한 토픽으로 앞서 신호에 따른 교차로통행 방법 토픽과는 차이가 있다.
    • To be Classified로 표시된 것은 재분류가 필요한 문서들이다.
    • 2020년 5월부터 어린이 통학버스 관련 안전교육의 대상에 동승보호자가 추가되는 등 개정법령이 시행되었 다. 자세한 내용은 법제처 사이트에서 확인 가능하다.