Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.3 pp.53-63
DOI : https://doi.org/10.12815/kits.2025.24.3.53

Analysis of Bicycle Infrastructure and Accident Risk in Seoul: An Approach Using Clustering and Principal Component Analysis

Sun-Kyum Kim*, Intaek Jung**, Bong-Joo Jang**, Donghyun Park**, Woochul Choi**
*Dept. of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology
**Co-author: Senior Researcher, Korea Institute of Construction Technology
Corresponding author : Sun-Kyum Kim, sunkyumkim@kict.re.kr
11 April 2025 │ 29 April 2025 │ 9 May 2025

Abstract


This study quantitatively analyzed bicycle infrastructure and accident risks in Seoul. Key variables included bicycle road length, usage rate, population, and accident counts for both offenders and victims. Correlation analysis, KMeans clustering, and Principal Component Analysis (PCA) were utilized. The analysis revealed a strong positive correlation between bicycle usage and accident counts. KMeans clustering identified three types of clusters: high usage and high accident areas, high population but low accident areas, and low usage and low population areas. PCA results showed that PCA1 is related to population and road length, while PCA2 corresponds to usage rates and accident risks. This study proposes infrastructure improvements and safety education for high-risk areas, as well as promoting bicycle culture in low-usage areas, and serves as a foundational resource for enhancing bicycle safety and infrastructure planning in Seoul.



서울시 자전거 인프라와 사고 위험성 분석: 클러스터링과 주성분 분석을 활용한 접근

김 선 겸*, 정 인 택**, 장 봉 주**, 박 동 현**, 최 우 철**
*주저자 및 교신저자 : 한국건설기술연구원 수석연구원
**공저자 : 한국건설기술연구원 수석연구원

초록


본 연구는 서울시 자전거 인프라와 사고 위험성을 정량적으로 분석하였다. 자전거 도로 연 장, 이용률, 인구 수, 가해 및 피해운전자 사고 건수를 주요 변수로 설정하고, 상관관계 분석, KMeans 클러스터링, 주성분 분석(PCA)을 활용하였다. 분석 결과, 자전거 이용률과 사고 건수 간에 강한 양의 상관관계가 나타났으며, KMeans 클러스터링을 통해 세 가지 유형의 클러스터 (이용률-사고 건수 모두 높은 지역, 인구 많으나 사고 적은 지역, 인구와 이용률 모두 낮은 지 역)를 도출하였다. PCA 결과, PCA1은 인구와 도로 연장 길이, PCA2는 이용률과 사고 위험성 과 높은 관련성을 보였다. 본 연구는 사고 위험성이 높은 지역에 대한 인프라 개선과 안전 교 육 강화, 이용률이 낮은 지역에 대한 자전거 문화 확산 정책을 제안하며, 서울시 자전거 안전성 향상과 인프라 개선을 위한 기초자료로 활용될 수 있다.



    Ⅰ. 서 론

    도시 내에서 지속 가능한 교통수단으로서 자전거의 중요성은 점차 강조되고 있다. 특히, 서울시와 같은 대 도시는 교통 체증 해소와 대기오염 감소를 위해 자전거 이용을 적극 권장하고 있으며, 자전거 인프라 확대와 정책적 지원을 통해 이용 활성화를 추진하고 있다(Jung and Jang, 2024;Choi et al., 2024). 그러나 이러한 노 력에도 불구하고 자전거 사고 발생률은 지속적으로 증가하고 있으며, 이는 자전거 인프라 확장의 주요 장애 요소로 작용하고 있다. 자전거 사고는 단순히 인프라의 부족에서 비롯되는 것이 아니라, 인구 밀집도, 자전 거 도로 연장, 이용률, 그리고 사고 발생 건수와 같은 다양한 요인들의 상호작용에 의해 발생한다. 이러한 변 수들은 지역적 특성과도 밀접한 관련이 있지만, 현재까지의 연구는 주로 개별 요인에 대한 상관관계나 회귀 분석에 집중되어 왔다.

    기존 연구들은 자전거 도로 연장, 인구, 자전거 이용률 등 개별 변수와 사고 간의 관계를 중심으로 분석하거 나, 도로 환경 요인의 영향을 규명하는 데 초점을 맞추어왔다. 그러나 이러한 분석은 대부분 특정 요인에 국한 되어 있으며, 변수 간의 복합적인 상호작용을 고려하지 못하는 한계가 존재한다. 또한 다양한 요인을 종합적으 로 반영하여 지역별 사고 위험성을 정량적으로 평가하고 이를 시각화한 연구는 아직 부족한 실정이다. 또한, 사고의 공간적 분포나 이용 행태와 같은 정성적 요소를 함께 고려한 분석도 제한적으로 이루어지고 있다.

    본 연구는 이러한 한계를 극복하기 위해 서울시를 대상으로 자전거 인프라와 사고 위험성 간의 관계를 정 량적으로 분석하였다. 특히 자전거 사고는 단일 요인보다는 복합적인 도시 요소와 교통 인프라, 이용 행태 등이 함께 작용하여 발생하는 특성이 있기 때문에, 본 연구에서는 다차원적 변수를 통합적으로 고려할 수 있 는 방법론을 채택하였다. 이를 위해 자전거 도로 연장 길이, 인구 수, 자전거 이용률, 가해 및 피해운전자 사 고 건수 등 5개 핵심 변수를 기준으로 피어슨 상관분석을 통해 변수 간 관계를 검토하고, KMeans 클러스터 링을 통해 유사한 사고 특성을 가진 지역군을 구분하였으며, PCA(주성분 분석)를 통해 고차원 변수들을 저 차원 공간에서 시각적으로 해석하고 클러스터 간 구조를 파악하였다. 이러한 분석 틀은 사고 위험성을 단순 수치 비교가 아닌 구조적 군집 특성으로 이해할 수 있게 하며, 정책 수립 시 지역별 차별화된 접근이 가능하 도록 지원한다. 본 논문의 구성은 2장에서 선행 연구를 고찰하고, 3장에서 연구에 활용된 데이터와 분석 방 법론을 기술하며, 4장에서 분석 결과를 제시하고 5장에서 결론 및 향후연구로 마무리 하였다.

    Ⅱ. 선행 연구 고찰

    국내에서는 주로 자전거 인프라와 사고 위험성 간의 관계를 중심으로 연구가 진행되어 왔다. 예를 들어, 자 전거 이용 활성화를 위해 자전거 교통의 안전성을 높이고자 현재 운영 중인 자전거도로의 문제점을 분석하고, 자전거 교통사고 데이터를 바탕으로 사고 예측 모델을 개발한 연구가 있다(Kwon et al., 2015). 또한, 서울시를 대상으로 자전거 사고 현황과 날씨, 도로 환경 등 다양한 요인이 사고 발생에 미치는 영향을 회귀 분석을 통해 제시한 연구도 진행되었다(Lee, 2016). 이러한 연구들은 자전거 인프라와 사고 발생 사이의 관계를 규명하고, 이를 바탕으로 정책적 개선방안을 제안하는 데 초점을 맞추고 있다. 이 외에도 자전거 교통사고의 공간적 분 포를 분석하여 사고 다발지역의 특성을 도출하고, 인구 밀도나 도로 혼잡도 등 도시 특성과의 관계를 밝히는 공간 분석 기반 연구도 다수 존재한다(Kim and Park, 2017). 일부 연구는 GIS를 활용하여 서울시 자전거 사고 의 클러스터링 현상을 분석하거나(Park and Kang, 2024), 시간대별·기상조건별 사고 발생 패턴을 시각화하여 정책 대응 방향을 제시한 바 있다(Lee et al., 2016). 이러한 연구들은 자전거 교통의 안전 문제를 다양한 변수 로 접근해왔으나, 대부분 개별 변수 중심 분석이나 특정 요인 중심의 회귀 분석에 그치는 경향이 있다.

    해외에서도 자전거 인프라와 사고 위험성에 대한 다양한 연구가 이루어졌다. 여러 국가의 자전거 사고 데 이터를 활용하여 도로 폭, 품질, 표지판과 같은 인프라적 요인이 사고율에 미치는 영향을 분석한 연구가 있 으며(Pucher and Beuhler, 2008), 도시 내 자전거 사고 발생에 영향을 미치는 요소로 인구 밀도, 도로 폭, 교통 량 등을 강조한 연구도 있다(Reynolds et al., 2009). 특히, 교통량이 적은 지역일수록 사고 발생 확률이 낮아 지는 경향이 확인되었으며, 자전거 전용도로와 일반 도로의 사고 발생률을 비교한 연구에서는 자전거 전용 도로의 사고 발생 위험성이 상대적으로 낮음을 입증하였다(Teschke et al., 2012). 이는 자전거 도로 인프라 구 축의 필요성을 강조하는 연구 결과로 해석될 수 있다. 또한, 뉴사우스웨일스주(NSW)에서 발생한 자전거-자 동차 및 자전거-보행자 충돌 데이터를 분석하여, 이러한 충돌이 취약한 비자동차 도로 이용자에게 미치는 부 상의 심각도를 비교한 연구도 존재한다(Chong et al., 2010). 한편, 클러스터링 및 차원 축소 기법을 활용하여 사고 위험성을 분석한 연구도 진행되었다. 예를 들어, 자전거 장애 요소를 식별하기 위해 K-Means 및 DBSCAN 클러스터링 분석을 활용한 연구가 있으며(Holmgren et al., 2020), 교통사고 데이터를 PCA(주성분 분석)를 이용해 분석함으로써 사고에 영향을 미치는 주요 변수를 도출하고, 이를 통해 사고 심각도 예측 모 델을 개선한 연구도 있다(Assi, 2020).

    기존 연구들은 개별 변수의 영향 분석이나 예측모형 구축에 초점을 두고 있으며, 인구 수, 이용률, 사고 건수, 자전거 도로 연장 등 도시 차원의 복합적 변수를 통합적으로 고려한 지역 단위 분석은 미흡한 실정이 다. 특히, 클러스터링과 주성분 분석을 연계하여 자전거 사고 위험성과 인프라 특성을 동시에 정량화하고, 이를 기반으로 공간적 유형을 도출한 연구는 매우 드문 편이다. 본 연구는 이러한 점에서 차별성을 가진다. 서울시를 대상으로 인구, 인프라, 사고, 이용 행태 데이터를 통합 분석하여, 클러스터별 특성과 사고 위험성 의 구조적 차이를 정량적으로 제시함으로써, 기존의 단편적 분석을 넘어선 다차원적 지역 분석틀을 제공한 다. 또한, 정책 수립에 실질적인 기초자료를 제공할 수 있도록 클러스터 간의 구조적 해석을 강화하고, 각 군 집의 정책적 함의를 논의한 점에서 실용성과 활용 가능성 측면에서도 기여가 있다.

    Ⅲ. 연구 방법론

    본 연구에서는 서울시 자전거 인프라와 사고 위험성을 체계적으로 분석하기 위해, 자전거 도로 연장, 가해 운전자 및 피해운전자 사고 데이터, 인구, 자전거 이용률 데이터 셋을 서울열린데이터광장(Seoul Open Data, 2025)으로부터 수집하여 이를 기반으로 정량적 분석을 진행하였다. 연구는 크게 데이터 구성 및 전처리, 피 어슨 상관계수를 활용한 상관관계 분석(Cohen et al., 2009), KMeans 클러스터링(Holmgren et al., 2020), 주성 분 분석(PCA)(Assi, 2020)의 순서로 진행되었다. 먼저, 연구에 활용된 데이터를 상세히 설명하고, 분석의 정확 성을 확보하기 위한 전처리 과정을 제시한다. 이후, 변수 간의 관계를 파악하기 위해 상관관계 분석을 수행 하고, 사고 위험성에 따라 지역을 그룹화하기 위해 클러스터링을 적용하였다. 마지막으로, 데이터의 차원을 축소하여 클러스터별 패턴을 도출하기 위해 PCA를 활용하였다.

    1. 데이터 수집 및 구성

    본 연구는 서울시 자전거 인프라와 사고 위험성을 정량적으로 분석하기 위해, <Table 1>에 제시된 바와 같이 2019년부터 2023년까지의 5년간 자전거 도로 연장, 가해운전자 및 피해운전자 사고 데이터, 인구 데이 터를 활용하였으며, 자전거 이용률 데이터는 5년 연속 자료가 확보되지 않아 2022년과 2023년 2개년 자료만 을 사용하였다. 주요 변수에 대해서는 총 데이터 수, 평균, 표준편차를 산출하여 기초통계량을 함께 나타내 었다. 결과적으로 본 연구에 사용된 데이터는 크게 네 가지로 구성되었다. 자전거 도로 연장 데이터는 서울 시 각 구별 전용도로, 보행자 겸용도로, 전용차로, 우선도로를 포함하였다. 자전거 사고 데이터는 가해운전자 및 피해운전자의 사고 건수, 사망자 수, 부상자 수를 포함하여 수집하였다. 인구 데이터는 서울시 각 구의 연 도별 인구 수를 반영하였으며, 자전거 이용률 데이터는 2022년과 2023년의 자전거 이용 목적별 비율(통학/통 근, 대중교통 환승, 근거리 교통수단, 레저용, 이용하지 않음)로 구성되었다. 이외의 데이터 중 위치 기반 사 고 정보의 경우, 개별 사고 좌표로 제공되기는 하나 도로 위치와의 정합성을 확보하기 위한 전처리 작업이 방대하여 본 연구 범위 내에서 활용이 어려웠고, 자전거 대여 및 이용 시간 데이터는 공공자전거 대여소 기 준으로 수집되어 지역별 인프라나 실제 이용 행태를 반영하기 어렵다는 한계가 있다. 또한 자전거 이용률 데 이터는 2019년 자료도 존재하나, 2022~2023년과 달리 목적별 구분이 포함되어 있지 않아 일관된 분석을 위 해 제외하였다. 이에 따라, 분석의 일관성과 해석 가능성을 고려하여 네 가지 주요 데이터를 중심으로 연구 를 설계하였다.

    <Table 1>

    Bicycle Infrastructure and Accident Risks in Seoul

    Category Key Variables Number of data Average Standard deviation Period
    Bicycle Road Length Total road length (Dedicated, Shared, Exclusive, Priority roads) 1,000 406.96 172.11 2019 ~ 2023
    Bicycle Accident Accident count, fatalities, and injuries for culprits and victims 375*2 86.14 44.87
    Population Annual population by district 125 474,878.84 158,874.88
    Bicycle Usage Rate Usage purposes (commuting, transit transfer, short-distance, leisure, non-usage) 250 39.92 8.67 2022 ~ 2023

    2. 데이터 전처리

    데이터의 정확성을 확보하기 위해 다음과 같은 전처리 과정을 수행하였다. 먼저, 데이터셋에서 결측치가 존재하는 변수들은 평균값으로 대체하였다. 다만, 결측치가 지나치게 많아 신뢰성을 확보할 수 없는 경우에 는 해당 데이터를 분석에서 제외하였다. 동일한 변수에 대한 연도별 데이터는 평균 또는 합산하여 통합하였 다. 사고 건수, 사망자 수, 부상자 수와 같은 사고 관련 변수는 합산하였으며, 자전거 이용률이나 인구와 같 은 변수는 평균값을 사용하여 연도별 변동성을 반영하였다. 모든 데이터셋은 서울시 구 단위로 병합하였으 며, 이를 통해 동일한 단위로 통일된 데이터셋을 구성하고, 구별로 분석이 가능하도록 준비하였다. 마지막으 로, 변수 간 단위 차이를 제거하기 위해 Z-Score 표준화를 적용하여 분석의 일관성을 유지하였다.

    3. 분석 방법

    변수 간의 연관성을 파악하기 위해 피어슨 상관계수(Pearson's Correlation Coefficient)를 사용하였다. 피어슨 상관계수는 두 변수 간의 선형적 관계의 강도를 나타내며, 값의 범위는 -1에서 1 사이이다. 상관계수가 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계를 의미하며, 0에 가까울수록 관계가 없음을 나타낸다.

    상관계수는 다음과 같은 식으로 산출된다.

    r = i = 1 n x i x ¯ 2 y i y ¯ i = 1 n x i x ¯ 2 i = 1 n y i y ¯ 2
    (1)

    여기서 xi, yi는 각각의 변수 값을 의미하며, xy 는 각각의 변수에 대한 평균값이다.

    서울시 각 구의 사고 위험성을 그룹화하기 위해 KMeans 클러스터링을 적용하였다. KMeans는 데이터를 k 개의 클러스터로 분류하는 비지도 학습 알고리즘으로, 유사한 특성을 가진 지역을 하나의 군집으로 묶어 분 석의 직관성을 높이고자 하였다. KMeans 클러스터링은 다음 손실 함수를 최소화하는 방식으로 수행되었다.

    J = j = 1 k i = 1 n x i j c j 2
    (2)

    여기서 J 는 클러스터링 손실 함수, k는 클러스터 수(본 연구에서는 3개로 설정), x i j j번째 클러스터에 속하는 i번째 데이터값, cj는 클러스터 중심점(centroid)을 의미한다.

    데이터의 차원을 축소하고 클러스터 간의 패턴을 명확히 도출하기 위해 주성분 분석(PCA)을 적용하였다. PCA는 고차원의 데이터를 저차원으로 변환하여 데이터 간의 구조적 특성을 파악하는 데 유용한 방법이다.

    PCA는 다음과 같은 공분산 행렬을 통해 주성분을 산출하였다.

    S = 1 n 1 i = 1 n x i x ¯ x i x ¯ T
    (3)

    여기서 S 는 공분산 행렬, n은 변수의 개수(서울시 25개 구), xi는 각 Z-Score로 표준화된 변수 값(자전거 도로 연장, 인구 수, 자전거 이용률, 사고 건수)으로 x 는 변수들의 평균값을 의미한다.

    분석 결과를 보다 직관적으로 이해하기 위해 다양한 시각화 작업을 진행하였다. 상관관계 히트맵을 통해 변수 간의 연관성을 시각적으로 제시하였고, KMeans 클러스터링 결과를 시각화하여 클러스터별 특성을 명 확히 구분하였다. 또한 PCA 시각화를 통해 주성분 간의 패턴을 직관적으로 확인하였으며, PCA1과 PC2의 개 별 분석을 통하여 클러스터별 차이를 명확히 도출하였다.

    Ⅳ. 분석 결과

    본 연구에서는 서울시 자전거 인프라와 사고 위험성 간의 관계를 정량적으로 분석하고, 클러스터링을 통 해 사고 위험성이 높은 지역을 구분하였다. 분석은 피어슨 상관계수를 활용한 상관관계 분석, KMeans 클러 스터링, 주성분 분석(PCA)을 바탕으로 진행되었으며, 각 분석 결과는 다음과 같다.

    <Fig. 1>은 피어슨 상관계수를 활용한 상관관계 분석 히트맵이다. 자전거 도로 연장은 인구(0.64), 가해운 전자 사고건수(0.58), 피해운전자 사고건수(0.68)와 중간 수준의 양의 상관관계를 보였다. 이는 도로 연장이 사고 건수 감소에 직접적인 영향을 미친다고 단정할 수 없으며, 인구 밀집도가 높은 지역에서 사고 발생 위 험이 상대적으로 클 수 있음을 시사한다. 반면, 자전거 이용률(-0.066)과는 유의미한 상관관계를 보이지 않았 다. 인구는 가해운전자 사고건수(0.58), 피해운전자 사고건수(0.66)와 양의 상관관계를 보였으나, 자전거 이용 률(-0.26)과는 음의 상관관계를 나타냈다. 이는 인구가 많은 지역에서 사고 발생 가능성이 높을 수 있지만, 자 전거 이용률이 반드시 높은 것은 아님을 의미한다. 가해운전자 사고건수와 피해운전자 사고건수는 0.95의 높 은 양의 상관관계를 보였으며, 이는 사고 유형 간의 강한 연관성을 나타낸다. 그러나 자전거 이용률(-0.25)과 는 음의 상관관계를 보였는데, 이는 사고 발생이 반드시 자전거 이용률과 비례하지 않으며, 도로 환경과 교 통 흐름 등의 외부 요인도 중요한 변수로 작용할 가능성이 있음을 시사한다. 특히, 자전거 사고는 반드시 자 전거 도로에서만 발생하는 것이 아니라, 일반 도로, 교차로, 이면도로 등에서도 다수 발생할 가능성이 있다. 따라서 상관분석 결과만으로 자전거 도로 연장이 사고 발생에 직접적인 영향을 미친다고 해석하는 것은 어 렵다. 자전거 사고의 발생 원인은 도로 환경, 교통량, 차량-자전거 간의 혼재 여부, 신호 체계 등의 다양한 요 인과 맞물려 있으며, 사고 다발 지역의 공간적 특성을 종합적으로 고려해야 한다. 이러한 결과는 단순한 자 전거 도로 확충이 아니라, 사고 다발 지역의 도로 특성과 사고 유형을 함께 고려하는 종합적인 접근이 필요 함을 시사한다.

    KITS-24-3-53_F1.gif
    <Fig. 1>

    Result of Pearson Correlation

    상관분석과 함께 <Table 2>와 같이, 각 변수 간의 통계적 유의성을 검토하기 위해 피어슨 상관계수와 함께 p-value를 산출하였다. 자전거 도로 연장은 가해운전자 사고건수(p = 0.0025), 피해운전자 사고건수(p = 0.0002), 인구 수(p = 0.0006)와 중간 수준 이상의 양의 상관관계를 보였으며, 이들 관계는 모두 통계적으로 유의미한 수준(p < 0.01)으로 나타났다. 반면, 자전거 이용률은 피해운전자 사고건수(p = 0.2694), 가해운전자 사고건수(p = 0.2441), 인구(p = 0.0762)와는 낮은 수준의 음의 상관관계를 보였으며, 이들 결과는 모두 통계적으로 유의하 지 않았다(p > 0.05). 이러한 분석 결과는 자전거 인프라의 물리적 확충이 사고율 감소로 직접 연결되지 않음 을 시사하며, 자전거 사고 발생에는 단일 변수가 아닌 다양한 복합 요인의 작용이 있음을 의미한다.

    <Table 2>

    Statistical Significance (p-values) of Pearson Correlation

    Variables p-values
    Road_Length – Accidents_Culprit 0.0025
    Road_Length – Accidents_Victim 0.0002
    Road_Length - Population 0.0006
    Road_Length – Bicycle_Use_Rate 0.2674
    Population – Accidents_Culprit 0.0023
    Population – Accidents_Victim 0.0003
    Population – Bicycle_Use_Rate 0.2389
    Accidents_Culprit - Accidents_Victim <0.0001
    Accidents_Culprit - Bicycle_Use_Rate 0.5074
    Accidents_Victim - Bicycle_Use_Rate 0.5724

    KMeans 클러스터링을 통해 서울시 각 구를 사고 위험성에 따라 <Fig. 2>와 같이 3개의 클러스터(k=3)로 구분하였다. 클러스터 수는 Elbow 기법(Kodinariya & Makwana, 2013)을 참고하여 결정하였으며, 클러스터 수 증가에 따른 왜곡도(WCSS)의 감소 폭이 k=3에서 완만해지는 전환점(elbow point)을 기준으로 설정되었다. 이 는 데이터의 구조를 가장 효과적으로 설명하면서도 분석 목적에 부합하는 세 가지 유형, 즉 사고 위험성이 낮은 지역, 이용률과 사고 건수가 모두 높은 지역, 이용률은 낮지만 사고가 빈번한 지역으로 구분할 수 있음 을 반영한 결과이다.

    KITS-24-3-53_F2.gif
    <Fig. 2>

    KMeans Clustering Graph

    클러스터링에는 도로 연장, 인구 수, 가해운전자 사고 건수, 피해운전자 사고 건수, 자전거 이용률 등 다양 한 변수들이 모두 반영되었다. 그러나 <Fig. 2>의 시각화는 결과의 직관적 해석을 돕기 위한 것으로, 2차원 평면 상에서 가로축은 인구 수, 세로축은 가해운전자 사고 건수를 기준으로 표현하였다. 이는 고차원 공간에 서 형성된 클러스터를 시각적으로 단순화한 것이며, 모든 변수를 반영한 분석 결과를 축약하여 보여준 것이 다. 각 클러스터는 다음과 같은 특징을 보인다. 클러스터 0은 자전거 도로 연장이 짧고 인구 및 사고 건수가 낮은 지역으로, 자전거 이용률도 낮게 나타났다. 이러한 지역은 자전거 이용이 저조하고 사고 발생 위험성도 낮은 것으로 해석되며, 자전거 이용 활성화를 위한 대여 시스템 도입이나 이용 교육 등의 정책적 접근이 필 요하다. 클러스터 1은 자전거 인프라가 잘 구축되어 있고 인구가 많으며, 자전거 이용률과 사고 건수도 모두 높은 지역이다. 이는 인프라 확충에도 불구하고 이용 증가에 따른 사고 위험도 함께 증가할 수 있음을 시사 하며, 이에 따라 도로 환경 개선, 교통안전 캠페인, 보호 장비 착용 의무화 등의 안전 확보 방안이 요구된다. 클러스터 2는 인프라가 잘 구축되어 있음에도 불구하고 자전거 이용률은 낮고 사고 건수는 높은 지역으로, 이는 도로 구조나 교차로, 차량 혼재 등 인프라 외적 요인이 주요 사고 원인일 가능성을 시사한다. 이 경우 에는 사고 다발 구간의 개선, 신호 체계 재설계, 자전거 안전 인프라 보완과 같은 보다 정밀한 대책이 필요 하다.

    이와 같은 KMeans 클러스터링 결과를 다변량 시각화 방식으로 보완하기 위해 주성분 분석(PCA)을 함께 수행하였다. PCA는 원래의 고차원 데이터를 가장 설명력이 높은 두 개의 축(PCA1, PCA2)으로 축소함으로써 변수 간 패턴을 시각적으로 해석할 수 있게 한다. <Fig. 3>은 PCA 분석 결과를 기반으로 각 자치구를 시각화 한 그래프로, PCA1(가로축)은 자전거 도로 연장과 인구 수와 강한 양의 상관관계를 보였고, 이는 인프라가 충분하고 인구가 밀집된 지역일수록 높은 값을 갖는다는 것을 의미한다. 반면 PCA2(세로축)는 자전거 이용 률과 사고 건수와 높은 관련성을 보여주며, 자전거 활동성과 사고 위험 간의 연관성을 반영한다. PCA2 값이 높은 지역은 자전거 이용률이 높고 사고 위험성이 큰 지역, 낮은 값은 이용률과 사고 발생 모두 낮은 지역으 로 해석할 수 있다.

    KITS-24-3-53_F3.gif
    <Fig. 3>

    PCA Visualization

    <Fig. 4>와 5는 각각 PCA1과 PCA2의 분포를 밀도 그래프로 시각화한 결과이며, 각 클러스터는 명확한 경 향성을 보였다. 세로축의 count 값은 해당 PCA1 또는 PCA2 값에서 관측된 지역 수를 의미한다. 즉, 특정 PCA1 값(예: 2)에서 몇 개의 지역(구)이 포함되어 있는지를 보여준다. 예를 들어, count 값이 5이면, 해당 PCA1 또는 PCA2 값에 해당하는 지역이 5개라는 의미이다. 이를 통해 특정 클러스터는 도로 인프라가 확충 된 지역에 분포하고, 다른 클러스터는 자전거 이용률과 사고 건수가 높은 지역에 집중되어 있음을 확인할 수 있었다.

    KITS-24-3-53_F4.gif
    <Fig. 4>

    PCA Component 1

    KITS-24-3-53_F5.gif
    <Fig. 5>

    PCA Component 2

    대부분의 지역은 PCA1 값이 -1에서 2 사이에 집중되어 있으며, 이는 서울시 대부분의 자전거 도로 및 인 구 수준이 중간 정도로 분포하고 있음을 보여준다. 반면, 극단적인 값(예: PCA1이 4 이상 또는 -2 이하)을 갖 는 지역은 상대적으로 적은데, 이는 자전거 도로가 매우 잘 구축되었거나(고밀도 지역), 반대로 자전거 도로 가 거의 없는 지역(저밀도 지역)이 제한적이라는 것을 의미한다. 클러스터별로 살펴보면, 클러스터 0(자전거 도로 연장이 짧고 인구 및 사고 건수가 낮은 지역)은 PCA1 값이 낮은 범위에 주로 분포하며, 클러스터 1(자 전거 도로 연장과 인구가 많은 지역)은 높은 PCA1 값을 가진다. 클러스터 2(이용률은 낮지만 사고 건수가 높 은 지역)는 중간 정도의 PCA1 값을 보이며, 특정한 패턴 없이 넓게 분포하는 경향이 있다.

    PCA2의 분포는 비교적 넓게 퍼져 있으며, 중간 범위(0~2)에 다수의 지역이 포함되어 있음을 확인할 수 있 다. 이는 서울시 대부분의 지역이 중간 정도의 자전거 이용률과 사고 건수를 기록하고 있음을 시사한다. 특 히, 클러스터 1(자전거 이용률이 높고 사고 건수가 많은 지역)은 PCA2 값이 높은 영역에 집중되어 있으며, 클러스터 2(이용률은 낮지만 사고 건수가 높은 지역)도 높은 PCA2 값을 일부 포함하고 있다. 반면, 클러스터 0(자전거 이용률과 사고 건수가 낮은 지역)은 낮은 PCA2 값을 중심으로 분포하는 경향을 보였다. 이러한 분 석을 통해, 도로 인프라와 인구 수준이 높다고 해서 반드시 사고 발생이 줄어드는 것은 아니며, 지역별 도로 환경과 자전거 이용 행태를 고려한 맞춤형 정책이 필요함을 확인할 수 있었다.

    자전거 이용률과 사고 건수 간의 상관성을 심층적으로 분석한 결과, 일부 지역에서는 이용률이 증가함에 따라 사고 발생 건수도 증가하는 경향을 보였다. 그러나 이는 단순한 인과관계가 아니라, 지역별 도로 환경 및 안전 인프라의 차이가 복합적으로 작용한 결과로 해석할 수 있다. 따라서 자전거 이용률 증가에 따른 사 고 예방을 위해서는 인프라 확충뿐만 아니라, 사고 위험성이 높은 지역에 대한 맞춤형 정책이 필요함을 확인 할 수 있었다.

    Ⅴ. 결론 및 향후 연구

    본 연구는 서울시 자전거 인프라와 사고 위험성 간의 관계를 정량적으로 분석하고, 클러스터링을 통해 사 고 위험성이 높은 지역을 유형화하였다. 이를 위해 자전거 도로 연장, 인구 수, 자전거 이용률, 가해운전자 및 피해운전자 사고 건수를 주요 변수로 설정하고, 상관관계 분석, KMeans 클러스터링, 주성분 분석(PCA)을 수행하였다. 분석 결과, 자전거 도로 연장과 인구 수는 자전거 이용률 및 사고 건수와 일정 부분 연관성을 보였으나, 단순한 인프라 확충이 사고 감소로 직결되지는 않는 것으로 나타났다. 특히 인프라가 잘 구축되었 음에도 사고 발생 위험성이 높은 지역이 확인되어, 물리적 인프라 외의 요인이 사고 위험성에 영향을 미친다 는 점이 드러났다. 클러스터링 결과 서울시 각 구는 세 가지 유형으로 구분되었으며, 첫 번째는 인프라·이용 률·사고 위험성 모두 낮은 지역, 두 번째는 인프라와 이용률이 높고 사고 위험성도 높은 지역, 세 번째는 인 프라는 양호하나 이용률은 낮고 사고 위험성은 높은 지역으로 나타났다. 이는 자전거 인프라 확충만으로는 사고 위험 완화에 한계가 있음을 시사한다. PCA 분석에서는 주요 변수 간의 관계를 두 축으로 축소하여 해 석하였다. PCA1은 자전거 도로 연장 및 인구 수와의 높은 상관관계를, PCA2는 자전거 이용률과 사고 건수 와의 높은 상관관계를 보였으며, 이를 통해 자전거 사고는 다차원적인 복합 요인의 영향을 받는다는 점을 확 인할 수 있었다.

    이러한 결과를 바탕으로 몇 가지 정책적 시사점을 제시할 수 있다. 단순한 인프라 확충에 그치지 않고, 자 전거 이용이 활발한 지역에는 교통안전 인프라를 강화하고, 사고 다발 지역에는 도로 구조 개선과 맞춤형 대 응이 필요하다. 또한 자전거 이용률이 낮은 지역은 이용 활성화 정책과 함께 인프라 확충이 병행되어야 한 다. 특히 사고 원인에 대한 세부 분석과 지속적인 모니터링을 통해 지역별로 차별화된 정책이 마련되어야 한 다. 또한, 사고 발생이 높은 지역에서는 정기적인 안전 점검과 사고 예방 캠페인을 시행하고, 자전거 도로의 지속적인 유지보수 및 개선이 이루어져야 한다.

    아울러 본 연구에서 활용한 사고 데이터는 경찰 등 관계 기관에 접수된 공식 통계 기반으로 구성되어 있 어, 경미하거나 비접수된 사고는 포함되지 않았다는 한계가 존재한다. 이는 자전거 사고의 실제 발생 규모를 과소평가할 수 있으며, 분석 결과 해석 시 이러한 점을 감안하여 자전거 이용자의 경험 기반 정보, 보험 청 구 이력, 설문조사 등 다양한 비정형 데이터를 보완적으로 활용하여 현실성을 높이는 접근이 요구된다. 또 한, 본 연구는 제한된 변수와 기간의 데이터를 바탕으로 분석을 수행하였으므로, 기상 조건, 시간대별 사고 분포, 도로 혼잡도 등 추가적인 요인을 반영한 정밀한 분석이 필요하다. 나아가, 사고 발생 원인과 특성을 보 다 구체적으로 파악하기 위해 정성적 연구와의 병행도 고려될 수 있을 것이다.

    본 연구는 서울시 자전거 인프라와 사고 위험성 간의 관계를 체계적으로 분석하여, 보다 안전한 자전거 교통 환경을 조성하기 위한 기초자료로 활용될 수 있을 것으로 기대된다. 나아가, 이러한 연구가 자전거 정 책 수립과 개선 방향에 실질적인 기여를 할 수 있기를 바란다.

    ACKNOWLEDGEMENTS

    본 연구는 과학기술정보통신부 한국건설기술연구원 연구운영비지원(주요사업)사업으로 수행되었습니다 (20250261-001, 이동형 AIoT 센싱 기반 자전거도로 노면상태 자동탐지 기술 고도화).

    Figure

    KITS-24-3-53_F1.gif

    Result of Pearson Correlation

    KITS-24-3-53_F2.gif

    KMeans Clustering Graph

    KITS-24-3-53_F3.gif

    PCA Visualization

    KITS-24-3-53_F4.gif

    PCA Component 1

    KITS-24-3-53_F5.gif

    PCA Component 2

    Table

    Bicycle Infrastructure and Accident Risks in Seoul

    Statistical Significance (p-values) of Pearson Correlation

    Reference

    1. Assi, K. ( 2020), “Traffic crash severity prediction—A synergy by hybrid principal component analysis and machine learning models”, International Journal of Environmental Research and Public Health, vol. 17, no. 20, p.7598.
    2. Choi, W.,Jang, B. J.,Kim, S. K. and Jung, I. ( 2024), “A Study on Selection of Bicycle Road Hazard Detection Elements For Mobile IoT Sensor Device Operation”, The Journal of The Korea Institute of Intelligent Transport Systems, vol. 23, no. 4, pp.37-53.
    3. Chong, S.,Poulos, R.,Olivier, J.,Watson, W. L. and Grzebieta, R. ( 2010), “Relative injury severity among vulnerable non-motorised road users: Comparative analysis of injury arising from bicycle-motor vehicle and bicycle–pedestrian collisions”, Accident Analysis & Prevention, vol. 42, no. 1, pp.290-296.
    4. Cohen, I.,Huang, Y.,Chen, J.,Benesty, J.,Benesty, J.,Chen, J. and Cohen, I. ( 2009), “Pearson correlation coefficient”, Noise Reduction in Speech Processing, pp.1-4.
    5. Holmgren, J.,Knapen, L.,Olsson, V. and Masud, A. P. ( 2020), “On the use of clustering analysis for identification of unsafe places in an urban traffic network”, Procedia Computer Science, vol. 170, pp.626-633.
    6. Jung, I. and Jang, B. ( 2024), “Study on Effective Width Detection Technology for Bicycle Load based on Mobile”, Korean Society of Civil Engineers, vol. 35, no. 5, pp.1135-1146.
    7. Kim, T. and Park, B. ( 2017), “Analysis of Bicycle Accidents in Korea Based on Regional Characteristics”, Journal of Korean Society of Transportation, vol. 35, no. 2, pp.67-83.
    8. Kwon, S.,Kim, Y.,Kim, J. and Ha, T. ( 2015), “Development of Bicycle Accident Prediction Model and Suggestion of Countermeasures on Bicycle Accidents”, Journal of Civil and Environmental Engineering Research, vol. 35, no. 5, pp.1135-1146.
    9. Lee, J.,Jung, K. and Shin, H. ( 2016), “Impact Analysis of Weather Condition and Locational Characteristics on the Usage of Public Bike Sharing System”, Journal of Korean Society of Transportation, vol. 34, no. 5, pp.394-408
    10. Lee, S. ( 2016), “Analysis and prediction of bicycle traffic accidents”, Journal of the Korean Society of Transportation, vol. 34, no. 1, pp.55-65.
    11. Park, J. and Kang, M. ( 2024), “A Case-Control Study on the Association between Bicycle Crash Hotspots and Urban Environmental Factors in Seoul: Focusing on the Development and Application of a Non-Crash Location Extraction Algorithm”, Journal of Korea Planning Association, vol. 59, no. 5, pp.87-104.
    12. Pucher, J. and Buehler, R. ( 2008), “Making cycling irresistible: Lessons from The Netherlands, Denmark and Germany”, Transport Reviews, vol. 28, no. 4, pp.495-528.
    13. Reynolds, C. C.,Harris, M. A.,Teschke, K.,Cripton, P. A. and Winters, M. ( 2009), “The impact of transportation infrastructure on bicycling injuries and crashes: A review of the literature”, Environmental Health, vol. 8, no. 1, p.47.
    14. Seoul Open Data, https://data.seoul.go.kr/, 2025.04.07.
    15. Teschke, K.,Harris, M. A.,Reynolds, C. C.,Winters, M.,Babul, S.,Chipman, M. and Cripton, P. A. ( 2012), “Route infrastructure and the risk of injuries to bicyclists: A case-crossover study”, American Journal of Public Health, vol. 102, no. 12, pp.2336-2343.

    저자소개

    Footnote