Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.24 No.1 pp.86-100
DOI : https://doi.org/10.12815/kits.2025.24.1.86

Real-time Pedestrian Speed Estimation and Estimated Time of Arrival Prediction System for Crosswalk Safety Monitoring

Eun Ji Kim*, Se Hyun Jo**, Young Joon Lee***, Hyeog Soo Ko****, Yongjun Chang*****
*Dept. of Artificial Intelligence Engineering, Cheju Halla University
**Dept. of Artificial Intelligence Engineering, Cheju Halla University
***Dept. of Artificial Intelligence Engineering, Cheju Halla University
****Dept. of DT BAS Innovation Biz., eINS S&C Co., Ltd
*****Dept. of Artificial Intelligence Engineering, Cheju Halla University
Corresponding author : Yongjun Chang, yongnjin@chu.ac.kr
24 December 2024 │ 13 January 2025 │ 4 February 2025

Abstract


As people age, they experience various health problems such as joint pain, stroke, and vision impairment (presbyopia), which leads to a decrease in walking speed and an increased risk of accidents. Especially in complex road environments such as intersections, pedestrians are at increased risk of accidents. In this study, we developed a system that uses CCTV images to calculate the speed of pedestrians in real time and predict their expected arrival time. Based on the data collected from AI-Hub, the You Only Look Once (YOLO) version 8 (YOLOv8) model was trained, and the system's performance was evaluated. The proposed system identifies pedestrian movement status in real-time and predicts pedestrian speed and Estimated Time of Arrival Time (ETA) in complex traffic environments such as intersections. The proposed system can promote the safety of elderly and walking disabled people and contribute to the improvement of intersection safety, and can be used as a useful tool for evaluating pedestrian safety at existing intersections and improving traffic safety systems based on real-time pedestrian speed calculation and ETA prediction. Further research is needed to collect data and improve the model in various environments to improve the accuracy of the system in the future.



횡단보도 안전 모니터링을 위한 실시간 보행자 속도 추정 및 예상 도달 시간 예측 시스템

김 은 지*, 조 세 현**, 이 영 준***, 고 혁 수****, 장 용 준*****
*주저자 : 제주한라대학교 인공지능공학과 학사과정 학생
**공저자 : 제주한라대학교 인공지능공학과 학사과정 학생
***공저자 : 제주한라대학교 인공지능공학과 부교수
****공저자 : ㈜아인스에스엔씨 DT BAS 혁신사업본부 이사
*****교신저자 : 제주한라대학교 인공지능공학과 부교수

초록


나이가 들수록 관절통, 뇌졸중, 시력 장애(노안)와 같은 다양한 건강 문제가 발생하며, 이는 보행 속도의 저하와 사고 위험 증가로 이어진다. 특히 교차로와 같은 복잡한 도로 환경에서 보행자는 사고에 노출될 위험이 커진다. 이에 본 연구는 CCTV 영상을 활용하여 보행자의 이 동 속도를 실시간으로 계산하고, 예상 도달 시간을 예측하는 시스템을 개발하였다. AI-Hub에 서 수집한 데이터를 바탕으로 You Only Look Once 모델 8버전(YOLOv8)으로 학습하고, 시스템 성능을 평가하였다. 제안된 시스템은 보행자의 이동 상태를 실시간으로 파악하며, 교차로와 같 은 복잡한 교통 환경에서 보행자의 속도와 예상 도달 시간을 예측한다. 제안 시스템을 통해 노약자 및 보행 장애인의 안전을 증진하고 교차로 안전성 향상에 기여할 수 있으며, 실시간 보행자 속도 계산과 예상 도달 시간 예측 기반으로 기존 교차로에서의 보행자 안전을 평가하 고 교통안전 시스템 개선을 위한 유용한 도구로 활용될 수 있다. 향후 시스템의 정확도 향상을 위해 다양한 환경에서 데이터 수집 및 모델 개선이 필요한 후속 연구가 요구된다.



    Ⅰ. 서 론

    고령화 사회로 진입함에 따라 노인 보행 안전은 점차 중요한 사회적 과제로 떠오르고 있다. 나이가 들수록 관절통, 뇌졸중, 시력 장애(노안)와 같은 다양한 건강 문제로 인해 보행 속도가 느려지며, 이는 도로 환경에서 사고 위험을 증가시키는 주요 요인이 된다. 대한 신경과학회지에 발표된 연구에 따르면, 60대의 약 10%, 80대 이상의 약 60%가 보행 장애를 겪으며, 정상 보행을 위한 뇌 고위기능이 보행 장애와 밀접하게 연관된다고 한 다 (Park, 2017). 이러한 신체적 한계는 특히 교차로와 같은 복잡한 교통 환경에서 더욱 두드러진다.

    경찰청의 2023년 교통사고 통계에 따르면, 보행자가 횡단 중 사고를 당하는 경우는 전체 교통사고의 약 6.6%를 차지하며, 그중 약 30%는 노인과 관련된 사고이다(National Police Agency, 2024). 또한, AAA Foundation for Traffic Safety(2011)에서 발표한 연구에서 70세 노인이 시속 40km 차량에 충돌했을 때 중상 또는 사망 확률이 젊은 보행자가 시속 56km 차량에 충돌했을 때와 비슷하다고 한다. 이는 노인의 신체적 취약성이 사고 위험을 높인다는 점을 시사한다. 실제로, 많은 노인은 보행 중 다리 통증이나 피로를 호소하며, 신호 대기 시간 동안 기둥에 기대거나 카트에 앉아 쉬는 경우가 많다. 또한, 초록 신호가 아슬하게 남았을 경우 무단횡단을 시도하여 사고를 당하는 경우도 발생한다 (The JoongAng, 2024). 따라서 보행자의 보행 속도를 실시간으로 파악하여 신호를 조정하 거나 안전을 보장하는 기술적 접근이 필요하다.

    Closed-Circuit TeleVision (CCTV) 시스템은 교차로, 도로, 고속도로 등에서 차량 흐름을 관리하고 사고를 모니터링하는 중요한 도구로 자리 잡고 있다. 2023년 기준, 국가지표체계(National indicator system)에 따르면 공공기관이 설치 및 운영하는 CCTV의 총 대수는 1,767,894개에 달하며, 이는 교통사고 예방, 범죄 감시, 공 공 안전 확보를 위한 핵심 인프라로 활용되고 있음을 보여준다. 현재의 CCTV 시스템은 차량 흐름 관리와 사고 감지에는 효과적이지만, 실시간으로 보행자의 상태를 모니터링하거나 안전 문제를 예방하는 데에는 한 계가 있다. 특히, 고령자나 보행 장애인을 위한 맞춤형 지원이 부족하여 이들이 사고에 더 취약한 상황에 놓 이게 된다. 따라서 현재 시스템의 기능을 고도화하여 보행자와 차량 간의 상호작용을 관리할 수 있는 기술적 개선이 요구된다.

    본 연구에서는 CCTV 데이터를 활용하여 횡단보도의 보행자 속도를 실시간으로 추정하고, 보행자의 예상 도달 시간을 예측하는 시스템을 제안한다. AI-Hub에서 수집한 교차로 데이터를 기반으로 YOLO 모델을 학 습하고 성능을 평가하였다 (Redmon et al., 2016). CCTV 데이터는 멀리서 촬영된 영상이라는 특성 때문에 보 행자의 구체적인 형체를 명확히 구분하기 어려워, 연령대 판별이나 보행에 영향을 미칠 수 있는 신체적 특징 을 파악하는 데 한계가 있었다. 이에 본 연구에서는 보행자의 연령 추정이나 신체 특징 판별과 같은 직접적 인 접근 대신, 보행 속도를 추정하는 방식을 통해 고령자나 보행이 어려운 분들을 지원하기 위한 속도 추정 및 예상 도달 시간 예측 시스템을 제안한다. 즉, 횡단보도에서 고령자나 보행 장애인의 보행 속도가 느릴 것 으로 가정하고, 이를 기반으로 향후 적응형 횡단보도 보행 신호기 등의 도입을 목표로 한 시스템을 설계하였 다. 본 시스템에서 제안한 객체인식 모델은 횡단보도와 보행자를 인식하여, 프레임 간 변화를 통해 보행 속 도를 추정하고, 보행자의 위치와 속도를 기반으로 예상 도달 시간을 계산한다. 제안된 시스템은 교차로와 같 은 복잡한 도로 환경에서 보행자의 속도와 예상 도착 시간을 실시간으로 예측함으로써, 보행 장애인과 노약 자의 안전을 증진하는 데 기여할 수 있다.

    하지만 이 기술적 접근에는 몇 가지 한계점이 존재한다. 예를 들어, CCTV 기반의 객체 탐지 시스템은 날 씨나 조명 등의 환경적 요인에 따라 정확도가 달라질 수 있다. 또한, 개인정보 보호와 관련된 법적 문제들이 제기될 수 있으며, CCTV를 통한 실시간 데이터 분석은 일부 사용자에게 감시와 프라이버시 침해 우려를 불 러일으킬 수 있다. 기존 교통 신호 시스템과의 통합에는 기술적 어려움이 있으며, 이를 실시간으로 운영하기 위해서는 고도화된 기반 시설과 상당한 비용이 소요될 수 있다. 그럼에도 본 논문에서 제안한 시스템은 단순 히 교통사고를 줄이는 데 그치지 않고, 데이터 기반의 교통 관리 방식을 도입하여 사회적 약자 보호를 위한 기술적 해법을 제시한다. 또한, 보행자 안전 향상과 교차로 사고 예방을 위한 실시간 모니터링 기술로서 의 의를 가진다.

    Ⅱ. 관련 이론 및 연구 동향

    1. 이론

    1) 객체 인식과 YOLO

    객체 인식은 사람이 가장 많은 정보를 받아들이는 시각 정보를 컴퓨터가 대신 분석하고 해석할 수 있도록 하는 연구 분야이다. 이 기술은 영상 감시, 얼굴 인식, 로봇 제어, Internet of Things (IoT), 자율주행, 제조업, 보안 등 다양한 분야에서 활용되며, 현대 산업 전반에서 필수적인 핵심 기술로 자리 잡고 있다.

    객체 인식에 사용되는 모델은 Region Proposal Network (RPN) 사용 여부를 기준으로 크게 1-Stage 모델과 2-Stage 모델로 구분된다. 2-Stage 모델은 먼저 RPN을 통해 후보 영역을 생성한 뒤 객체를 탐지하고 분류하는 방식으로 높은 정확도를 제공하지만, 처리 속도가 느리다는 단점이 있다. 반면, 1-Stage 모델은 RPN 없이 객 체 위치와 클래스를 동시에 예측하여 실시간성이 요구되는 응용에 적합하다. 그중 YOLO는 대표적인 1-Stage 모델로, 실시간 객체 탐지를 목표로 설계되었다. 입력 이미지를 단일 신경망으로 처리하여 객체의 위치와 클 래스를 동시에 예측하며, 이미지 전체를 한 번에 처리하는 방식으로 전역 문맥 정보를 활용한다. YOLO는 이미지를 격자(grid)로 나누고, 각 격자 셀에서 객체의 존재 여부, 경계 상자 좌표, 클래스 확률을 예측한다. 초기 YOLO 모델은 단순하면서도 경량화된 구조를 통해 높은 속도를 제공했으나, 작은 객체 탐지의 성능이 제한적이며 복잡한 배경이나 객체 간의 중첩 상황에서 정확도가 떨어지는 문제가 있었다. 이를 개선하기 위 해 이후 YOLOv2, YOLOv3, YOLOv4 등 다양한 버전이 개발되었으며, <Fig. 1>(Ultralytics)을 보면 버전마다 네트워크 아키텍처와 학습 방식이 향상되었다. YOLOv8 (Ultralytics) 은 YOLO 초기 모델 및 이전 버전들과 비교해 여러 측면에서 발전된 최신 모델이다. 특히, 기존의 Anchor Box 방식을 사용하지 않고, Anchor-Free 구조를 채택하여 모델의 설계와 학습 과정을 단순화했다. Anchor-Free 구조는 작은 객체나 다양한 비율의 객 체를 더 정확하게 탐지할 수 있도록 설계되었으며, 중복 제거와 경계 상자 예측에서도 효율성을 높였다 (Zhang et al., 2020). 또한, YOLOv8은 최신 컴퓨터 비전 기술(예: PANet, CSPNet, Mosaic Augmentation)을 통 합하여 탐지 정확도와 처리 속도를 동시에 개선했다. YOLOv8은 다양한 크기의 객체와 복잡한 장면에서도 높은 성능을 발휘하며, 경량화된 구조로 임베디드 환경에서도 활용할 수 있다. 이에 따라 자율주행, 드론, 스 마트 팩토리, 영상 감시 시스템 등 실시간 객체 탐지가 요구되는 다양한 응용 분야에서 효과적으로 사용될 수 있다. 본 논문에서는 YOLOv8의 이러한 특성을 활용하여 객체 인식 및 탐지 과제를 해결하고자 한다. 이 를 위해 다양한 데이터 전처리와 학습 기법을 적용하여 모델의 일반화 성능을 강화했으며, 테스트 단계에서 Non-Maximum Suppression (NMS)을 통해 중복 탐지를 제거함으로써 최종 탐지 결과의 신뢰도를 높였다.

    <Fig. 1>

    YOLO Performance Score (Ultralytics)

    KITS-24-1-86_F1.gif

    2) 객체 추적

    객체 추적(Object Tracking)은 영상 내에서 움직이는 객체를 지속적으로 추적하고, 각 객체에 고유 식별자 를 부여하는 작업을 말한다. 이는 특히 다수의 객체가 동시에 존재하는 장면에서 중요한 문제로, 각 객체의 위치와 움직임을 정확히 추적하는 것이 핵심이다. 다중 보행자 추적(Multi-Pedestrian Tracking)은 이 문제를 보행자에 적용한 것으로, 보행자의 위치를 추적하고, 여러 보행자 간의 상호작용을 고려하여 정확한 추적을 유지하는 것을 목표로 한다.

    최근에는 객체 추적의 성능을 크게 향상시키기 위한 다양한 방법들이 제시되었으며, 그중 하나가 Bag of Tricks for Simple Online and Realtime Tracking (BoT-SORT)이다(Aharon et al., 2022). BoT-SORT는 모션 정보와 외관 정보를 결합하여 객체 추적을 더욱 강력하게 만든다. 이 방법은 카메라 움직임 보정과 더 정확한 칼만 필터 상태 벡터를 사용하여, 추적 중에 발생할 수 있는 오류를 최소화한다. <Fig. 2>에서 BoT-SORT는 Multi-Object Tracking (MOT) Challenge의 다양한 데이터세트에서 높은 성과를 기록했으며, 특히 MOT17과 MOT20 테스트세트 에서 뛰어난 성능을 보였다. 이 시스템은 Multi-Object Tracking Accuracy (MOTA), Identification F1 score (IDF1), High Order Tracking Accuracy (HOTA)와 같은 주요 추적 지표에서 높은 점수를 기록하여, 다중 보행자 추적의 중요한 이정표가 되었다.

    <Fig. 2>

    Performance comparison of state-of-the-art tracking algorithms on MOT17 and MOT20 test data (Aharon et al., 2022). The x-axis is IDF1, the y-axis is MOTA, and the length of the circle radius is HOTA.

    KITS-24-1-86_F2.gif

    BoT-SORT는 기존의 추적 기술들과 비교하여 객체의 추적 품질을 개선한 점에서 큰 장점이 있다. 특히, 보행자와 같은 동적 객체의 추적 시, 실시간 성능을 유지하면서도 추적의 정확도를 높일 수 있다는 점에서 교차로에서의 보행자 속도 계산 시스템에 매우 유용하게 적용될 수 있다. 이러한 기술들은 보행자의 이동 상 태를 실시간으로 추적하고, 교차로에서의 보행자 안전을 높이는 데 기여할 수 있다.

    2. 연구 동향

    딥러닝의 핵심 기술인 Convolutional Neural Network (CNN)을 활용해 보행자의 다양한 자세와 부분 가림 (Occlusion) 상황에서도 강인한 객체 검출 성능을 보이는 시스템이 연구되었다 (Lee et al., 2017). 이 연구에서 는 보행자의 실루엣 정보를 기반으로 특징 벡터(feature vector)를 추출하고 이를 재식별(re-identification) 과정 에서 사용하여 복잡한 환경에서도 높은 정확도를 달성하였다. 이 기술은 특히 범죄 예방과 보안 강화에 크게 기여할 가능성이 있다. 또한, 밀리미터 웨이브 레이더를 활용하여 악천후에서도 보행자를 탐지하는 연구가 진행되었으며, 이는 자율주행 자동차 개발 및 상용화를 위한 중요한 참고 자료로 유의미한 결과를 도출하였 다(Cho and Yoon, 2024). 다른 연구에서는 차량 운전자를 기반으로 보행자와 자동차를 인식하는 기술이 개발 되었으며, YOLOv8-seg 모델을 활용하여 도로 주행 중 사람과 자동차를 효과적으로 인식할 수 있음을 보여주 었다 (Han et al., 2024). 이처럼 보행자 감지에 대한 연구가 활발히 이뤄지고 있다.

    CCTV데이터를 사용한 연구를 살펴보면 IoT 기술과 인공지능을 접목하여 지능형 CCTV 시스템을 설계하고 시제품이 개발되었다 (Kim et al., 2023). 이 연구에서는 라즈베리파이(Raspberry Pi)를 사용해 경제적이면서도 효율적인 지능형 CCTV 시스템을 구현하였다. 해당 시스템은 OpenPose 기반의 행동감지(action detection) 기술을 활용해 CCTV 화면에서 사람 수를 탐지하고 특정 동작을 인식하여 긴급 상황을 감지한다. 주요 특징으로는 YOLO 및 CNN을 이용해 실시간으로 객체를 식별하고 분석하는 객체 탐지(Object Detection) 기능이 있다. 또한, 낙상이나 폭력 등 비정상적인 행동을 감지해 알림을 전송하는 기능을 포함하며 라즈베리파이와 연동해 비용 절감과 시스템 효율성을 극대화하였다.

    또 다른 연구에서는 YOLOv8 알고리즘을 이용해 주행가능한 도로 영역을 실시간으로 인식하고 추적하는 시스템이 개발되었다 (Seo, 2024). 해당 연구에서는 자율주행 및 Advanced Driver Assistance Systems (ADAS) 분야에서 중요한 역할을 한다. 시스템은 실제 도로 환경에서 차량이 주행 가능한 영역을 정확하게 식별하고 이를 시각화하여 운전자에게 실시간으로 제공함으로써 사고 예방 및 안전성을 높이는 데 중점을 두었다. 주 요 기술적 특징으로는 최신 YOLOv8 알고리즘을 도입해 빠르고 정확한 객체 탐지를 구현하였으며 실시간으 로 도로 영역을 인식하고 트래킹하여 운전 보조 시스템과 연동하였다.

    이와 같은 연구들은 딥러닝 기술이 보안, 교통 및 자율주행 분야에서 실시간으로 활용될 수 있음을 입증 한다. 특히 YOLO, CNN 등 최첨단 기술이 결합된 지능형 CCTV 시스템은 보행자 검출, 이상 행동 감지 및 도로 영역 인식과 같은 다양한 분야에서 교통사고 예방, 보안 강화 및 공공 안전성 확보에 기여할 수 있다. 이러한 기술은 지능형 교통 시스템(ITS)에서 교통 흐름 개선 및 사고 예방을 위한 핵심 도구로 자리 잡을 것 으로 예상된다.

    Ⅲ. 연구 방법

    1. 데이터 수집 및 전처리

    본 논문에서는 횡단보도 안전 모니터링을 위해 CCTV 영상 데이터를 활용하여 실시간으로 보행자의 속도 를 추정하고, 예상 도달 시간을 예측하는 시스템을 제안한다. 이를 위해 데이터 수집 및 전처리, 모델 학습, 성능 평가 과정을 거쳤다. 횡단보도 모델 훈련을 위해 AI-Hub에서 제공한 교통 데이터를 수집하였다. <Fig. 3>은 수집한 AI-Hub 교통 데이터의 예를 나타낸다.

    <Fig. 3>

    AI-Hub data example

    KITS-24-1-86_F3.gif

    이 데이터는 부천시 교차로 및 중간도로에서 다양한 시간대와 환경(예: 악천후)에서 촬영된 75,250개의 영상 으로 구성되며, 이를 통해 276,749장의 이미지를 정제하였다. CCTV 영상 데이터 수집 결과, 멀리서 촬영된 영상 의 특성상 보행자의 형체가 명확하지 않아 사람의 연령대 구분이나 세부적인 신체 특징 분석은 어려운 것으로 나타났다. 이러한 한계를 극복하기 위해 본 연구에서는 보행자의 속도를 연령대 추정의 간접적인 지표로 활용하 였다. 기존 연구에 따르면, 일반보행자의 평균보행속도는 1.29m/s, 노인보행자의 평균보행속도는 1.13m/s인 것을 확인했다(Han et al., 2020). 본 연구에서는 횡단보도와 보행자 탐지를 위해 CCTV로 촬영된 교차로 이미지를 선별적으로 활용하였다. 횡단보도의 양 끝이 명확히 보이는 이미지를 우선적으로 선별하고, <Fig. 3>의 이미지 를 Roboflow를 사용하여 <Fig. 4>와 같이 수작업 라벨링을 수행하였다(Roboflow, Inc., 2024). 이 과정에서 횡단보 도가 가려진 이미지는 제외하여 최종적으로 6,822장의 이미지를 정제하였다. 그중 보행자가 보이는 이미지를 선별하여 보행자 데이터 세트를 제작하였다. 데이터 세트의 경우 보행자 밀도를 다양하게 사용하여 횡단보도에 서 보행자의 밀도가 낮을 때와 높을 때 모두 인식이 잘되도록 구성하였다. 본 연구에서는 두 가지 데이터 세트를 사용하여 보행자 모델의 성능을 비교하였다. 첫 번째는 원본 데이터를 기반으로 학습한 데이터 세트이고, 두 번째는 횡단보도를 인식한 후 해당 영역만을 절단(crop)하여 학습한 데이터 세트이다. 이를 통해 보행자 탐지의 정확도와 효율성을 비교하였다. 실험 결과, 가장 우수한 탐지 성능을 보인 데이터 세트를 선정하여 최종 시스템 개발에 반영하였다.

    <Fig. 4>

    Crosswalk data labeling example

    KITS-24-1-86_F4.gif

    2. 시스템 설계

    제안 시스템에서는 YOLO 모델을 활용하여 횡단보도와 보행자를 실시간으로 탐지하고, 보행자의 이동 속 도를 분석하도록 설계되었다. 이 시스템은 앞 장에서 설명한 대로 CCTV 데이터를 기반으로 전처리를 수행 하고, 보행자의 이동 상태를 추적하며, 교차로에서 보행자의 안전을 강화하는 것을 목표로 한다. 제안된 시 스템은 다음 <Fig. 5>와 같은 파이프라인으로 수행되며 다음 세 가지 주요 모듈로 구성된다.

    <Fig. 5>

    Overall system procedure

    KITS-24-1-86_F5.gif

    1) 객체 탐지 모듈

    본 연구에서의 객체 탐지 모듈은 YOLOv8 모델을 사용하여 실시간 영상에서 횡단보도와 보행자를 탐지한 다. 횡단보도를 먼저 탐지한 뒤 해당 영역 내에서 보행자를 탐지함으로써 노이즈를 줄이고 탐지 정확도를 향 상시킨다. 탐지된 횡단보도는 바운딩 박스 형태로 시각화되며, 이는 이후 속도 계산 및 데이터 분석에 필요 한 기준으로 활용된다.

    2) 객체 추적 모듈

    이 모듈은 탐지된 횡단보도를 기준으로 축소된 영역에서 보행자의 이동 경로를 추적한다. 각 보행자의 중 심 좌표를 프레임 간 비교하여 유클리드 거리를 계산하며, 이를 통해 보행자의 이동 방향과 거리 정보를 수 집한다. 다중 객체 추적 알고리즘이 적용되어 다수의 보행자를 효율적으로 관리하고 분석할 수 있다.

    3) 속도 계산 및 결과 출력 모듈

    보행자의 이동 거리는 횡단보도의 폭과 비교하여 상대적 거리로 변환되며, 비디오의 프레임 속도를 고려 하여 실시간 속도로 계산된다. 계산된 속도는 화면에 텍스트로 출력되며, 이를 통해 교차로 내 보행자의 이 동 패턴을 시각적으로 이해할 수 있는 데이터를 제공한다. 이러한 분석은 교차로에서 보행자의 안전을 평가 하고 개선하는 데 중요한 역할을 한다.

    Ⅳ. 실험 및 결과

    1. 실험 환경

    실험은 Ubuntu 22.04 OS 환경에서 진행되었으며 하드웨어 환경은 NVIDIA H100 80GB GPU를 사용하여 학습을 진행하였다. 실험은 모델 학습을 위해 NVIDIA H100 80GB GPU가 장착된 Ubuntu 22.04 OS에서 수행 되었다. 사용된 딥러닝 프레임워크는 Ultralytics 8.3.32였고, 학습은 CUDA 12.2로 가속화되었다. 사용된 Python 버전은 Python 3.10이었고, 학습 중에 사용된 하이퍼파라미터는 <Table 1>에 기술하였다. 모델 성능은 IoU 임계값 0.5 및 0.95에서 평균 정밀도와 정확도, F1 점수를 기준으로 평가했다. 데이터 세트는 학습 및 검 증을 위해 80/20 비율로 분할되었다.

    <Table 1>

    Hyperparameter setting values used in crosswalk recognition and crosswalk recognition in the proposed system

    Parameter Value
    batch 16
    imgsz 640
    Learning rate 0.01
    momentum 0.937
    weight_decay 0.0005
    box 7.5
    cls 0.5
    dfl 1.5
    nbs 64

    2. 실험 결과

    1) 횡단보도 모델 학습 및 결과 분석

    본 연구에서는 부천시 교차로 및 도로 중간 구간에서 다양한 시간대와 환경 조건에서 촬영된 총 2,000장 의 이미지를 사용하여 횡단보도 인식 모델을 학습하였다. 이미지 해상도는 630×360으로 설정되었으며, 데이 터 세트는 학습 데이터 1,600장(80%)과 검증 데이터 400장(20%)으로 나누어 훈련 및 평가가 진행되었다. YOLOv8n 모델을 사용하였고, 데이터의 수가 적기 때문에 데이터 증강을 사용하였다. 횡단보도의 다양한 기 울기에서도 인식할 수 있도록 회전 기법을 적용하였다. 데이터 증강을 사용하여 늘린 데이터는 총 4,172장이 며 학습 데이터로 3,270장(78%), 검증 데이터로 902장(22%)으로 나누어 훈련 및 평가를 진행하였다. 모델 학 습을 위한 하이퍼파라미터는 <Table 1>과 같이 세팅되었다.

    <Table 2>의 F1-score와 mean Average Precision (mAP)를 기준으로 성능평가 진행하였다. 증강 데이터를 사 용하여 학습한 모델의 경우 F1-score가 높았으나 mAP는 낮았고, 원본 데이터를 사용하여 학습한 모델의 경 우 F1-score는 낮았지만, mAP가 상대적으로 높았다. 이는 데이터 증강을 통해 모델이 다양한 환경에서 재현 율을 높였으나 위치 정확도와 경계 박스 예측에서 정확도 저하가 발생했음을 시사한다. 반면, 원본 데이터만 을 사용한 모델은 위치 정확도와 탐지 순서에 더 집중했지만, 정밀도보다 재현율에서 성능이 떨어졌다. 본 연구의 주요 목적이 횡단보도의 정확한 위치를 파악하는 것임을 고려할 때, mAP가 높은 원본 데이터를 사 용한 모델이 실제 환경에서 횡단보도의 정확한 위치를 탐지하는 데 더 적합한 것으로 해석된다.

    <Table 2>

    Experimental results based on raw data and augmented data in crosswalk recognition

    epoch F1-score Precision Recall mAP50 mAP50-95
    Augmented Data 200 0.991 0.994 0.987 0.993 0.888
    Original data 300 0.981 0.987 0.976 0.992 0.897

    2) 보행자 모델 학습 및 결과 분석

    보행자 모델을 학습하기 위해 2가지의 데이터 형태를 사용하여 비교 분석을 진행하였다. 연구 초반 <Fig. 3>의 예시 데이터를 사용하여 학습을 진행하였으며, 총 885장의 이미지를 사용하였다. 데이터 증강기법 중 회전(rotation)을 사용하여 최종적으로 1,592장의 이미지를 생성하여 학습과 검증을 진행하였다. 그 중 1,422장 을 학습 데이터로 사용하였으며, 학습 후 <Table 3>의 결과를 통해 성능을 분석하였다. 분석한 결과 Recall 점수 58.3%로 모델이 객체를 놓치는 경우가 많다는 것을 의미하며, 특히 작은 객체나 특정 상황에서의 객체 인식에 어려움이 있을 수 있음을 시사한다. 또한 mAP50-95 점수는 28.3%로 낮게 나타났다. 이는 모델이 실 제 객체를 찾을 때, 위치나 객체 상자의 정확도가 부족하다는 것을 의미한다. 이를 통해 모델이 더 정교한 객체 검출이 필요하다는 것을 시사한다.

    <Table 3>

    Pedestrian Recognition Experiment Results

    epoch F1-score precision recall mAP50 mAP50-95
    200 0.649 0.730 0.583 0.659 0.283

    모델의 성능을 개선하기 위해 횡단보도 인식 모델을 사용하여 보행자 이미지에서 횡단보도 부분을 절단 하여 <Fig. 6>과 같은 데이터를 제작하였다. 이때 보행자 밀도를 고려하여 횡단보도에서 다양한 보행자의 밀 도를 갖도록 학습 데이터를 구성한 후 다시 학습을 진행하였다. 먼저 450장의 데이터를 사용하여 학습과 평 가를 진행하여 현재의 방법을 통한 성능 향상 여부를 확인하였다. 450장의 절단된 횡단보도 데이터를 사용 한 학습과 평가 결과, 모델 성능이 개선된 것을 <Fig. 7>을 통해 확인할 수 있었다. <Table 4>에 제시된 결과 에 따르면, Precision과 mAP 지표에서 모두 긍정적인 변화를 보였다. 이러한 결과는 횡단보도 부분을 절단한 데이터가 보행자 검출 모델의 성능을 크게 향상시켰음을 시사한다. 특히 Precision이 15% 이상 증가했고, Recall 또한 25% 증가하여 모델이 보행자를 놓치는 비율이 현저히 감소했다. 또한, mAP50-95가 28.3%에서 56.0%로 상승한 것은 모델의 경계 상자 예측 정확도가 개선되었음을 의미한다. 이후 데이터 증강기법 중 회 전을 통해 955장의 데이터를 생성하였고 773장(81%)의 이미지를 학습으로 사용하고 182장(19%)의 이미지를 검증에 사용하였다. 앞서 시험에 사용하였던 모델과 새롭게 개발한 모델 성능을 비교한 결과 Precision과 F1-Score가 증강 후 눈에 띄게 개선되었다. mAP50-95가 소폭 상승하여, 더 정교한 객체 검출이 가능해졌다. 새로운 데이터 세트의 사용과 데이터 증강을 통해 모델 예측 정확도가 향상되는데 기여하였고 특히 epoch 100에서 가장 우수한 성능을 보였다. 최종적으로 제작한 모델을 사용하여 보행자 속도 계산 시스템을 제작 하였다. 원 데이터, 절단 데이터, 증강 데이터의 영상 수, 에포크 및 성능지표는 <Table 5>에 정리하였다.

    <Fig. 6>

    1. Cropping after estimating the crosswalk through crosswalk recognition from the original data. 2. Labeling the cropped image

    KITS-24-1-86_F6.gif
    <Fig. 7>

    Verification Results

    KITS-24-1-86_F7.gif
    <Table 4>

    Experimental results based on raw data and augmented data in pedestrian recognition after applying crosswalk recognition

    epoch F1score precision recall mAP50 mAP50-95
    Original data 100 0.85817 0.891 0.834 0.896 0.56
    Original data 150 0.87292 0.921 0.83 0.893 0.559
    Augmented Data 100 0.8764 0.943 0.815 0.912 0.57
    Augmented Data 150 0.87076 0.924 0.824 0.916 0.568
    <Table 5>

    Number of images, epochs, and performance metrics of raw data, cut data, and augmented data

    Data Original data Cropped data Augmented Data
    Number of images 1,592 450 955
    Epoch 200 100 100
    Precision (P) 73% 89.1% 94.3%
    Recall (R) 58.3% 83.4% 81.5%
    mAP50 65.9% 89.6% 91.2%
    mAP50-95 28.3% 56% 58.1%
    F1-score 64.9% 83.4% 87.6%

    3. 보행자 속도 계산 시스템

    통합 보행자 속도 추정 시스템을 구현하기 위해, 앞서 생성된 사전 학습된 횡단보도 감지 모델과 보행자 감지 모델을 사용하였다. 시스템의 핵심 프로세스는 보행자 횡단 영역을 감지하고 해당 영역을 절단한 후, 보행자의 속도와 예상 도착 시간을 추정하여 실시간 안전 모니터링을 수행하는 것이다. 주요 단계와 알고리 즘은 다음과 같이 설명된다.

    1) 횡단보도 감지 및 영역 절단

    횡단보도 모델은 초기 프레임에서 횡단보도 경계 좌표를 탐지한다. 이 좌표는 좌측 상단 (x1, y1)과 우측 하단 (x2, y2)로 표현된다. 보행자가 횡단보도에 접근하는 영역이 포함되도록 수직 영역을 미리 정의된 마진 Δy 만큼 상단으로 확장한다. 업데이트된 영역은 다음과 같다:

    y 1 = max 0 , y 1 Δ y

    이후 보행자 탐지를 위한 절단된 프레임은 다음과 같이 정의된다:

    C r o p p e d F r a m e = F r a m e [ y 1 ' : y 2 , x 1 : x 2 ]

    2) 보행자 탐지 및 추적

    절단된 영역에서 보행자 탐지 모델은 보행자를 식별하고 각 보행자에게 고유 ID를 할당한다. 감지된 보행 자 i 에 대해 바운딩 박스 좌표 (x1i, y1i, x2i, y2i)를 구한다. 바운딩 박스의 중심점 (cxi, cyi)은 다음과 같이 계 산된다:

    c ξ = x 1 i + x 2 i 2 , c y 1 = u 1 i + y 2 i 2

    3) 보행자 속도 추정

    보행자의 속도를 추정하기 위해 시스템은 프레임 간 보행자의 움직임을 추적한다. 현재 프레임과 이전 프 레임 사이 보행자 i의 이동 거리 di 는 유클리드 거리로 계산된다:

    d i = ( c ξ c u r r c ξ p r e υ ) 2 + ( c y i c u r r c y i p r e υ ) 2

    속도 υi 는 초당 픽셀로 다음과 같이 계산된다:

    υ i = ( d i H ) × F P S , 여기서 H = y2 - y1′은 절단된 영역의 높이(픽셀)이며, FPS (Frame Per Second)는 비디오의 초당 프레임 수이다.

    정확도를 높이기 위해 시스템은 각 보행자에 대한 이동 평균 혹도 υ ¯ i 를 유지한다:

    υ ¯ i = Σ k = 1 n υ i , k n

    4) ETA(예상 도착 시간) 계산

    보행자의 ETA는 보행자가 횡단보도의 하단 경계 y2 에 도달하는 데 필요한 예상 시간이다. ETA는 다음과 같이 계산된다:

    H i = y 2 c y i c u r r v i ¯ N / A if v i ¯ > if v i ¯

    여기서 ϵ는 보행자 속도가 매우 낮을 때 발생하는 비현실적인 ETA를 방지하기 위한 작은 임계값이다.

    5) 시스템 통합 및 결과

    제안 시스템은 보행자 횡단보도 탐지, 보행자 탐지 및 추적, 속도 계산 및 ETA 예측 기능을 통합한 실시 간 보행자 안전 모니터링 시스템이다. 이러한 기능들은 독립적으로 수행되지만, 전체 시스템에서 유기적으로 작동한다. 횡단보도 영역을 탐지하고 관심 영역을 설정함으로써 보행자 탐지의 정확도를 높인 후, 보행자의 속도와 예상 도착 시간을 실시간으로 계산한다. 최종 결과는 <Fig. 8>처럼 비디오에 시각적으로 표시되며, 정량적 데이터는 추가 분석을 위해 Comma Separated Values (CSV) 파일로 저장된다. 이 시스템은 교차로 및 복잡한 도로 환경에서 보행자 안전을 평가하고 모니터링하는 종합 도구로, 신호등 제어 및 보행자 보호 시스 템 설계에 기여할 수 있다.

    <Fig. 8>

    Original footage and results from using the system

    KITS-24-1-86_F8.gif

    4. 보행자 속도 계산 시스템 평가

    실험 결과를 <Table 5>에 요약된 내용을 바탕으로 시스템을 정량적으로 평가하였다. <Table 6>의 결과는 주어진 영상에서 특정 보행자에 대한 시스템 적용 후 결과 예를 보여준다. 제안 시스템은 평균 보행 속도 보 행자를 감지하고, 속도를 추정하며, ETA을 예측하는 동작을 수행한다. 기록된 결과들을 통해 제안 시스템이 실시간으로 일관되게 동작함을 확인하였다. 또한 모든 결과는 CSV 파일로 저장되어 체계적인 분석과 시스 템 성능의 추가 검증이 가능하도록 설계되었다.

    <Table 6>

    Examples of average walking speed of pedestrians, average expected arrival time, detection accuracy, and speed calculation success rate

    Metric value
    Average walking speed (px/s) 6.27px/s
    Average expected arrival time (s) 45.38s
    Pedestrian Detection Accuracy 92.5%
    Success rate of pedestrian speed calculation 87.3%

    Ⅴ. 한계점 및 논의

    본 연구에서 제안한 보행자 속도 계산 및 ETA 예측 시스템은 교차로 및 복잡한 도로 환경에서 보행자 안 전을 실시간으로 모니터링하고 평가하는 효과적인 도구로 설계되었다. 보행자 감지, 보행자 추적, 보행 속도 추정 및 ETA 계산과 같은 다단계 알고리즘을 통합한 이 시스템은 실험을 통해 성능과 실용성이 정량적으로 검증되었다.

    보행자 감지 정확도는 92.5%로 나타나, YOLOv8 모델이 다양한 환경에서 보행자를 일관되게 감지할 수 있음을 보여준다. 또한, 속도 계산 성공률은 87.3%로 측정되어 대부분의 보행자 속도를 신뢰성 있게 추정할 수 있었다. 평균 보행 속도는 6.27 px/s, 평균 예상 도착 시간은 45.38 s로 나타나, 실험 환경에서의 보행자 이 동 패턴을 반영하고 있다. 이러한 수치는 보행 신호 타이밍 최적화와 같은 실제 교통안전 시스템 설계에 중 요한 참고 자료가 될 수 있다.

    이 시스템은 추정된 보행 속도와 예상 도달 시간을 활용하여 교차로의 신호체계를 보다 정교하게 개선할 수 있다. 예를 들어, 보행자의 실제 속도와 도달 시간을 기반으로 보행 신호 시간을 동적으로 조정하여 고령 자나 보행 장애인이 안전하게 횡단할 수 있도록 지원한다. 이는 기존의 고정된 신호 시간에서 발생할 수 있 는 사고 위험을 줄이고, 신호의 효율성을 높이는 데 기여할 수 있다. 또한, 신호시간 계산에 있어 실시간 데 이터를 활용함으로써, 차량과 보행자 간의 교통 흐름을 최적화하고 교통 체증을 완화하는 데 효과적으로 작 용할 수 있다.

    실시간 신호 운영 또한 이 시스템의 주요 활용 방안 중 하나이다. 횡단보도에서 보행자가 신호 변경 중에 횡단을 시작한 경우, 시스템이 이를 감지하여 신호 시간을 즉각 연장하거나 알림을 제공함으로써 보행자의 안전을 확보할 수 있다. 그외에 이 시스템은 보행자 횡단 알림 기능과 결합하여 운전자와 보행자 모두에게 유용한 정보를 제공할 수 있다. 운전자는 횡단보도를 지나기 전에 보행자의 예상 도달 시간을 실시간으로 확 인함으로써 급정지나 사고를 예방할 수 있으며, 보행자는 남은 신호 시간을 확인하여 안전하게 횡단을 완료 할 수 있다. 또한 제안 시스템은 교차로의 혼잡도를 분석하고 신호체계를 최적화하기 위한 정책적 도구로 활 용될 수 있다. 특정 지역에서 반복적으로 발생하는 보행자 안전 문제를 파악하고, 이를 기반으로 지역 맞춤 형 교통안전 개선책을 도입하는 데 유용한 정보를 제공한다. 결과적으로 이 시스템은 단순한 기술적 도구를 넘어 교통 환경을 개선하고, 보행자의 안전과 편의를 강화하는 데 중요한 역할을 수행할 수 있다.

    그러나 본 시스템에는 개선이 필요한 몇 가지 한계점이 있다. 보행자가 겹치거나 빠르게 움직이는 경우 감지 실패가 발생할 수 있으며, 보행자가 정지 상태일 때 ETA가 무한대로 계산되는 한계가 확인되었다. 이 러한 문제는 다중 객체 추적 기술과 보행자 행동 예측 모델을 추가로 적용하면 개선될 수 있다. 또한, 시스 템의 환경조건, 예를 들어 다양한 조명 조건과 날씨 변화 등에 대한 민감도 또한 실제 환경 적용시 고려되어 야 할 요소이다. 이를 위하여 데이터 증강을 통해 시스템의 강건성을 높일 필요가 있다. 그 외에도 개인정보 보호 문제, 기존 교통 신호 시스템과의 실시간 데이터 통합 등 여러 가지 과제가 남아 있다. 또한 일부 보행 자가 시스템의 신호 연장 기능을 악용해 교통흐름을 방해하거나 혼잡을 가중시킬 가능성도 고려해야 한다. 이를 방지하기 위해 신호 연장을 1회로 제한하거나, 최대 보행신호 시간을 고정하거나, 보행자 행동 데이터 를 기반으로 한 예외 상황 대응 규칙을 설계하는 등 구체적인 운영 방안을 마련해야 한다. 이러한 고려사항 에도 불구하고 제안 시스템은 횡단보도 보행 시 안전에 취약한 계층의 안전 향상 및 데이터 기반 교통 관리 라는 측면에서 유용하다. 제안 시스템의 한계를 극복하고 시스템을 더 넓은 범위에서 구현하기 위하여 향후 추가 연구 및 개발이 필요하다.

    종합적으로 본 연구는 보행자 속도와 ETA를 실시간으로 정확하게 예측할 수 있는 시스템을 구현하였으 며, 지능형 교통 시스템과 결합하면 교차로 및 도로 환경에서 보행자 안전을 크게 향상시킬 수 있는 잠재력 을 가지고 있다. 향후 연구에서는 이러한 한계를 보완하고 시스템 성능을 더욱 개선하는 데 중점을 두어야 한다.

    Ⅵ. 결 론

    본 연구는 노인과 보행 장애가 있는 사람들의 횡단보도 안전을 향상시키기 위해 CCTV 데이터를 활용한 보행자 속도 추정 및 ETA 예측 시스템을 제안하였다. 제안 시스템은 YOLO 모델을 사용하여 보행자를 감지 하고 속도를 추정하며, 보행자가 횡단보도의 끝에 도달하는 데 필요한 시간을 예측한다. 실험 결과, 높은 감 지 정확도(92.5%)와 속도 계산 성공률(87.3%)을 보였으며, 교통 안전 시스템 설계에 활용 가능한 실질적인 데이터를 제공할 수 있음을 입증하였다.

    이 시스템은 교차로 신호 체계를 동적으로 조정하여 취약 계층의 안전을 보장하고, 실시간 데이터 활용을 통해 신호 최적화, 교통 체증 완화, 긴급 상황 경고 제공 등 다양한 활용 가능성을 제시한다. 또한, 정책적 도 구로 활용되어 교차로 혼잡도를 분석하고 지역 맞춤형 교통 안전 개선책을 수립하는 데 기여할 수 있다.

    그러나 환경 조건에 대한 민감도, 개인정보 보호 문제, 기존 신호 시스템과의 데이터 통합, 보행자 악용 가능성 등 해결해야 할 과제가 남아 있다. 이를 위해 기술적 개선과 구체적인 운영 방안이 필요하다. 종합적 으로, 본 연구는 보행자 안전과 교통 관리 측면에서 중요한 가능성을 제시했으며, 향후 추가 연구를 통해 시 스템의 성능을 개선하고 광범위하게 적용할 수 있을 것으로 기대된다.

    ACKNOWLEDGEMENTS

    본 과제(결과물)은 2024년도 교육부의 재원으로 한국연구재단의 지원을 받아 수행된 지자체-대학 협력기 반 지역혁신 사업의 결과입니다. (2023RIS-009)

    Figure

    KITS-24-1-86_F1.gif

    YOLO Performance Score (Ultralytics)

    KITS-24-1-86_F2.gif

    Performance comparison of state-of-the-art tracking algorithms on MOT17 and MOT20 test data (Aharon et al., 2022). The x-axis is IDF1, the y-axis is MOTA, and the length of the circle radius is HOTA.

    KITS-24-1-86_F3.gif

    AI-Hub data example

    KITS-24-1-86_F4.gif

    Crosswalk data labeling example

    KITS-24-1-86_F5.gif

    Overall system procedure

    KITS-24-1-86_F6.gif

    1. Cropping after estimating the crosswalk through crosswalk recognition from the original data. 2. Labeling the cropped image

    KITS-24-1-86_F7.gif

    Verification Results

    KITS-24-1-86_F8.gif

    Original footage and results from using the system

    Table

    Hyperparameter setting values used in crosswalk recognition and crosswalk recognition in the proposed system

    Experimental results based on raw data and augmented data in crosswalk recognition

    Pedestrian Recognition Experiment Results

    Experimental results based on raw data and augmented data in pedestrian recognition after applying crosswalk recognition

    Number of images, epochs, and performance metrics of raw data, cut data, and augmented data

    Examples of average walking speed of pedestrians, average expected arrival time, detection accuracy, and speed calculation success rate

    Reference

    1. AAA Foundation for Traffic Safety ( 2011), Impact speed and a pedestrian’s risk of severe injury or death, pp.1-20.
    2. Aharon, N., Orfaig, R. and Bobrovsky, B. Z. ( 2022), “BoT-SORT: Robust associations multi-pedestrian tracking”, arXiv preprint, vol. 2206, no. 14651, pp.1-13.
    3. Cho, S. Y. and Yoon, Y. H. ( 2024), “A study on radar video fusion systems for pedestrian and vehicle detection”, Journal of the Institute of Internet Broadcasting and Communication, vol. 24, no. 1, pp.197-205.
    4. Han, E., Jo, H. R., Moon, S. C., Yoon, S. B. and Park, S. Y. ( 2020), “Improvement of pedestrian speed criteria for the pedestrian green interval at silver zone”, Journal of the Korean Society of ITS, vol. 19, no. 4, pp.45-54.
    5. Han, J. W., Jeong, W. J. and Choi, W. H. ( 2024), “Driver-based pedestrian detection system using deep learning”, Journal of Advanced Navigation Technology, vol. 28, no. 6, pp.959-965.
    6. Kim, D. E., Gong, H. J., Woo, J. H., Lee, J. M., Hwang, K. T. and Jeong, I. H. ( 2023), “Development of CCTV using CNN technology”, Journal of the Korea Internet & Broadcasting and Communication Society, vol. 23, no. 4, pp.99-105.
    7. Lee, S. H., Choo, S. K., Kwon, K. B. and Cho, N. I. ( 2017), “Pedestrian detection and re-identification for intelligent CCTV systems”, Journal of The Korean Institute of Communication Sciences, vol. 34, no. 7, pp.40-47.
    8. National indicator system,https://www.index.go.kr/unity/potal/eNara/sub/showStblGams3.do?stts_cd=285501&idx_cd =2855&freq=Y&period=N, 2024.12.16.
    9. National Police Agency ( 2024), Traffic accident statistics for 2024, pp.43-126.
    10. Park, K. W. ( 2017), “Gait disturbances in elderly life”, Journal of the Korean Neurological Association, vol. 35, no. 4, pp.10-15.
    11. Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. ( 2016), “You only look once: Unified, real-time object detection”, arXiv, vol. 1506, no. 02640, pp.1-10
    12. Roboflow, Inc.,https://roboflow.com, 2024.12.19.
    13. Seo, J. H. ( 2024), “Research on drivable road area recognition and real-time tracking techniques based on YOLOv8 algorithm”, Journal of The Korea Institute of Electronic Communication Sciences, vol. 19, no. 3, pp.563-570.
    14. The JoongAng,https://www.joongang.co.kr/article/23428139, 2024.11.05.
    15. Ultralytics,https://docs.ultralytics.com/models/yolov8/, 2024.09.05.
    16. Zhang, S., Chi, C., Yao, Y., Lei, Z. and Li, S. Z. ( 2020), “Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection”, arXiv, vol. 1912, no. 02424, pp.1-10.

    저자소개

    Footnote