Ⅰ. 서 론
Kroese et al.(2014)은 Monte Carlo 시뮬레이션(이하 Monte Carlo)은 반복된 난수를 이용해서 함수의 값을 수 리적으로 근사하는 기법으로 정의한다. Monte Carlo은 확률분포에서 확률 변숫값을 생성하여 모집단의 특성 을 규명한다. Monte Carlo는 컴퓨팅에 기반한 다양한 모의실험 계산에 적합한 것으로 알려져 있다.
본 연구는 승객이 이동한 경로가 추정되지 않는 수도권 지하철에서 Monte Carlo 적용방안을 검토한다. 수도권 빅데이터인 교통카드자료는 지하철 승객의 최초 진입역사 단말기ID (이하 TagIn 또는 ⓡ)과 최종 진출역사 단말 기ID(이하 TagOut 또는 ⓢ)의 정보를 기록하고 있다. ‘23년 현재 641역사에서 114환승역이 운영되는 수도권 지하철에서 교통카드는 환승역 단말기ID (이하 환승 Tag 또는 ⓣ)가 포함되지 않은 상황에서 승객이 이동한 경로를 추정하는 방법론이 구축되었다. Lee(2017)은 수도권 지하철에서 ⓡ과 ⓢ를 연결하는 경로의 추정을 위해 서 최적경로(Moore, 1957;Dijkstra, 1959;Lee, 2004)와 비용의 차이가 나지 않는 유사경로(M-Similar Path) 개념을 도입하였다. <Fig. 1>은 ⓡ(선릉)과 ⓢ(성수)의 3개의 유사경로 결과를 보여주고 있다. 3개의 유사경로 (Fig. 1-b-1~3)은 각각 확정적으로 구축된 환승 및 링크시간을 합산한 것이다. 한편 승객은 환승 및 링크비용을 인지적 (Perceived)으로 본다는 견해가 매우 현실적이다. 따라서 본 연구의 Monte Carlo는 환승 및 링크비용을 확률분포로 규정하고 Random Sampling을 통해서 경로 추정 반복을 통해서 경로의 선택확률을 추정한다.
교통망이론에서 통행배정은 로짓모형(Logit Model)과 프로빗모형(Probit Model)이 알려져 있다. 두 모형은 통행시간(비용)의 오차항(Error Term)을 가정함에 있어서 구분된다. 로짓모형은 오차항을 검벨분포(Gumbel Distribution)을 가정하여 적용한다. 검벨분포는 링크간의 통행시간의 독립성을 적용하여 모형의 적용이 용이 한 장점이 존재한다. 반면 비관련대안의 독립성(Independence from Irrelevant Alternatives: IIA)과 같이 모든 대 안을 동등하게 취급하는 단점이 나타나고 있다. 프로빗모형은 통행시간의 오차항에 대한 분포를 정규분포 (Normal Distribution)로 가정한다. 여기서 정규분포는 통행비용에 대한 링크 간 상호의존성을 기반으로 구축 된다. 이는 현실적인 가정으로 알려져 있으나 링크 간 나타나는 공분산(Covariance)을 추정하기 어려운 단점 이 존재한다. 따라서 현실적으로 모형을 구축하고 활용하는 측면에서 매우 한정적이다. 따라서 통행배정의 방법은 주로 로짓모형을 적용하는 STOCH 알고리즘(Dial, 1971)의 반복기법을 사용한다. 프로빗모형의 통행 비용의 의존성 가정으로 인해 제안된 알고리즘이 없으며 특히 대규모 네트워크의 통행흐름을 설명하기에는 한계가 있어왔다. 한편 Sheffi(1985)는 도로교통망에서 프로빗 선택이론(Probit Choice Model) 기반의 확률적 균형통행을 배정하는 방안으로 정규분포(Normal Distribution)를 가정한 Monte Carlo를 소개하였다. 이때 Monte Carlo는 경로의 통행시간이 아닌 링크의 통행시간을 대상으로 난수를 발생시키는 방안으로 제시되었 다. 최근 교통카드자료가 실시간 생성되는 빅데이터는 수도권 승객의 통행이 일일 약 2000만건 생성되고 있 어서 통행의 결과를 통해서 정규분포를 역으로 추정하는 방안이 가능하게 되었다. 따라서 교통카드자료에서 생성되는 통행을 특성을 Monte Carlo 기법을 적용하여 사용된 경로를 추정하는 방안으로 적용이 가능하다.
본 연구는 수도권 지하철의 링크 및 환승 비용에 대해서 교통카드의 자료를 통해서 Monte Carlo를 적용하 는 방안을 검토한다. 이를 위해서 교통카드자료를 대상으로 ⓡ과 ⓢ에서 나타나는 통행수, 통행시간 평균 및 표준편차를 규명하여 이를 Monte Carlo로 적용하는 방안을 제안한다. <Fig. 2>는 선릉 및 성수의 사례로서 376개 자료의 평균 23.9(분)과 표준편차 5.9(분)의 추이를 보여주고 있다. 따라서 교통카드자료에서 나타나는 N ∼ (23.9, 5.92)으로 이를 각 링크 및 환승시간에 역으로 적용하는 문제로 나타난다. 본 연구는 2022.06.17. 특정일의 교통카드자료를 대상으로 ⓡ과 ⓢ 266,547 OD에 대한 정규분포를 추정하는 방안을 검토한다. 이때 중심극한정리(Central Limit Theorem)의 약 30개 자료가 생성되지 않는 OD에 대해서는 통행거리가 유사한 OD 쌍의 분포를 기반으로 추론하는 방식을 적용한다. 또한 OD 쌍의 거리가 멀어서 자료가 구축되지 않는 상황에 대해서는 일정 거리에 대해서는 50개 이상의 통행시간 자료가 존재하는 최대이동거리에서 나타나는 OD 쌍의 평균과 분산을 적용하는 방안을 검토한다.
Ⅱ. Monte Carlo 기법을 이용한 교통망 통행배정모형
1. 이산 선택 모형
교통망의 통행배정(Trip Assignment)은 이산선택모형(Discrete Choice Models)에 이론적 기반을 두고 있다. 이산선택모형은 복수 대안에서 개인이 특정 대안을 선택하는 확률 이론이다. 이때 각각의 대안은 효용 (Utility)으로 묘사된다. 결과적으로 이산선택모형은 대안 자체보다는 대안이 갖는 효용을 확률로 연산한다.
대안 집합 K 의 효용벡터 라고 하고 대안별로 효용의 관측된 속성(Observed Attributes)을 Ψ 라고 하면 대안 k의 효용함수 Uk = Uk (Ψ )가 되며 확정적 요소 Vk (Ψ )와 확률적 요소인 에 러 ζk (Ψ)로 구성되어 식(1)과 같다. 여기서 확률 요소의 기댓값은 이므로 이 되며 이때 Uk (Ψ )는 인지적 효용 (Perceived Utility), Vk (Ψ )는 측정된 효용(Measured Utility)으로 정의한다.
대안 k의 효용으로 선택 확률은 다른 대안 l 보다 효용이 높을 확률과 같은 상황으로 식(2)와 같다.
다항 로짓(Multinominal Logit)에 기반하여 확률을 계산하는 모형은 개별효용함수는 독립이며 검벨분포 (Gumbel Distribution)에 근거한다는 가정으로 선택확률은 식(3)과 같다.
다항 프로빗(Multinominal Probit)에 기반하여 확률을 계산하는 모형은 개별효용함수는 다변량 정규분포 (Multivariate Normal:MVN)를 가정하며 식(4)와 같다. Ξ는 대안 간 공분산 행렬(Covariance Matrix)을 의미한다.
대안 k를 선택할 확률은 Clark(1961)이 제안한 근사(Approximation)에 의해서 다음의 식(5)와 같다. 식(5)는 대안 k를 제외한 다른 모든 대안 l의 효용의 최대치를 구하는 것에 접근한다는 의미이다.
2. Probit 기반의 경로통행시간
도로교통망 확률 배정에서 Probit 모형은 인지경로통행시간(Perceived Path Trip Time)은 실제 추정된 통행 시간을 평균으로 정규분포한다고 가정한다. 이때 경로통행시간분포는 링크통행시간분포로 설명될 수 있다. Ta를 링크 a에서 인지된 통행시간으로 정의하면 링크 a의 분산은 측정된 통행시간 ta의 β비율로 식(6)과 같다. 따라서 E [Ta ] = ta와 υar[Ta] = βta이 성립한다.
경로(대안) k의 인지경로통행시간 는 식(7)에 의해서 추정될 수 있다.
여기서 의 평균 는 식(8)과 같다.
또한 의 분산은 υar()는 식(9)과 같다.
만약 두 경로 k와 l에서 각각의 인지경로통행시간은 서로 상관성(Correlated)이 있다. 따라서 두 경로의 공 분산은 식(10)와 같다.
3. Monte Carlo 기법을 적용한 Probit 기반의 통행배정
Monte Carlo는 개별링크의 평균과 분산의 정규분포를 가정해서 랜덤 샘플링을 구축하고 전량통행배정을 반복 하는 기법이다. 이 기법은 따라서 경로의 열거가 요구되지 않는 장점이 존재한다. 한편 분산 βta가 진행되는 과정에서 0보다 작은 통행시간이 샘플링될 가능성이 있으나 절단정규분포(Truncated Normal Distribution)을 적용 해서 문제가 되지 않는다.
를 l번째 샘플에 의한 링크a 통행량이면 이 시점에서 링크a의 추정통행량 은 식(11)와 같다.
이때 를 의 표준편차(Standard Deviation)로서 정의하면 식(12)과 같다.
는 MC 기법의 통행배정의 종료 여부를 식(13)과 같이 적용한다.
또한 평균통행량의 크기 대비 분산의 크기로 확대하여 다음의 식(14)와 같이 적용할 수 있다.
Monte Carlo 기법에 의한 알고리즘의 수행과정은 다음과 같다.
-
Step 0 : 초기화 : l = 1 .
-
Step 1 : 샘플링 : 모든 링크a에 대하여 에서 무작위 추출
-
Step 2 : 전량통행배정 : 에 대하여 r - s 간 수요 qrs 대하여 배정하여 도출
-
Step 3 : 통행량 평균화 수행:
-
Step 4 : 종료여부 결정: 이면 이 통행량으로 종료.
-
아니면 l = l + 1 , Step 1 수행.
Ⅲ. Monte Carlo 기법을 이용한 수도권 지하철 통행배정
1. 수도권 지하철 통행시간 분포
수도권 지하철에서 경로를 선택하는 행태는 일반적으로 최소시간의 경로를 선택하기 위해서 차내시간, 환 승시간, 노선의 배차간격을 고려한다. Shin(2022)은 승객이 r과 s 를 연결하는 최소시간경로를 선택하는 가정 으로 식(15)의 선형목적식(Linear Programming)과 같이 표현하였다. 경로를 선택하는 요소는 노선링크 a에서 b로 이동하는 회전 υab 통행량(명)은 환승보행시간 Wab (분), 배차간격 Hb (분), 차내시간 tb (분)를 최소화하 는 경로를 선택한다고 가정한다. 여기서 qrs 는 수요(명); 는 경로 k의 통행량(명); xa는 링크 a의 통행량 (명); 는 경로k의 a의 통과여부(0,1); 는 경로k의 ab 통과여부(0,1)를 나타낸다.
따라서 통행시간의 랜덤 추출은 <Fig. 3>과 같이 환승도보, 배차간격, 차내시간의 3가지 요소를 전부 반영 하는 식(16)로 표현된다. 또한 와 이 성립한다.
경로(대안) k의 인지경로통행시간 는 식(17)에 의해서 추정될 수 있다.
여기서 의 평균 는 식(18)과 같다.
또한 의 분산은 υar()는 식(19)과 같다.
만약 두 경로 k와 l에서 각각의 인지경로통행시간은 서로 상관성(Correlated)이 있다. 따라서 두 경로의 공 분산은 식(20)와 같다.
2. Monte Carlo 기반 수도권 지하철 통행배정 알고리즘
Monte Carlo는 개별링크의 평균과 분산의 정규분포를 가정해서 랜덤 샘플링을 구축하고 링크표지기반 전 량통행배정을 반복하는 기법이다(Lee, 2004). 분산 은 0보다 작은 샘플링은 정규분포의 절단형으로 0으로 처리한다. 를 l번째 샘플에 의한 회전ab 통행량이면 이 시점에서 회전ab의 추정통행 량 은 식(21)와 같다.
이때 를 의 표준편차(Standard Deviation)로서 정의하면 식(22)과 같다.
는 Monte Carlo의 통행배정의 종료 여부를 식(23)과 같이 적용한다.
또한 평균통행량의 크기 대비 분산의 크기로 확대하여 다음의 식(24)와 같이 적용할 수 있다.
Monte Carlo 기법에 의한 알고리즘의 수행과정은 다음과 같다.
-
Step 0 : 초기화 : l = 1 .
-
Step 1 : 샘플링 : 모든 ab에 대하여 에서 무작위 추출
-
Step 2 : 전량통행배정 : 에 대하여 r - s 간 수요 qrs 대하여 배정하여 도출
-
Step 3 : 회전통행량 평할화 수행:
-
Step 4 : 종료여부 결정: 이면 이 통행량으로 종료.
-
아니면 l = l + 1 , Step 1 수행.
Ⅳ. 사례연구
1. 네트워크 및 교통카드자료
본 연구는 교통카드기반의 수도권 지하철에 대하여 몬테카를로 통행배정을 시행한다. 교통카드로 구성된 지하철은 교통카드단말기로 승객의 통행을 기록한다. 따라서 역에 설치된 단말기ID(Terminal ID)롤 통해서 승객의 역(노드) 정보를 나타내는 것이 요구된다. 또한 2022년 현재 13개 운송기관이 운영하고 있는 노선의 링크에 해당되는 차내시간과 환승에서 환승을 위한 보행시간과 열차 대기시간이 포함된다. <Table 1-3>은 단 말기ID, 노선링크, 환승보행시간(Wab ), 노선평균배차시간(Hb )을 나타내고 있다. <Table 1>의 단말기ID는 총 731개, 역명으로 분류된 역사는 총 615개로 구성된다. <Table 2>의 수단-링크는 9호선 급행 및 완행을 포함하 여 1431개가 구축되었다. <Table 3>은 환승역의 방향별 2514회전이 있으며 이중 동일노선 통과는 1403, 보행 이 필요한 환승은 1111로 구성된다. <Table 4>의 노선별 평균배차간격은 1호선부터 김포골드라인까지 총 34 개 노선이 반영되었다. Lee(2022)는 동일한 네트워크를 구축하여 연구에 활용한 사례가 있다.
본 연구에 적용한 교통카드자료는 2022년 6월 17일 금요일의 일일 통행을 대상으로 수행한다. <Table 5> 은 교통카드자료에서 생성되는 트립체인(Trip Chain: TC)에서 버스(B)와 지하철(S)로 나타내고 있다. {B}를 B 만 포함된 TC 집합, {-B-}를 B가 포함된 TC 집합, {S}를 S만 포함된 TC 집합, {-S-}가 포함된 TC 집합으로 정의하면, {-B-}∪{S}와 {B}∪{-S-}는 각각 모든 TC 집합을 나타낸다. 총 발생된 TC는 14792176 (건)으로 나타났으며 이중 {-S-}가 사례연구의 전체 대상에 포함되며 8462826(건)으로 57.2(%)에 해당한다. 한편 {S}는 6159706(건)으로 41.6(%) 를 차지한다. {-S-}중 {S}는 약 72.8(%)에 해당하며 이는 지하철을 이용하는 TC에서 버스와 환승이 발생하는 TC는 약 27.2(%)에 해당함을 의미한다.
2. 단일 OD 간 통행배정
<FIg. 1>의 ⓡ선릉→ⓢ성수의 단일 OD에 대하여 <Table 1>에서 추출된 376통행(건)에 대하여 Monte Calro 통행배정을 시행한다. 여기서 식(25)와 같이 분산에 포함된 β1은 환승, β2는 차내통행에 대한 계수를 도입 해서 환승과 주행에 대하여 인지확률개념을 정규분포에 다양하게 적용하는 방안을 검토한다. 위의 <Fig. 1> 에서 선릉→성수의 TagIn~TagOut 정규분포는 N ∼ (23.9, 5.92)으로 나타났다. 따라서 식(25)와 같이 환승시간 과 차내시간의 평균통행시간의 비율로 나타낼 수 있다. 여기서 도입된 α1 과 α2 는 각각 환승과 차내시간의 중요도를 의미한다. <Fig. 4>는 ⓡ→ⓢ 수요 367 (통행)에 대하여 α1 = 1.0 과 α2 = 1.0으로 통행배정한 내 용이다. 이때 <Fig. 4-(b)>에서 P는 경로의 확률, Vol은 경로에 배정된 통행량을 나타낸다.
위의 <Fig. 4>는 선릉→성수의 식(24)의 α1 = 3.5 과 α2 = 1.0으로 차내시간에 대한 확률적 변동을 크게 해서 4번째 새로운 경로를 도출한 것이다. 전체적으로 경로의 확률과 통행량의 변화가 나타나고 있으며 4번 째 경로는 매우 적은 확률로 새롭게 도출되었다. 차내시간의 변동에 대한 승객의 인지성을 표현하는 시나리 오로서 것으로 α1 과 α2 의 민감도에 따라서 다양한 경로의 변화를 추정 가능함을 보여준다.
위의 <Fig. 5>는 선릉→성수의 식(25)의 α1 = 4.0과 α2 = 1.0으로 차내시간에 대한 확률적 변동을 크게해 서 7번째 새로운 경로를 도출한 것이다. 전체적으로 경로의 확률과 통행량의 변화가 나타나고 있으며 4~7번 째 경로 <Fig. 5>는 매우 적은 확률로 사용되는 것을 알 수 있다. 여기서 부분적인 결론으로 언급할 수 있는 사항은 1~3까지의 경로가 어느 정도의 확률로서 승객의 경로선택 대안으로 고려될 수 있다는 것이다. 따라 서 최초 제안한 α1 = 1.0과 α2 = 1.0이 적정한 승객의 경로선택 상수 파라메타로서 적용하는 방안이 검토될 수 있다고 판단된다.
3. 수도권 지하철 전체 통행배정
수도권 지하철 641개 역사에서 역 간 1 통행이라도 존재하는 OD 쌍은 총 266547 개로 산정되었다. 또한 S가 포함된 통행은 동일역사는 313개 역 간 OD는 총 7981629 통행으로 나타났다. 여기서는 266527 개의 OD 쌍에 대하여 Monte Carlo 통행배정을 시행한다. 이를 위해 식(24)에 적용되는 정규분포를 구축하는 과정이 요구된다. 여기서는 역 간 OD에서 최단거리로 통행수를 재배열해서 50개 이상이 나타나면 평균통행시간과 표준편차을 통행수를 식(26)를 사용해서 도출한다.
한편 최단거리를 기준으로 OD 통행수가 50개 미만의 경우는 역 간에서 정렬된 샘플수가 50개 이상이 최 종적으로 나타나는 122(Km)의 ⓡ→ⓢ간 평균통행시간과 표준편차를 직접 적용한다. <Fig. 7>은 최단통행거 리를 기준으로 산정된 ⓡ→ⓢ간 통행시간의 표준편차를 나타낸 것이다. 최단거리가 1(Km)에서 시작하여 60(Km)까지는 표준편차가 약 25(분) 정도까지 증가한다. 이후 122(Km)까지는 표준편차가 약간 줄어들기는 하지만 평행한 패턴을 유지하고 있다. 122(Km) 이상의 거리는 OD간 통행수가 적은 관계로 표준편차의 변화 폭이 커지는 상황이 나타난다. ⓡ→ⓢ 122(Km)의 평균통행시간은 184.4(분)이며 이때 표준편차는 18.5(분)으 로 나타난다. 식(27)과 같이 샘플수가 낮은 통행에 대해서는 정규분포를 이전하는 방법을 적용하다.
<Table 6>과 <Fig. 8>은 상위 20개 링크의 통행량을 정렬하여 보여주는 것으로 통행배정의 결과를 나타내 고 있다. 통행량이 최대로 나타나는 링크는 9호선 급행구간의 노량진-동작으로 약 35만 통행이 배정되었다. 이후 4호선의 동대문역사공원-동대문-혜화-한성대입구-성신여대입구의 축에서 통행량이 약 28~30만 정도로 나타난다. 한편 과거에 통행량이 많았던 경부선과 2호선이 약 22~27만 정도로 배정량으로 보여주고 있다.
사례연구는 Probit 기반의 경로선택을 통한 통행배정을 구축하는 방안으로 교통카드 빅데이터의 통행을 추론하여 Monte Carlo 기법을 적용하는 것이 가능함을 보여주고 있다. 본 연구에서 제시한 Monte Carlo는 반 복되는 통행시간의 랜덤추출과 최적경로선택을 통해서 사용된 경로와 경로의 이용확률을 추정하여 통행량 도 산정하는 방안으로 적용되었다. 한편 샘플수가 부족한 OD는 정규분포의 가정을 적용하기 위하여 적절한 이전 방안에 대한 검토가 필요한 것으로 나타났다.
Ⅴ. 결 론
본 연구는 Monte Carlo 기법을 차내통행시간과 환승보행 및 배차간격이 통행비용으로 나타나는 수도권 지 하철 네트워크의 통행배정에 적용하는 과정을 검토하였다. 교통카드가 생성하는 전수자료로 볼 때 역 간 통 행은 정규분포를 가정할 정도로 표본 수가 어느 정도 충족하는 상황이 나타나고 있다. 이때 역 간에서 나타 나는 평균과 표준편차를 산정하고 이를 개별 링크(차내시간) 및 환승(환승보행 및 배차간격)에 역으로 적용 하였다. 한편 샘플수가 50이하로 낮게 나타나는 장거리 역 간 통행에 대해서는 최단거리별 표본으로 재설정 하고 122(Km)에서 균등성이 나타나는 상황으로 판단하고 평균 및 표준편차를 직접 적용하였다.
수도권 지하철 네트워크에 적용하여 연구 결과의 검증을 시도했다. 우선 선릉-성수의 단일 역 간 통행을 대상으로 표본에서 나타나는 정규분포를 링크 및 환승에 직접 적용하는 방안을 검토하였다. 이때 차내통행 파라메타와 환승 파라메타를 분리하여 적용하는 방안을 구축하였다. 차내통행의 파라메타에 대한 가중치를 높이는 상황에서 경로의 다양성이 확보되는 결과가 도출되었다. 다음으로 수도권 지하철 전체의 통행을 배 정하는 방안을 시도하였다. 이때 표본수가 50 이상으로 확보되는 역 간 통행은 직접 평균과 표준편차를 Monte Carlo 수행에 적용하였다. 표본수간 50 이하로 나타나는 장거리 통행은 역 간 최소거리가 122(Km)가 되는 50 이상의 표본에 대하여 동일한 평균 및 표준편차를 적용하여 Monte Carlo를 수행하였다. 결과를 통하 여 상위 20개 링크 통행량을 도식화하여 시연하였다.
본 연구는 Probit 모형 기반의 사용자의 경로선택행위를 추론하는 과정에서 정규분포에 대한 인위적인 가 정을 도입하는 한계가 있다. 하지만 최근 수도권 지하철의 경로미확정에 대한 문제가 발생하는 상황에서 유 사경로 및 Logit 모형의 적용에 대한 대안으로 검토할 수 있을 것으로 기대된다. 한편 본 연구의 개선사항으 로서 역간 정규분포를 위한 샘플수가 부족한 상황은 이를 대처할 표준적인 방안이 부족한 것에 대한 보완이 필요하다. 연구는 가장 최소의 샘플수가 나타나는 정규분포를 이전해서 적용했으나 역간의 거리와 통행시간 의 차이가 나는 상황에서 오류로 작용될 가능성이 존재한다. 이에 대한 추가적인 검토가 요구된다.