Journal Search Engine

Volume/Issue :

Year(s) : to

Search :

Title :

Author :

Keyword :

Abstract :

Figure :

Table :

Reference :

Search Advanced Search

Adode Reader(link)

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer

The Journal of The Korea Institute of Intelligent Transport Systems Vol.21 No.5 pp.171-182
DOI : https://doi.org/10.12815/kits.2022.21.5.171

CycleGAN Based Translation Method between Asphalt and Concrete Crack Images for Data Augmentation

Seungbo Shim^*

^*Korea Institute of Civil Engineering and Building Technology

^† Corresponding author : Seungbo Shim, seungboshim@kict.re.kr

Received 17 September 2022 │ Revised 4 October 2022 │ Accepted 20 October 2022

Abstract

The safe use of a structure requires it to be maintained in an undamaged state. Thus, a typical factor that determines the safety of a structure is a crack in it. In addition, cracks are caused by various reasons, damage the structure in various ways, and exist in different shapes. Making matters worse, if these cracks are unattended, the risk of structural failure increases and proceeds to a catastrophe. Hence, recently, methods of checking structural damage using deep learning and computer vision technology have been introduced. These methods usually have the premise that there should be a large amount of training image data. However, the amount of training image data is always insufficient. Particularly, this insufficiency negatively affects the performance of deep learning crack detection algorithms. Hence, in this study, a method of augmenting crack image data based on the image translation technique was developed. In particular, this method obtained the crack image data for training a deep learning neural network model by transforming a specific case of a asphalt crack image into a concrete crack image or vice versa . Eventually, this method expected that a robust crack detection algorithm could be developed by increasing the diversity of its training data.

Key Words : CycleGAN , Image translation , Data augmentation , Asphalt crack , Concrete crack

데이터 증강을 위한 순환 생성적 적대 신경망 기반의 아스팔트와 콘크리트 균열 영상 간의 변환 기법

심 승 보^*

^*주저자 및 교신저자 : 한국건설기술연구원 지반연구본부 수석연구원

초록

구조물을 안전하게 관리하기 위해서는 우선적으로 건전한 유지가 전제되어야 한다. 이 같은 구조물의 건전성을 결정하는 요인 중에서 가장 대표적인 예로는 균열을 들 수 있다. 여러 가지 원인에 의해 발생하는 균열은 다양한 종류와 형태로 구조물에 손상을 입힌다. 무엇보다 이러 한 균열이 방치될 경우 위험도가 증가하여 안전사고로 이어질 수 있다. 이러한 문제점을 경감 하기 위하여 최근 들어 딥러닝과 컴퓨터 비전 기술을 활용하여 손상을 점검하는 방법들이 소 개되고 있다. 이 같은 방법들은 대체로 충분한 양의 학습 데이터가 필요한 것이 사실이다. 하지 만, 학습을 위한 영상 데이터의 충분한 확보가 어렵다는 점은 딥러닝 균열 탐지 알고리즘의 성능에 부정적인 영향을 미친다. 따라서 본 논문에서는 이에 대한 문제의식을 바탕으로 영상 변환 기법을 활용하여 균열 영상 데이터를 증강하는 방법을 제시했다. 이는 아스팔트 균열 영 상을 콘크리트 균열 영상으로 변환하거나 혹은 이와 반대로 콘크리트 균열 영상을 아스팔트 균열 영상으로 변환하여 딥러닝 신경망 모델을 학습하기 위한 영상 데이터를 확보하는 방법이 다. 이를 통해 학습 데이터의 다양성을 향상시켜 강건한 균열 탐지 알고리즘 개발에 기여할 수 있기를 기대한다.

키워드 : 순환 생성적 적대 신경망 , 영상 변환 , 데이터 증강 , 아스팔트 균열 , 콘크리트 균열

This article has been cited by 0 article in crossref

Cited-By

Funding:

Ⅰ. 서 론

1. 딥러닝 학습을 위한 손상 영상의 필요성

구조물의 건전성을 감시하는 목적은 구조물의 변화를 규명하고 유지관리 방안을 마련하며 손상에 따라 적절하게 대응하는 것이다 (Long et al., 2022). 건전성을 결정하는 여러 요인들 중 하나는 균열이다. 균열은 일반적으로 구조물의 결함으로 정의된다. 균열은 구조물이 갖는 물리적인 성질의 변화에 의해 야기되고 때 로는 구조물을 약하게 만드는 원인이 된다. 이러한 결함이 방치되면 때때로 구조물에 심각한 손상을 입힐 수 도 있다. 따라서 구조물의 안전성 측면에서 균열은 구조물의 상태를 결정하는 주요 인자로 볼 수 있다.

균열이 발생하는 원인은 재료의 수축과 팽창, 초기 건조수축, 초과 하중, 지반침하 등 다양하다. 아울러 균 열이 발생한 형태와 크기에 따라서 다양하게 구분된다. 도로 포장에서는 가로 균열, 세로 균열, 피로 균열 등 과 같은 종류로 구분된다 (Shim et al., 2021). 균열 크기의 경우 주로 폭에 집중하여 관찰하는데 미소 균열에 서부터 시작하여 그 폭은 다양하게 존재한다. 일반적으로 균열의 폭은 넓을수록 그 위험성이 높아지는데, 주 로 큰 폭을 가진 균열은 향후 구조물에 큰 손상을 야기할 수 있는 인자로 간주되어 시급하고 적절한 보수가 요구된다 (Thanoon et al., 2005).

이러한 위험성을 경감하기 위하여 구조물 손상 점검을 위한 컴퓨터 비전 기술 관련 연구가 활발하게 이뤄 지고 있다 (Spencer et al., 2019). 이는 구조물의 손상을 비접촉 방식을 통해 점검할 수 있고 높은 해상도를 이용하여 미소 균열까지 탐지할 수 있기 때문이다. 이러한 컴퓨터 비전의 목적은 구조물을 촬영한 영상을 이 용하여 균열의 위치를 자동으로 인식하고 균열의 종류를 구분하며 균열의 특성을 추정하는 것이다 (Ali et al., 2022). 이러한 컴퓨터 비전은 딥러닝의 등장으로 인해 구조물의 손상 점검 분야에서 높은 성능 향상을 이 루었다 (Krizhevsky et al., 2012). 하지만 우수한 딥러닝 알고리즘은 다수의 데이터를 필요로 한다. 자율 주행 분야에서 사용하는 데이터의 경우 정상 장면을 촬영한 영상을 이용하는 데 반해 구조물의 점검 분야에서 사 용하는 데이터는 비정상 장면을 촬영한 영상을 이용해야 한다. 이 같은 이유로 학습 데이터를 확보함에 있어 더욱 많은 시간과 비용이 소요되는데, 이는 곧 학습 데이터의 수량 부족과 탐지 성능의 저하로 이어진다. 따 라서 이를 해결하기 위하여 학습 데이터의 증강이 요구된다. 본 논문에서는 이러한 한계를 극복하기 위하여 영상 변환 기법을 이용하여 구조물의 손상 영상을 확보하는 방법을 제안하고자 하며, 이것은 아스팔트 균열 영상과 콘크리트 균열 영상 간의 변환을 통해서 가상의 영상 데이터를 생성하는 방법이라 할 수 있다. 이를 통해서 아스팔트 균열 영상이 콘크리트 균열 탐지에 활용될 수 있으며, 반대로 콘크리트 균열 영상이 아스팔 트 균열 탐지에도 활용될 수 있다.

2. 학습 데이터의 증강을 위한 딥러닝 기술 동향

딥러닝의 탐지 성능을 향상하는 방법 중 하나는 다양한 데이터를 이용하여 학습 데이터를 구축하는 것에 있다. 하지만 현실적으로 이러한 과정은 노동 집약적인 작업이므로 진행에 있어 다양한 어려움이 많다. 이를 해결하기 위하여 학습 데이터의 증강을 위한 연구가 진행되고 있다 (Shorten and Khoshgoftaar, 2019). 이러한 기법은 크게 전통적인 증강 방법과 generative adversarial network (GAN)를 이용한 증강 방법으로 구분된다 (Goodfellow et al., 2014).

우선 전통적인 증강 방법은 위치 정보를 변환하는 방법이다. 이는 뒤집기, 회전, 이동, 배율에 대한 조정이 다. 다음으로는 화소 강도에 대한 변환도 있다. 이는 영상 밝기, 감마 보정, 블러링, 샤프닝에 대한 조정이다. 이처럼 다양한 변환 기법을 복합적으로 사용하여 학습 데이터를 구성한다. 예를 들어, Dellana and Roy(2016) 는 이동과 배율 그리고 영상 밝기와 블러링을 적용하여 학습 데이터를 증강했다. Taylor and Nitschke(2018)는 위치적 정보를 변화시키기 위하여 뒤집기, 회전, 배율 등을 조정했고, 화소 강도를 조정하기 위해 컬러 지터 링, 경계 강화, 주성분 분석 기법을 적용했다. Wang et al.(2020)도 확대와 축소, 이동, 회전 등을 적용함과 동 시에 감마 변환, 가우시안 블러링, 히스토그램 평활화 등을 사용하여 영상 데이터를 증강시켰다.

두 번째 증강 방법은 GAN을 이용하여 영상의 생성을 기반으로 한 변환 방법이다. 이는 GAN이 갖는 생성 의 개념을 통해서 기존의 영상 데이터와는 다르지만 같은 종류의 데이터를 생성하는 기법이다. 이러한 방법 을 이용하여 Isola et al.(2017)은 조건부 GAN을 이용하여 입력 영상과 라벨 영상을 변환하는 방법을 제안했 다. 일반적으로 딥러닝은 입력 영상에서 라벨 영상과 동일하게 출력되도록 신경망을 학습하지만, 그들은 라 벨 영상에서 입력 영상이 나올 수 있도록 알고리즘을 개발했다. Karras et al.(2019)는 새로운 영상을 생성함에 있어 잠재 공간의 벡터를 입력으로 바로 사용하지 않고 중간 잠재 공간의 벡터를 사용했다. 또한, 이 벡터를 생성자 신경망의 단계마다 입력으로 사용하여 생성되는 영상 데이터를 제어했다. 따라서 국소적인 영상 변 환이 가능한 결과 영상이 만들어지도록 했다. Zhu et al.(2017)은 서로 다른 두 도메인의 영상을 상호 변환시 켜 새로운 영상 데이터가 생성되도록 했다. 특히 사진을 예술 작품처럼 변화시키거나 여름 사진을 겨울 사진 으로 바꾸는 기능을 구현했다. 이를 통해 다른 도메인의 영상을 목적 도메인으로 변환하여 학습 데이터를 확 보할 수 있다.

딥러닝의 탐지 성능을 높이기 위하여 가장 필수적인 것은 다양한 학습 데이터의 확보다. 이를 위해 영상 의 위치 정보와 화소 강도를 변화시키거나 GAN을 통해서 새로운 영상을 생성하는 기법들이 소개되었다. 이 와 같은 맥락으로 균열 탐지에 필요한 학습 데이터의 확보를 위해 영상 데이터를 증강하는 연구가 필요하다.

Ⅱ. 균열 영상 데이터 변환 기법

1. 콘크리트와 아스팔트 균열 영상 데이터의 구성

본 논문에서 사용하는 영상 데이터는 선행 연구에서 공개된 콘크리트 균열 영상과 아스팔트 균열 영상을 사용하였다 (Zhang et al., 2016;Eisenbach et al., 2017;Shi et al., 2016;Amhaz et al., 2016;Zou et al., 2012). 이 들의 영상은 모두 448×448이고 총 수량은 9,366장이다. 이들은 <Table 1>과 같이 학습용과 검증용으로 구분 하였다. 총 콘크리트 영상의 수는 4,867장이다. 이 중 4,137장은 학습용으로 사용하였고 나머지 730장은 검증 용으로 사용했다. 또한, 아스팔트 균열 영상의 수는 4,499이다. 이 중 3,825장은 학습용이며, 나머지 674는 검 증용으로 사용했다.

<Table 1>

Image data configuration

본 논문에서는 사용하는 영상 중에서 콘크리트 영상은 <Fig. 1>과 같다. 이들의 공통점은 균열을 촬영하였 다는 점이며, 차이점은 다양한 색상과 형상을 띠고 있다는 점이다. 서로 다른 환경과 장소에서 발생한 균열 로 재질과 변질의 정도가 다르게 나타난다. 이처럼 여러 형태의 균열 영상을 바탕으로 다양한 영상을 생성하 고자 한다.

<Fig. 1>

Concrete Crack Images

학습에 사용한 아스팔트 균열 영상은 <Fig. 2>와 같다. 아스팔트 포장된 도로에 발생한 균열을 촬영한 영 상들이다. 포장된 도로는 아스팔트를 재료로 포장되어 있으나 노면 상태는 다양하게 나타난다. 또한, 외력에 노출되는 시간과 사용기한에 따라 변질 정도도 다양하다. 이뿐만 아니라 도로 노면에서 발생하는 균열의 형 상 또한 일정하지 않다.

<Fig. 2>

Asphalt Crack Images

2. 순환 생성적 적대 신경망을 활용한 영상 변환 기법

딥러닝을 활용하여 영상을 변화하는 알고리즘 가운데 하나는 순환 생성적 적대 신경망(cycle consistent generative adversarial network, cycleGAN)이다 (Zhu et al., 2017). 이 알고리즘을 이용하여 영상을 변환하기 위 해서는 다른 도메인의 영상 집합이 필요하다. 이때 소스 도메인의 영상 집합을 콘크리트 균열 영상 (I_Conc)이 라고 했을 때, 타겟 도메인의 영상 집합을 아스팔트 균열 영상(I_Asph)이라고 가정한다. I_Conc를 I_Asph로 변환하는 함수를 G라고 할 때 이는 Eq. (1)과 같이 정의된다. 또한, I_Asph를 I_Conc로 역변환하는 함수를 F라고 할 때, 이는 Eq. (2)와 같이 정의된다. 이 두 함수를 Eq. (3)과 같이 연속적으로 사용하여 I_Conc를 I_Asph으로 변환하고 이를 다시 I_Conc로 되돌릴 수 있다. 또한, Eq. (4)와 같은 순서로 연속적으로 사용하면 I_Asph를 I_Conc로 변환하고 다시 I_Asph로 복원할 수 있다. cycleGAN은 이처럼 변환 함수 두 개를 연속적으로 사용하여 입력과 출력이 순환적으로 일관성을 유지하는 개념의 알고리즘이다. 이를 통해 서로 다른 도메인의 영상이 상호 간에 변환되도록 한다.

G (I_{C o n c}) = I_{A s p h}

Eq. (1)

F (I_{A s p h}) = I_{C o n c}

Eq. (2)

F (G (I_{C o n c})) \approx I_{C o n c}

Eq. (3)

G (F (I_{A s p h})) \approx I_{A s p h}

Eq. (4)

일반적으로 영상 변환 알고리즘을 구현하기 위하여 학습 데이터는 쌍을 이루고 있어야 한다. 예를 들어, X의 영상이 변환시킬 때 Y의 영상과 쌍을 이루고 있어야 하는데, 이처럼 쌍을 이루고 있어야 이를 바탕으로 변환 규칙을 정의한 함수 G를 추정할 수 있기 때문이다. 이는 반대로 역변환하는 함수 F를 추정할 때도 동 일하게 적용된다. 하지만, cycleGAN의 특징은 학습 데이터가 쌍을 이룰 필요가 없다는 점이다. 따라서 학습 데이터의 구성을 할 때 제약사항이 없다는 점을 이용하여 본 논문에서는 콘크리트 균열 영상과 아스팔트 균 열 영상으로 학습 데이터를 구성했다.

CycleGAN의 신경망 구조는 GAN의 구조를 기반으로 동작되므로 두 가지의 학습 구조가 경쟁한다. 첫 번 째 학습 구조는 <Fig. 3>와 같이 생성자 신경망을 활용하여 균열 영상을 생성하는 역할을 수행한다. 이 구조 에서는 콘크리트 균열 영상을 아스팔트 균열 영상으로 변환하는 신경망(G_C-A)과 아스팔트 균열 영상을 콘크 리트 균열 영상으로 변환하는 신경망(F_A-C)으로 구성되어 있다. G_C-A와 F_A-C는 모두 ResNet의 신경망 구조로 되어있다 (Zhu et al., 2017). 이 신경망의 구조는 구체적으로 암호화 단계, 잔류 단계, 복호화 단계로 구성되 어 있다. 암호화 단계는 합성곱, 배치 정규화, 활성화 함수로 구성되어 있고, 입력 영상의 크기는 줄어들고 채널의 수는 증가하게 된다. 잔류 단계에는 잔류 신경망 구조 9개를 연속적으로 연결한다. 이 잔류 신경망은 입력 정보의 소실을 최소화하고 유의미한 정보를 생성한다. 끝으로 복호화 단계는 역합성곱, 배치 정규화, 활성화 함수의 조합으로 이뤄지고 있고, 영상의 크기를 키우면서 채널의 수를 줄인다. 최종적으로 입력 영상 과 동일한 크기와 채널의 출력 영상을 생성한다. 이 구조에서는 콘크리트 균열 영상을 입력으로 하는 Conc_cycleGAN과 아스팔트 균열 영상을 입력으로 하는 Asph_cycleGAN이 있다. 우선 Conc_cycleGAN은 콘크 리트 균열 영상을 아스팔트 균열 영상으로 변경하는 변환 영상을 만들어낸다. 이후 다른 신경망을 연결하여 다시 콘크리트 균열 영상으로 되돌리는 복원 영상을 생성한다. 이처럼 입력된 콘크리트 균열 영상과 복원된 균열 영상이 동일하도록 학습을 수행한다. 이와 똑같은 방법으로 Road_cycleGAN에 적용한다. 이를 통해 입 력된 아스팔트 균열 영상이 복원된 아스팔트 균열 영상과 동일하게 되도록 G_C-A과 F_A-C의 가중치를 업데이트 한다.

<Fig. 3>

Generator networks for cyclcGAN

두 번째 학습구조는 <Fig. 4>와 같이 판별자 신경망을 활용하여 영상의 진위를 판별하는 역할을 수행한다. 이 판별자 신경망은 콘크리트 균열 영상의 진위를 판별하는 D_C와 아스팔트 균열 영상의 진위를 판별하는 D_R로 구성된다. D_C와 D_R은 모두 합성곱 연산, 배치 정규화 연산, leaky ReLU(Xu et al., 2015) 함수의 조합으 로 이루어져 있다. 신경망의 구조는 크기가 점차 작아지는 암호화 구조로 이루어져 있어 최종적으로는 입력 영상이 참인지 거짓인지를 판별한다. 이 판별자 신경망은 원본 영상과 변환 영상을 입력으로 사용한다. D_C의 경우 <Fig. 4(a)>처럼 원본의 콘크리트 균열 영상과 아스팔트 균열 영상으로부터 변환된 콘크리트 균열 영상 을 입력으로 사용한다. 그리고 원본 영상과 변환 영상은 각각 참과 거짓으로 인식될 수 있도록 D_C의 가중치 를 업데이트한다. 이러한 학습을 통해서 변환 영상이 원본 영상과 유사해지도록 한다. 이와 동시에 적대적 학습 또한 판별자 신경망에 적용한다. 이는 변환 영상이 D_C의 입력으로 사용되었을 때, 이를 참으로 인식되 도록 학습을 수행한다. 다시 말해 변환 영상은 분명히 가짜 영상임에도 불구하고 이를 진짜 영상이라고 판별 자 신경망을 속이는 것이다. 이를 통해 변환 영상은 원본 영상과 점차 다른 균열 영상이 된다. 결과적으로 서로 상반되는 두 가지 학습을 동시에 하나의 판별자 신경망에 적용하여 원본 균열 영상과 유사하나 원본 균열 영상과 다른 새로운 균열 영상이 만들어지도록 한다. 끝으로 이 같은 방법을 <Fig. 4(b)>처럼 동일하게 D_R에 적용하여 변환된 아스팔트 균열 영상이 만들어지도록 한다.

<Fig. 4>

Discriminator networks for cycleGAN

3. 학습 환경 구성

콘크리트 균열 영상과 아스팔트 균열 영상을 변환하여 새로운 균열 영상을 생성하는 실험을 수행하기 위 해 사용한 하드웨어의 사양은 Intel Xeon 6226R 2.9GHz, 320GB의 메모리 그리고 NVIDIA Quadro 8000이다. 소프트웨어는 Ubuntu 18.04를 운영체제로 사용했고 Pytorch를 딥러닝 라이브러리로 사용했다. 학습에 사용한 영상 데이터의 수는 7,962장이고 전체 에포크의 수는 200번이다. 본 논문에서 사용한 최적화 함수는 모두 Adam을 사용했다. Adam을 사용할 때 필요한 파라미터는 learning rate, beta-1, 그리고 beta-2로 각각 0.0002, 0.5, 그리고 0.999로 설정했다.

Ⅲ. 실험 결과 분석 및 논의

1. 변환 영상의 결과 분석

학습된 완료된 후에 1,404장의 검증용 데이터를 이용하여 결과 영상을 생성했다. F_A-C의 모델에 원본 아스 팔트 균열 영상을 적용할 경우 <Fig. 5>와 같이 변환된 콘크리트 균열 영상이 만들어진다. 이때 사용한 아스 팔트 균열 영상은 <Fig. 5(a)>처럼 형태와 재질은 다양하다. 이러한 영상으로 변환을 하게 되면 그 결과 또한 <Fig. 5(b)>와 같이 다양한 콘크리트 균열 영상을 얻게 된다. 이와 동일하게 G_C-A의 모델에 원본 콘크리트 균 열 영상을 적용할 경우 <Fig. 6>과 같이 변환된 아스팔트 균열 영상을 얻게 된다. G_R-C의 입력 영상으로 사용 된 콘크리트 균열 영상은 <Fig. 6(a)>와 같이 다양하다. 따라서 그 결과도 <Fig. 6(b)>와 같이 다양한 아스팔 트 균열 영상으로 변환된다. 이러한 결과의 공통점은 균열의 형상이 크게 변화하지 않는다는 점이다. 균열의 두께는 좁아지거나 넓어지는 현상이 나타나지만, 그럼에도 불구하고 균열의 시작점과 끝점은 그대로 유지되 고 있다는 점이 특징이다. 또 다른 특징은 두 도메인 간의 데이터 변환이 획일화되지 않는다는 점이다. 데이 터 변환을 통해 얻고자 하는 바는 다양한 데이터의 확보다. 그러므로 영상 변환이 입력과 관계없이 유사하게 된다면 학습 데이터의 다양성을 높이는 데 큰 역할을 기대할 수 없다. CycleGAN은 입력 영상과 복원 영상이 동일하게 되도록 학습을 수행하지만, 판별자 신경망이 개입하여 적대적 학습이 적용된다. 이때 변환 영상을 참으로 간주하여 더욱 다양하게 변환되도록 가중치를 업데이트한다. 이를 통해 획일화되는 변환을 예방하고 변환 영상이 한층 더 다양한 형태로 나타나도록 유도할 수 있으며, 학습 데이터의 다양성을 높이는데 기여할 수 있다.

<Fig. 5>

Translated concrete crack images from road crack images

<Fig. 6>

Translated road crack images from concrete crack images

2. 합성 영상의 성능 평가

본 논문에서 제안한 방법에 의해 변환된 영상의 성능을 평가하기 위하여 균열 탐지 알고리즘을 사용했다. 본 알고리즘은 원본의 콘크리트 균열 영상을 아스팔트 균열 영상으로 변환하고 이를 다시 콘크리트 균열 영 상으로 복원한다. 만일 알고리즘이 완전하게 동작한다면 원본 영상과 복원 영상은 동일하다. 이러한 점을 이 용하여 원본 영상을 이용한 균열 탐지 성능과 복원 영상을 이용한 균열 탐지 성능을 비교하고자 한다. 이 실 험에서 사용하는 균열 탐지 알고리즘은 Shim et al.(2022)에서 제안한 모델이다. 성능 평가지표는 mean intersection over union (m-IoU)과 F1 score (F1)를 사용했다. 실험에 사용한 영상의 수는 299장으로 콘크리트 균열 영상과 라벨 영상이 짝을 이루고 있다. 이 영상을 이용한 균열 탐지 결과는 <Table 2>와 같다. 원본 영 상을 이용한 탐지 성능은 89.22%의 m-IoU와 89.11%의 F1이다. 이에 반해 복원 영상을 이용한 탐지 성능은 88.51%의 m-IoU와 88.30%의 F1이다. 이 실험 결과를 통해서 복원된 영상의 탐지 성능이 0.71%의 m-IoU와 0.81%의 F1만큼씩 낮지만, 차이는 크지 않다. 따라서 복원 영상이 원본 영상과 유사하다는 결론을 도출할 수 있고, cycleGAN이 가상의 균열 영상을 합성할 수 있다는 점을 알 수 있다.

<Table 2>

Crack detection performance

3. 영상 변환에 관한 논의

영상 처리의 최종적인 목적은 균열을 탐지하는 알고리즘을 개발하는 것에 있다. 이를 위하여 최근에는 딥 러닝 기반의 균열 탐지 알고리즘에 관한 활발한 연구가 진행 중이다. 사실상 딥러닝은 데이터에 의존적인 알 고리즘으로 이해할 수 있으므로 학습에 사용하는 데이터의 종류와 수에 따라 탐지 성능이 크게 달라진다. 이 뿐만 아니라 데이터의 다양성 또한 탐지 성능에 큰 영향을 미친다. 따라서 딥러닝 알고리즘을 개발하기 위해 서는 얼마나 다채로운 다수의 균열 영상을 확보하는 것이 관건이다. 하지만, 균열 영상은 비정상적인 장면을 촬영하는 것으로 데이터가 부족할 수 밖에 없는 한계를 안고 있으며, 다양한 영상의 확보가 어려운 것이 사 실이다. 이러한 이유에서 이는 다양한 영상 확보를 위해 영상 변환 기법을 토대로 다른 분야의 영상을 사용 할 수 있는 기술로서의 의의를 갖는다.

본 논문에서는 학습 데이터의 증강을 위해 딥러닝 알고리즘을 이용하여 콘크리트 균열 영상과 아스팔트 균열 영상 간의 상호 변환 기법을 연구했다. 손상 장면을 촬영한 영상을 이용하여 딥러닝 알고리즘을 개발할 때 학습 데이터는 부족할 수밖에 없다. 이러한 점을 해결하기 위하여 데이터 증강 기술이 필요하고 이 기술 의 일환으로 본 논문에서는 영상 변환 기법을 활용했다. 아스팔트 균열 영상과 콘크리트 균열 영상은 서로 다른 도메인의 데이터들이다. 이들은 서로 다른 재료로부터 만들어진 매체에서 발생하는 손상이다. 하지만 균열은 균질한 재질에서 검은색의 연속적인 선이라는 점에서 공통점을 갖는다. 따라서 영상에서 재질만 변 환한다면 서로 다른 도메인에서 학습 데이터로 활용이 가능하며, 이는 곧 데이터 증강으로 연결될 수 있다는 점에 착안하여 딥러닝 탐지 성능을 향상시키는 요인으로 작용할 수 있을 것이다.

본 연구의 목적은 데이터의 증강이다. 이를 위하여 콘크리트 균열 영상을 아스팔트 균열 영상으로 변환하 고, 반대로 아스팔트 균열 영상을 콘크리트 균열 영상으로 변환했다. 이러한 방법을 통해 종국에는 학습 데 이터의 전체 수를 늘려서 인식 성능을 향상시키고자 한다. 이를 위하여 변환된 영상이 진짜 영상과 유사해야 한다. 그렇다면 앞으로도 이처럼 변환된 영상이 진짜 영상과 구분이 어려울 정도로 합성 성능을 향상시킬 수 있는 연구가 필요할 것이다.

영상을 변환하여 새로운 균열 영상이라 하더라도 이를 학습에 사용하는 방법이 필요하다. 첫 번째 방법은 지도 학습을 위해서 라벨 영상을 확보하는 것이다. 변환된 균열 영상에 해당하는 라벨 영상을 만들어 이를 학습에 사용하는 것이다. 두 번째는 방법은 준지도 학습을 사용하는 것이다. 준지도 학습은 소수의 라벨 영 상과 다수의 균열 영상으로 신경망의 가중치를 업데이트한다. 따라서 기존의 학습 데이터에 변환된 균열 영 상을 추가하게 되면 다양성이 높은 학습 데이터가 확보되기 때문에 탐지 성능을 향상시킬 수 있게 된다.

Ⅳ. Conclusion

본 논문은 콘크리트 균열 영상과 아스팔트 균열 영상 간의 변환을 이용하여 균열 탐지를 위한 다양한 데 이터를 확보하는 방법을 제시했다. 콘크리트 균열 영상과 아스팔트 균열 영상은 유사한 형상의 균열을 가지 고 있지만, 이에 반해 콘크리트와 도로 포장의 재질이 다르다는 차이점도 있다. 본 논문에서는 이러한 점을 배제하고 각각의 도메인에서 활용될 수 있는 방법을 제시했다. 이때 순환적으로 영상을 변환하는 학습 구조 와 GAN의 생성적 개념을 융합하는 방법을 활용했다. 이를 실험하기 위하여 4,867장의 콘크리트 균열 영상과 4,499장의 아스팔트 균열 영상을 사용했다. 그리고 실험의 결과가 콘크리트 균열 영상과 아스팔트 균열 영상 이 각각 다른 도메인으로 변환되는 것을 확인할 수 있었다. 특히 균열의 형상은 변함이 없고 재질만 변환되 는 것을 확인할 수 있었다. 이를 통해 다른 도메인에 있는 영상 데이터를 변환하여 사용할 수 있는 방법을 설명했고 데이터의 다양성을 높이는 새로운 전략을 제시했다. 이러한 기법은 향후 연구에 균열 영상을 확보 하는 것뿐만 아니라 콘크리트 박락 및 도로 포트홀과 같은 영상 데이터를 확보하는 데에도 활용될 수 있다. 이를 통해 기존의 부족했던 학습 데이터를 증가시킬 수 있고, 결과적으로 손상을 탐지할 수 있는 딥러닝 알 고리즘의 성능을 향상시킬 수 있다. 바라건대 인프라의 손상 탐지에 필요한 학습 데이터의 부족으로 인해 탐 지 기술을 개발하기 어려운 분야에서 적극적으로 활용될 수 있기를 기대하는 바이다.

ACKNOWLEDGEMENTS

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다 (No. 2022R1F1A1074663). 지원에 감사합니다.

Figure

<Fig. 1>.

Concrete Crack Images

<Fig. 2>.

Asphalt Crack Images

<Fig. 3>.

Generator networks for cyclcGAN

<Fig. 4>.

Discriminator networks for cycleGAN

<Fig. 5>.

Translated concrete crack images from road crack images

<Fig. 6>.

Translated road crack images from concrete crack images

Table

<Table 1>.

Image data configuration

<Table 2>.

Crack detection performance

Reference

Ali, R. , Chuah, J. H. , Talip, M. S. A. , Mokhtar, N. and Shoaib, M. A. (2022), “Structural crack detection using deep convolutional neural networks”, Automation in Construction, vol. 133, p.103989.
Amhaz, R. , Chambon, S. , Idier, J. and Baltazart, V. (2016), “Automatic crack detection on two-dimensional pavement images: An algorithm based on minimal path selection”, IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 10, pp.2718-2729.
Dellana, R. and Roy, K. (2016), “Data augmentation in CNN-based periocular authentication”, In Proceedings of International Conference on Information Communication and Management(ICICM), Hatfield, UK, pp.141-145.
Eisenbach, M. , Stricker, R. , Seichter, D. , Amende, K. , Debes, K. , Sesselmann, M. , Ebersbach, D. , Stoeckert, U. and Gross, H. M. (2017), “How to get pavement distress detection ready for deep learning? A systematic approach”, In Proceedings of International Joint Conference on Neural Networks(IJCNN), Anchorage, AK, USA, pp.2039-2047.
Goodfellow, I. J. , Pouget-Abadie, J. , Mirza, M. , Xu, B. , Warde-Farley, D. , Ozair, S. , Courville, A. and Bengio, Y. (2014), “Generative adversarial nets”, In Proceedings of Advances in Neural Information Processing Systems(NIPS), Montreal, Canada, pp.2672-2680.
Isola, P. , Zhu, J. Y. , Zhou, T. and Efros, A. A. (2017), “Image-to-image translation with conditional adversarial networks”, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Honolulu, HI, USA, pp.1125-1134.
Karras, T. , Laine, S. and Aila, T. (2019), “A style-based generator architecture for generative adversarial networks”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Long Beach, CA, USA, pp.4401-4410.
Krizhevsky, A. , Sutskever, I. and Hinton, G. E. (2012), “Imagenet classification with deep convolutional neural networks”, In Proceedings of Advances in Neural Information Processing Systems(NIPS), Montreal, Canada, vol. 25, pp.1097-1105.
Long, L. , Dohler, M. and Thons, S. (2022), “Determination of structural and damage detection system influencing parameters on the value of information”, Structural Health Monitoring, vol. 21, no. 1, pp.19-36.
Shi, Y. , Cui, L. , Qi, Z. , Meng, F. and Chen, Z. (2016), “Automatic road crack detection using random structured forests”, IEEE Transactions on Intelligent Transportation Systems, vol. 17, no. 12, pp.3434-3445.
Shim, S. , Kim, J. , Cho, G. C. and Lee, S. W. (2022), “Stereo-vision-based 3D concrete crack detection using adversarial learning with balanced ensemble discriminator networks”, Structural Health Monitoring, 14759217221097868.
Shim, S. , Kim, J. , Lee, S. W. and Cho, G. C. (2021), “Road surface damage detection based on hierarchical architecture using lightweight auto-encoder network”, Automation in Construction, vol. 130, p.103833.
Shorten, C. and Khoshgoftaar, T. M. (2019), “A survey on image data augmentation for deep learning”, Journal of Big Data, vol. 6, no. 1, pp.1-48.
Spencer Jr, B. F. , Hoskere, V. and Narazaki, Y. (2019), “Advances in computer vision-based civil infrastructure inspection and monitoring”, Engineering, vol, 5, no. 2, pp.199-222.
Taylor, L. and Nitschke, G. (2018), “Improving deep learning with generic data augmentation”, In Proc. IEEE Symposium Series on Computational Intelligence(SSCI), Bangalore, India, pp.1542-1547.
Thanoon, W. A. , Jaafar, M. S. , Kadir, M. R. A. and Noorzaei, J. (2005), “Repair and structural performance of initially cracked reinforced concrete slabs”, Construction and Building Materials, vol. 19, no. 8, pp.595-603.
Wang, Z. , Yang, J. , Jiang, H. and Fan, X. (2020), “CNN training with twenty samples for crack detection via data augmentation”, Sensors, vol. 20, no. 17, p.4849.
Xu, B. , Wang, N. , Chen, T. and Li, M. (2015), Empirical evaluation of rectified activations in convolutional network, arXiv:1505.00853 [Online]. Available at https://arxiv.org/abs/1505.00853
Zhang, L. , Yang, F. , Zhang, Y. D. and Zhu, Y. J. (2016), “Road crack detection using deep convolutional neural network”, In Proceedings of IEEE International Conference on Image Processing(ICIP), Phoenix, AZ, USA, pp.3708-3712.
Zhu, J. Y. , Park, T. , Isola, P. and Efros, A. A. (2017), “Unpaired image-to-image translation using cycle-consistent adversarial networks”, In Proceedings of the IEEE International Conference on Computer Vision(ICCV), Venice, Italy, pp.2223-2232.
Zou, Q. , Cao, Y. , Li, Q. , Mao, Q. and Wang, S. (2012), “CrackTree: Automatic crack detection from pavement images”, Pattern Recognition Letters, vol. 33, no. 3, pp.227-238.

CycleGAN Based Translation Method between Asphalt and Concrete Crack Images for Data Augmentation

Abstract

데이터 증강을 위한 순환 생성적 적대 신경망 기반의 아스팔트와 콘크리트 균열 영상 간의 변환 기법

초록