Ⅰ. 서 론
1. 개요
최근 컴퓨터 비전 분야와 머신 러닝(machine learning) 기술이 발전했음에도 불구하고, 실제 현실 문제에 딥러닝 모델을 적용하는 데에는 여전히 한계가 있다. 특히, 레이블링(labeling)된 데이터 샘플이 부족한 상황 은 매우 현실적이고 해결하기 어려운 제약 중 하나이다. 충분한 데이터를 수집하는 데는 많은 시간과 비용이 소요되기 때문에, 공공 데이터가 부족한 특정 분야에서 딥러닝 학습 작업을 수행하는 것은 상당히 어려울 수 있다. 특히, 자율주행 자동차 분야의 경우 그 성능에 매우 높은 안정성을 요구하기 때문에 데이터셋(dataset) 의 한계 때문에 요구되는 성능 기준치를 만족시키는 것이 쉽지 않다(Cui et al., 2022).
데이터셋 부족 문제를 해결하기 위한 시도 중 하나는 기존 데이터를 활용하여 새로운 도메인(domain)의 학습 문제를 해결하는 전이 학습(transfer learning)이다. 전이 학습은 학습하고자 하는 데이터가 아닌 다른 데 이터를 이용하여 학습된 인공지능 모델을 학습하고자 하는 데이터의 학습에 이용하는 기법으로, 특히 국내 도로 상황에 대한 공개된 데이터가 부족해 연구자가 직접 데이터를 수집해야 하는 경우가 있는(Seo and Park, 2022;Jung and Jung, 2020) 국내 차량을 대상으로 한 AI 기술 및 국내 도로 주행을 위한 자율주행 기술 에 효과적으로 적용될 수 있다.
전이 학습은 크게 동질적 전이 학습(homogeneous transfer learning)과 이질적 전이 학습(heterogeneous transfer learning)으로 나눌 수 있다. 동질적 전이 학습은 특징 공간(feature space), 레이블 공간(label space), 데이터의 형식이 동일하지만, 소스(source)와 타겟(target) 도메인 데이터의 분포가 다른 경우를 의미한다. 반면, 이질적 전이 학습은 데이터 형식, 특징 공간 구조, 또는 클래스 수가 다른 경우를 다룬다.
본 연구는 대부분의 기존 문헌이 전이 학습 알고리즘 자체의 개선에 초점을 맞춘 것과는 달리, 심층 모델 융합(deep model fusion) 기법을 전이 학습에 적용하여 하나의 시각 도메인에서 다른 시각 도메인으로 이질적 전이 학습 성능을 향상시키는 것을 목표로 한다. 심층 모델 융합은 여러 딥러닝 모델의 파라미터나 출력을 결합하여, 다양한 모델의 역량과 지식을 통합함으로써 더 나은 성능을 달성하는 기법이다.
심층 모델 융합 기법을 전이 학습에 활용하기 위하여 본 연구에서는 모델 출력 조합기와 그 학습을 위한 새로운 손실 함수(loss function)를 제안한다. 모델 출력 조합기는 시각 도메인의 이미지를 인풋으로 입력받아 융합될 여러 모델 출력의 convex combination(볼록 조합)을 생성하는 인공신경망으로, 3장에서 소개될 손실 함수를 통하여 학습된다. 새로운 융합 모델을 생성하는 것이 아닌 여러 모델의 출력을 convex combination의 형태로 조합하는 기법은 기존의 심층 모델 융합 기법의 한계 중 하나인 동일한 구조의 인공신경망의 융합만 이 가능하다는 제약을 해결할 수 있다. 또한 실험을 통하여 긴 학습 과정 없이도 기존의 전이 학습보다 높은 성능을 달성할 수 있음을 확인하였다.
Ⅱ. 선행 연구 고찰
여기에서는 전이 학습과 심층 모델 융합에 관한 주요 문헌들을 간략히 검토한다.
1. 심층 모델 융합
심층 모델 융합은 크게 네 가지 범주로 나눌 수 있다(Li et al., 2024). 이는 모드 연결성(mode connectivity, 모형 연결), 정렬(alignment), 가중치 평균(weight averaging), 그리고 앙상블 학습(ensemble learning)이다.
모드 연결성은 두 가지 모델의 파라미터를 선형 또는 비선형 방식으로 보간하여 손실 함수 값을 낮게 유 지하는 기법이다. 두 모델의 파라미터 값은 파라미터 공간에서 두 지점으로 표현되고, 모드 연결성은 이 두 지점을 연결하는 선을 생성한다. 모드 연결성으로 생성된 파라미터 값은 이 선 상의 특정 지점에 해당하며, 이를 통해 융합 모델을 구축할 수 있다.
정렬은 모델의 유닛을 맞추어 더 나은 심층 모델 융합을 목표로 한다. 이론적으로 인공지능 모델의 가중 치(weight) 값은 그 순서가 치환되어도 성능이 유지될 수 있다. 따라서 정렬은 가중치 행렬에 곱해지는 치환 행렬(permutation matrix) 중 특정 비용 함수(cost function)를 최소화하는 최적의 치환 행렬을 찾는 문제로 볼 수 있다. 자주 사용되는 비용 함수로는 비교 상관계수(cross-correlation), 상호정보량(mutual information), L2 거 리, 쿨백-라이블러 발산(Kullback–Leibler divergence), 바서슈타인 거리(Wasserstein distance) 등이 있다.
가중치 평균(weight averaging)은 여러 네트워크 가중치를 결합하여 더 나은 성능, 강건성, 그리고 일반화를 달성하는 기법이다. 잘 알려진 가중치 평균 기법으로는 기본 평균(vanilla averaging)(Singh and Jaggi, 2020)과 가중치 합산(weighted sum)(Leontev et al., 2020)이 있다.
앞서 언급한 세 가지 방법은 융합할 모델들이 공통된 네트워크 구조를 공유해야 하는 제약이 있다. 반면, 앙상블 학습(ensemble learning)은 이질적인 네트워크 구조를 가진 모델들을 융합할 수 있다(Aniol et al., 2019;Schapire, 1999;Wang et al., 2016). 앙상블 학습은 여러 모델의 출력을 결합하는 기법으로, 대표적으로 투표(voting) 와 평균(averaging) 방법이 있다. 기존 앙상블 기법으로는 배깅(bagging)(Breiman, 1996), 스태킹(stacking)(Wolpert, 1992) 등이 있다. 최근 연구 중에는 Kontschieder et al.(2015)이 CNN의 최적화 과정에서 랜덤 결정 함수(random decision function)를 사용하여 파라미터 복잡성을 줄이는 방법인 딥 신경망 결정 숲(deep neural decision forests)을 제안하였다. 또한, Zhou and Feng(2019)는 역전파(backpropagation) 없이 모델을 구축할 수 있는 결정 트리 앙상블 방식을 고안하였다. Wang et al.(2022)은 분산 최적화 접근 방식을 사용하여 여러 모델을 융합하는 분산 강건성 최적화 프레임워크를 제시하였다. Hoang et al.(2019)은 블랙박스 전문가 시스템의 앙상블 가능성을 보여주었으며, 이는 블랙박스 시스템의 내부 구조에 접근하지 않고도 앙상블을 수행할 수 있음을 입증한 연구이다. 그러나 이러한 방법들은 최적의 성능을 달성하기 위하여 추가적인 학습과정과 그에 수반되는 막대한 컴퓨팅 자원을 필요로 한다는 또 다른 제약을 지닌다.
기존의 심층 모델 융합 연구들은 대부분 융합할 모델들의 구조가 동일해야 한다는 제약조건이 존재하거 나, 새로운 융합 모델을 생성하기 위하여 막대한 컴퓨팅 자원이 필요하다는 단점이 있다. 이에 본 연구에서 는 서로 다른 구조를 지닌 모델들의 융합을 실현하기 위하여 모델들의 출력들을 볼록 조합(convex combination) 형태로 융합하는 모델 출력 조합기를 활용한 융합법을 제안하였으며, 모델 출력 조합기 학습을 위한 새로운 손실 함수를 고안하였고 실험을 통하여 적은 컴퓨팅 자원으로도 전이 학습의 성능을 향상시킬 수 있음을 확인하였다.
2. 전이 학습
소스와 타겟 도메인의 데이터 샘플들이 서로 다른 한계 분포(marginal distribution)를 가지지만 같은 구조를 지닐 때, 인스턴스 가중치(instance weighting) 기법을 활용한 전이 학습이 일반적으로 사용된다. 이때 타겟 도 메인의 손실 함수는 가중치를 통해 수정할 수 있다(Fort and Jastrzebski, 2019).
잠재 특징(latent feature) 기반 접근 방식에서는 주로 특징 변환(feature transform) 기법이 연구된다. 소스 도 메인과 대상 도메인에서 동시에 발견될 수 있는 공통 잠재 특징 벡터는 해당 도메인의 지식을 전이하는 데 사용된다. 특징 변환의 주요 목적 중 하나는 소스와 대상 도메인 데이터 인스턴스 간의 분포 차이를 줄이는 것이며, 분포 차이 또는 유사성을 측정하는 것이 특징 변환 기법에서 중요한 과제이다.
전이 학습 분야에서 널리 사용되는 유사도 측정 기법 중 하나는 최대 평균 차이(maximum mean discrepancy)를 계산하는 것이다(Borgwardt et al., 2006). 바서슈타인 거리(Wasserstein distance) (Shen et al., 2018;Lee et al., 2019) 와 중심 모멘트 차이(central moment discrepancy) (Zellinger et al., 2017) 또한 자주 사용되는 유사도 측정 지표 (metric)이다.
특징 증강(feature augmentation)은 Daumé III(2007)에 의해 제안된 특징 변환의 또 다른 방법이다. Kumar et al.(2010)은 특징 확장(feature expansion)을 통해 소스와 타겟 도메인 특징 벡터를 더 높은 차원의 공간으로 확 장하는 방법을 제안했다. Duan et al.(2012) 및 Li et al.(2014)는 이질적 전이 학습 환경에서 선형 변환을 사용 해 소스와 타겟 도메인 특징 벡터를 증강하는 방법을 제안하였다.
사람이 직접 특징 변환 함수를 설계하는 대신, 최적화 기법으로 특징 변환 함수를 찾아 소스-타겟 도메인 간 데이터 분포 차이를 최소화하려는 연구도 진행되었다. 최대 평균 차이 임베딩(maximum mean discrepancy embedding, MMD 임베딩)은 Pan et al.(2008)에 의해 제안된 방법으로, 목적 함수에 최대 분산 펼침(maximum variance unfolding, Weinberger et al., 2004)을 활용하여 개발되었다. 전이 구성 요소 분석(transfer component analysis, Pan et al., 2011;Pan et al., 2009)은 한계 분포 차이를 측정하기 위해 최대 평균 차이를 채택하고, 산 포 행렬에 제약 조건을 적용해 최적의 특징 변환 매핑을 찾는 연구를 수행하였다.
공동 분포 적응(joint distribution adaptation) (Long et al., 2013)은 한계와 조건부 분포의 이동을 최소화하는 저차원 공간 (low-dimensional space)으로 인스턴스를 매핑하는 변환 행렬 (transform matrix)을 찾는 연구를 수 행하였다. 이후의 연구에서는 공동 분포 적응의 개념이 확장되었으며, 레이블 구조 정보 (label structure information) (Hou et al., 2016), 클러스터링 정보 (clustering information) (Tahmoresnezhad and Hashemi, 2017), 통계 및 기하학적 정보 (statistical and geometric information) (Zhang et al., 2017)를 활용하는 방법들이 추가적 으로 연구되었다.
위와 같은 전이 학습 연구들에서는 하나의 특정한 모델이 주어진 경우를 가정하여, 주어진 모델이 타겟 도메인에서 높은 성능을 낼 수 있는 방법론을 도출하였다. 그러나 접근 가능한 사전 학습된 모델들이 여러 개 존재할 경우, 이러한 연구들의 방법론은 주어진 모델들의 개별 전이 학습 성능에 의해 성능 한계가 결정 된다는 한계가 있다. 이에 본 연구에서는 여러 사전 학습된 모델들에 동시에 전이 학습을 실행하고, 그 결과 값을 최적의 볼록 조합(optimal convex combination)의 형태로 조합하는 모델 출력 조합기를 이용하여 개별 모 델의 전이 학습 성능을 뛰어넘는 결과를 실험을 통해 보였다.
Ⅲ. 모델 출력 조합기 및 그 학습을 위한 손실 함수
이 단원에서는 본 연구에서 제안하는 시각 영역의 전이 학습 성능 향상을 위한 모델 출력 통합 방법에 대 해 설명한다. 본 연구에서는 전이 학습을 목적으로 ResNet-50(He et al., 2016) 모델을 CIFAR-10 및 CIFAR-100 (Krizhevsky and Hinton, 2009), SVHN(Netzer et al., 2011), COUNTRY211(Thomee et al., 2016), DTD(Cimpoi et al., 2014), FGVCAIRCRAFT(Maji et al., 2013), FLOWERS102(Nilsback and Zisserman, 2008), FOOD101(Bossard et al., 2014), GTSRB(Stallkamp et al., 2012), OXFORDIIITPET(Parkhi et al., 2012) 데이터셋에 각각 학습시켜 총 10개의 사전 학습된 모델을 준비하였다.
사전 학습 모델을 준비하는 과정에서 모든 이미지 데이터는 가로 세로 32 픽셀 크기로 변환되어 학습에 사용되었다. 전이 학습 실행 시, 각각의 사전 학습 모델은 전이될 타겟 데이터셋에 대해 모델의 마지막 선형 레이어(linear layer)를 대체할 새로운 선형 레이어를 학습하며, 모델의 마지막 선형 레이어를 제외한 모든 다 른 레이어들은 파라미터값이 고정된 상태로 유지되어, 학습된 피쳐 추출기(feature extractor)의 특성이 변하지 않도록 하였다.
1. 데이터셋 개괄
실험에 사용된 CIFAR-10 및 CIFAR-100은 가로 세로 32픽셀로 이루어진 데이터셋으로, CIFAR-10의 경우 10가지 클래스(class)의 이미지를 포함하며 5만 개의 이미지로 구성된 훈련 세트(training set)와 1만 장의 이미 지로 구성된 테스트 세트(test set)를 지원한다. CIFAR-100은 100개의 클래스를 가지며, 각 클래스는 훈련 세 트에 600장, 테스트 세트에 100장씩 포함된다. CIFAR 데이터셋은 비행기, 자동차, 개, 사슴, 트럭, 나무, 곤충 등 다양한 클래스의 이미지를 포함하는 것이 특징이다.
SVHN(Street View House Number) 데이터셋은 컬러로 이루어진 숫자 이미지로 구성된 것이 특징이다. 본 연구에서는 숫자 자르기(cropped digits) 포맷의 SVHN 데이터셋을 이용하였다. SVHN 이미지 샘플의 클래스 값은 숫자 값이다.
Country211 데이터셋은 이미지를 통해 해당 이미지가 찍힌 지역을 추정하는 데이터셋으로, 풍경, 인물사진 등으로 구성되어 있으며 총 211개의 클래스 값을 지원한다.
DTD(Describable Textures Dataset)는 이미지의 텍스처 클래스를 추론할 수 있도록 구성된 데이터셋으로, 각 각의 이미지는 bubbly, braided, bumpy, wrinkled, zigzagged 등 47개 카테고리 중 하나로 분류된다.
FGVCAIRCRAFT(Fine-Grained Visual Classification of Aircraft) 데이터셋은 비행기 이미지로 구성되며, 각 비행기의 모델명이 클래스로 주어진다.
FLOWERS102 데이터셋은 꽃 이미지로 구성되며, 각 꽃의 종이 클래스 값으로 설정된다.
FOOD101 데이터셋은 음식 이미지로 구성되며, 음식의 종류를 클래스 값으로 가진다.
GTSRB(German Traffic Sign Recognition Benchmark) 데이터셋은 독일의 교통 표지판 이미지로 구성되며, 각 교통 표지판의 종류에 따라 클래스 값이 다르다.
OXFORDIIITPET 데이터셋은 애완동물 이미지로 구성되며, 각 동물의 종이 클래스 값으로 설정된다.
2. 모델 출력 조합기의 학습 방법.
<Fig. 1>과 <Fig. 2>에는 본 연구에서 이용된 사전 학습 모델과 전이 학습 모델의 학습 방식이 각각 설명 되어 있다. <Fig. 1>은 사전 학습 과정을 나타내며, 학습되는 모델의 특징 추출기(feature extractor) 부분과 클 래스 분류(classification)를 위한 선형 층 모두 역전파(backpropagation) 방법을 이용한 경사 하강법(gradient descent)으로 학습된다. 학습에 사용되는 손실 함수는 일반적으로 사용되는 교차 엔트로피(cross-entropy) 손실 함수를 사용하였다.
<Fig. 2>는 전이 학습의 과정을 나타낸다. 소스 도메인 데이터를 활용한 사전 학습과 비교했을 때, 전이 학습 과정에서는 모델의 특징 추출기 부분은 학습되지 않고 그 파라미터가 고정되며, 마지막 선형 층이 단독 으로만 경사 하강법을 통해 학습된다는 점이 다르다.
전이 학습이 완료된 모델들은 또 다른 ResNet-50 모델을 사용해 융합된다. 이 ResNet-50 모델은 네 개의 전이 학습이 완료된 모델의 최적 볼록 조합(convex combination) 값을 계산하도록 학습된다. 해당 모델은 출 력 결합기의 역할을 하며, 출력 결합기는 일반적인 ResNet-50 모델의 구조를 갖추되 마지막 선형 레이어 (linear layer)의 출력값 개수가 융합될 모델의 개수와 같게 설정된다는 차이점이 있다.
융합될 모델의 개수가 4개라고 가정할 경우, 출력 결합기는 이미지 데이터를 입력받은 뒤, 선형 레이어의 출력값에 소프트맥스(softmax) 함수를 적용하여 합이 1이고 0 이상인 네 개의 출력값 λ₁, λ₂, λ₃, λ₄를 출력한다. 융합될 각 모델의 클래스 확률 값이 p₁, p₂, p₃, p₄로 주어질 때, 융합된 클래스별 확률 출력 p는 다음과 같이 계산된다:
<Fig. 3>에 제안된 모델 출력 조합기의 전체적인 구조가 표현되어 있다. <Fig. 3>의 그림 속 모델 풀(model pool)에 포함된 모델 개수는 단순화를 위해 임의로 3개로 설정되었으나, 실제로는 임의의 개수만큼 모델 풀 에 사전 학습된 모델이 포함될 수 있다. <Fig. 3>과 같이 모델 출력 조합기는 이미지 데이터를 입력받아 모 델 출력들을 조합할 convex combination 상수를 출력하고, 식 (1) 형태로 모델 풀의 출력들을 융합한다. 모델 출력 조합기는 최종적으로 조합된 확률 분포가 다음 장에서 제안된 손실 함수를 최소화하도록 학습된다.
본 연구에서는 제안하는 전이 학습 모델의 융합이 실제 성능 향상을 이루는지 확인하기 위한 실험과, 제 안하는 손실 함수의 하이퍼파라미터 값에 따른 모델 융합 성능의 변화를 확인하기 위한 실험이 실행되었다.
본 연구에서 제안하는 모델 융합 방법의 성능 향상 여부를 확인하기 위한 실험에서는 위의 10개 데이터셋 중 목표 데이터셋을 선택하고, 선택된 목표 데이터셋과 다른 데이터셋을 학습한 네 개의 모델을 선택한다. 선택된 네 개의 모델은 네트워크의 마지막 선형 레이어를 초기화하여 5개의 에포크(epoch) 동안 선형 레이어 의 파라미터 값을 학습하고, 목표 데이터의 테스트 세트(test set)에서 모델 출력 조합기를 사용해 조합된 출 력을 통해 클래스 예측 정확도를 측정하고 전이 학습 성능을 평가한다.
α값에 따른 모델 융합 성능의 변화를 확인하기 위한 실험에서는, 위에서 소개된 10개의 데이터셋 중 하나 를 선택하고 나머지 데이터셋을 학습한 9개의 사전 학습된 모델 전부에 대해 5개의 에포크(epoch) 동안 모델 4개를 이용한 실험과 마찬가지로 선형 레이어를 학습한 뒤, 모델 출력 조합기에 α값을 0.1, 0.3, 1로 설정한 경우로 나누어 학습하여 각각의 모델 출력 조합기의 테스트 세트 클래스 예측 정확도를 측정한다.
3. 출력 결합기의 붕괴(output combiner collapse)
출력 결합기를 직접적으로 교차 엔트로피 손실(cross-entropy loss)을 이용해 학습한 결과, 대부분의 경우 한 에포크 이내에 전이 학습된 모델 중 성능이 가장 좋은 모델에 1에 가까운 볼록 조합(convex combination) 가 중치를 부여하는 현상이 나타났다. 또한, 출력 결합기의 학습에 사용된 학습률(learning rate), 배치 크기(batch size), 코사인 감소(cosine annealing) 또는 학습률 워밍업(learning rate warm-up)의 유무 등의 하이퍼파라미터 조정이 이러한 현상을 완화하는 데 실질적인 도움이 되지 않는다는 것을 실험을 통해 확인하였다.
이러한 현상이 발생할 경우 모델 융합이 이루어지지 않고, 여러 개의 모델 출력 중 하나만이 사용되게 되 므로, 실질적으로 모델 융합이 이루어지지 않아 추가적인 성능 향상을 기대하기 어렵다. 본 연구에서는 출력 결합기가 융합되는 모든 모델의 출력들을 균등하게 활용하도록 강제하는 새로운 손실 함수를 제안한다. 제 안된 손실 함수는 다음과 같이 정의할 수 있다:
여기서 L (x,y)는 데이터 샘플 x와 데이터 샘플의 라벨값 y가 주어졌을 경우의 손실함수 값을 나타내며, LCE는 두 확률 분포 간의 cross-entropy를, pGT 는 one-hot vector 형식의 확률 분포 형태로 표현된 데이터 샘플 라벨값의 그라운드 트루스(ground truth)를, i는 융합될 모델들의 인덱스, n은 융합될 모델들의 총 개수를, pi 는 융합될 i번째 모델의 클래스별 확률 분포 출력값을 나타낸다. 새롭게 정의된 모델 출력 조합기 학습을 위 한 손실 함수는 두 가지 항으로 구성된다. 첫 번째는 LCE (p, pGT) 항으로, 해당 항을 최소화함으로써 출력 결합기의 출력은 pGT 를 모방하고 최고의 성능을 보이는 전이 학습된 모델에 1에 가까운 가중치를 할당하는 convex combination을 생성하려는 경향을 가지게 될 것이다. 두 번째 항은 i번째 모델의 확률 출력과 출력 조 합기의 확률 출력간의 cross-entropy인 LCE (p,pi) 항들의 합 와 하이퍼파라메터 α의 곱으로 나 타내어진다. 해당 항의 LCE (p,pi)를 최소화 하고자 할 경우, 출력 결합기의 확률 출력 p는 i번째 모델의 확 률출력 pi와 유사한 값을 가져야 하므로, 두 번째 항을 이루는 각각의 αLCE (p,pi ) 항들은 출력 결합기의 출 력 p가 pi와 유사한 값을 가지도록 강제하는 역할을 하나, 첫 번째 항 LCE (p,pGT)에 비하여 α배의 영향력 을 가지게 된다. 본 실험에서 α의 값은 hyperparameter sweeping을 통하여 n = 4일 때 0.25을, n = 9일 때는 α 값의 변화에 따른 출력 조합기 성능의 변화를 알아보기 위하여 0.1, 0.3과 1을 사용하였다. 모든 경우에 α값 은 1보다 작은 양수값을 사용하여 융합될 모델들의 출력을 과도하게 균등히 사용하려는 경향을 막았다. 손 실 함수 식 (2)를 최소화하여 모델 출력 조합기를 학습하게 된다면 첫 번째 항에 의해 최고 성능을 보이는 모델에 모든 가중치값이 집중되는 것을 두 번째 항이 막아주어, 모델 출력 결합기의 출력값 λ1, ⋯, λn들이 적 당히 균형 잡힌 값을 가질 수 있도록 의도하였다.
Ⅳ. 실험 결과 및 평가
이 단원에서는 연구를 위해 진행된 실험들의 소개, 실험결과 및 그 해석에 대하여 다룬다.
1. 실험 방법
모든 전이 학습된 모델은 각 학습 데이터셋에서 초기 학습률(learning rate) 0.1로 학습되었다. 전이될 모델 의 학습은 150 에포크 동안 진행되었으며, 60, 90, 120 에포크를 지날 때마다 학습률이 0.1배씩 감소하였다. 첫 번째 에포크에서는 학습률 웜업(learning rate warm-up)이 사용되었다. 모든 학습 데이터셋의 인스턴스는 ImageNet 데이터셋(Deng et al., 2009)의 평균과 분산을 사용하여 정규화되었다.
3장에서 언급된 것과 같이, 본 연구에서는 두 가지 실험이 진행되었다. 첫 번째 실험은 제안된 모델 융합 기법 적용 시 실질적인 성능 향상의 여부를 확인하기 위한 실험으로, 실험에 사용된 대상 데이터셋은 CIFAR-10, CIFAR-100, SVHN, DTD, FLOWERS102, OXFORDIIITPET이며, 대상 데이터셋을 제외한 데이터셋 에서 학습된 네 개의 모델을 선정한 뒤 모델의 마지막 선형 레이어만을 5 에포크 동안 학습률 0.01로 학습하 여 대상 데이터셋으로 전이 학습을 진행하였다.
그 후, 개별 모델의 전이 학습 성능을 대상 테스트 세트를 통해 확인한 뒤, 모델 출력 조합기를 학습률 0.01로 10 에포크 동안 학습하고 각 에포크별 대상 테스트 세트 성능을 측정하였다. 모든 학습에서 경사하강 법의 모멘텀(momentum)은 0.9로 설정되었으며, 가중치 감쇠(weight decay)는 5e-4로 설정되었다. 전이 학습이 진행될 대상 데이터셋을 제외한 데이터를 학습한 모델 9개 중 동일한 n개의 모델을 융합하는 조합은 4개 또 는 5개를 융합하는 경우가 가장 많아, 대표성이 있는 실험 조건으로 판단된다.
2. 제안된 심층 모델 융합 기법의 성능향상 유무 실험 결과
<Table 1>에는 대상 데이터셋 CIFAR-10, CIFAR-100, SVHN, DTD, FLOWERS102, OXFORDIIITPET에 대한 일반 전이 학습 및 제안된 심층 모델 융합을 접목한 전이 학습의 실험 결과가 정리되어 있다. Table 1의 첫 번째 열(column)은 전이 학습에 사용된 데이터셋을 나타내며, 두 번째 열은 모델 융합 기법이 이용되지 않았 을 때 선형 레이어(linear layer)를 재학습하는 방식으로 전이 학습된 모델들 중 가장 높은 분류 정확도 (classification accuracy)를 보이는 모델의 테스트 세트(test set) 분류 정확도를 표시하고 있다. 세 번째 열에는 4개의 모델 출력을 융합하여 테스트 세트에서 분류를 진행했을 때의 분류 정확도가 표시되며, 괄호 안의 값 은 분류 정확도 향상분을 나타낸다.
<Table 1>
Target dataset | transfer learning without model fusion(best accuracy among four chosen models) | transfer learning combined with model fusion (acc) |
---|---|---|
CIFAR-10 | 0.4318 | 0.4933 (6.16%p↑) |
CIFAR-100 | 0.2531 | 0.3324 (7.93%p↑) |
SVHN | 0.4394 | 0.4793 (3.99%p↑) |
DTD | 0.2133 | 0.2548 (4.15%p↑) |
FLOWERS102 | 0.2750 | 0.3401 (6.51%p↑) |
OXFORDIIITPET | 0.1986 | 0.2288 (3.02%p↑) |
제안된 손실 함수를 사용하지 않은 심층 모델 융합을 전이 학습에 적용한 실험 결과는 별도로 표시되지 않았다. 앞서 언급했듯이, 해당 환경에서의 실험 결과는 모델 출력 조합기가 4개의 전이 학습된 모델 중 평 균 성능이 가장 좋은 모델에 입력 데이터와 상관없이 1에 가까운 가중치를 할당하여, 사실상 모델 융합 기법 을 적용하지 않은 것과 동일한 결과를 보여 제외되었다.
<Table 1>의 모든 실험 결과는 10개의 사전 학습된 모델 중 4개를 선택해 전이 학습을 수행한 모든 조합 의 평균값을 계산하여 표기하였다. 각각의 대상 데이터셋에 대한 실험은 NVIDIA GeForce RTX 3080 그래픽 카드를 사용해 데이터셋별로 최소 200시간에서 최대 340시간의 시뮬레이션을 통해 수행되었다.
<Table 1>의 실험 결과를 보면, 전이 학습이 본 연구에서 제안한 심층 모델 융합 기법과 결합될 경우, 최 소 3%에서 최대 7.9%의 분류 정확도 상승 효과를 보이는 것을 확인하였다.
3. 제안된 손실함수의 하이퍼 파라메터 값에 따른 심층 모델 융합 기법의 성능 변화
수식 (2)의 두 번째 항은 모델 출력 조합기가 어느 한 모델의 출력에 과도하게 가중치를 할당하는 것을 방 지하는 역할을 하므로, 일종의 정규화(regularization) 역할을 한다고 볼 수 있다. 정규화는 인공지능 모델이 학 습 데이터에 과적합(overfitting)되는 것을 막아, 학습에 사용되지 않은 데이터에 대한 일반화 성능을 높이는 기법이다. 수식 (2)에서 제안된 손실 함수는 두 번째 항에 하이퍼파라메터 α 를 곱하여 모델 출력 조합기의 확률 분포와 다른 전이 학습된 모델 출력 간의 교차 엔트로피 손실 값을 구한다. 이 손실 함수의 두 번째 항 의 α값에 변화를 주는 것으로 모델 출력 조합기가 모든 융합될 모델들의 출력을 얼마나 균등하게 사용하는 지 그 정도의 조절이 가능하다.
이 하이퍼 파라메터의 조정은 매우 중요한데, 융합되는 모델의 수가 증가할수록 동일한 α에 대하여 두 번 째 항의 값과 영향이 커지기 때문이다. 이 점을 고려하여 α의 값을 융합될 모델의 개수에 따라 적절히 조정 해야 한다. 이에 따라, 본 단락에서는 융합되는 모델의 수를 9개로 늘리고, α값을 0.1, 0.3, 1로 설정했을 경 우의 모델 출력 융합기의 성능을 테스트해보기로 한다.
본 단락에서 실시한 실험은 3단원에서 언급한 10개의 데이터셋 중 하나를 대상 데이터셋으로 선택한 뒤, 나머지 9개의 데이터셋에서 학습된 9개의 모델을 각각 대상 데이터셋에 대해 2개의 에포크(epoch) 동안 전이 학습한 후, 모든 전이 학습된 9개의 모델 출력을 조합하는 출력 조합기를 10개의 에포크 동안 학습한 뒤 테 스트 세트에서 출력 조합기를 평가하였다.
<Table 2>에는 9개의 전이 학습된 모델 중 가장 높은 성능을 보인 모델의 성능값과, α =0.1, 0.3, 1로 설정 했을 때 학습된 모델 출력 조합기를 이용한 심층 모델 융합 기법의 성능이 기록되어 있다(각 대상 데이터셋 에서 가장 높은 성능을 보인 항목은 굵게 표시됨).
<Table 2>
Target dataset | best transfer model | model fusion, α=1 | model fusion, α =1/3 | model fusion, α =1/10 |
---|---|---|---|---|
CIFAR-10 | 0.7445 | 0.6840(6.05%p ↓) | 0.7672(2.27%p ↑) | 0.7504(0.59%p ↑) |
CIFAR-100 | 0.2682 | 0.3656(9.74%p ↑) | 0.3918(12.36%p ↑) | 0.3769(10.87%p ↑) |
SVHN | 0.5056 | 0.4826(2.3%p ↓) | 0.5982(9.26%p ↑) | 0.5540(4.84%p ↑) |
DTD | 0.2348 | 0.2628(2.9%p ↑) | 0.2750(4.2%p ↑) | 0.2920(5.7%p ↑) |
FLOWERS102 | 0.2207 | 0.1970(2.37%p ↓) | 0.3075(8.68%p ↑) | 0.2877(6.7%p ↑) |
FOOD101 | 0.1986 | 0.1970(0.16%p ↓) | 0.2331(3.45%p ↑) | 0.2259(2.73%p ↑) |
OXFORDIIITPET | 0.2411 | 0.3064(6.53%p ↑) | 0.3042(6.31%p ↑) | 0.3004(5.93%p ↑) |
GTSRB | 0.5985 | 0.5993(0.08%p ↑) | 0.6310(3.25%p ↑) | 0.6279(2.94%p ↑) |
α 값을 1로 설정하여 두 번째 항의 영향력을 키우고 출력 조합기가 모든 융합되는 모델의 출력을 균등하 게 사용하도록 강제한 경우, 출력 조합기의 성능이 가장 전이 학습이 잘된 모델보다 낮아지는 경우가 발생하 는 것을 확인할 수 있었다. 반면, α값을 1보다 낮게 설정한 실험 결과에서는 심층 모델 융합의 성능이 크게 향상된 것을 <Table 2>에서 확인할 수 있다.
이러한 결과는 정규화 항 α의 값이 출력 조합기가 가장 잘 학습된 모델을 단순히 모방하지 않도록 충분 한 강도를 유지해야 하는 동시에, 출력 조합기의 자유도를 과도하게 제한하지 않도록 지나치게 높지 않은 값 으로 설정되어야 함을 보여준다.
4. ResNet-50 모델과 선형 레이어 학습 방식의 채택으로 인한 실험의 한계와 의의
본 연구에서는 전이 학습 방법으로 사전 학습된 ResNet-50 모델의 마지막 선형 레이어만을 대상 데이터셋 에 전이 학습하는 방식을 선택하였다. ResNet-50 모델은 여러 전이 학습 연구에서 널리 사용되는 모델이나 (Li et al., 2021;Nguyen et al., 2020), 절대적으로 학습 용량(capacity)이 크다고는 볼 수 없으며, 학습 방법 테 스트용 모델로 적합하다.
또한, 본 연구에서 사용된 선형 레이어만을 대상 데이터셋에 재학습하는 전이 학습 방식은 전이 학습된 모델의 모든 파라미터를 재학습하는 fine-tuning 방식에 비해 대상 도메인에서의 성능이 떨어지는 것이 일반 적이다(Nguyen et al., 2020). 이에 따라 본 실험에서 전이 학습된 모델들과 그 결과값을 합성한 모델 출력 합 성기의 클래스 예측 정확도 역시 <Table 1>과 <Table 2>에서 확인할 수 있듯이 높은 수준은 아니었다.
비록 학습 용량(capacity)이 크지 않은 ResNet-50 모델과 선형 레이어만을 재학습하여 전이 학습된 모델들 의 융합 결과의 절대적인 성능이 높지 않더라도, 본 연구에서 제안하는 모델 출력 융합 기법의 의의는 전이 학습된 개별 모델의 성능에 추가적인 성능 향상을 10 에포크 이내라는 비교적 짧은 학습 과정으로 실현할 수 있다는 점에 있다고 볼 수 있다.
따라서 fine-tuning 기법으로 전이 학습된 모델들에 본 연구에서 제안하는 모델 융합 기법을 접목함으로써 절대적인 성능 문제를 해결할 수 있을 것으로 기대되며(Nguyen et al., 2020), 실제로 그러한 실험을 수행하는 것은 의미 있는 추가 연구 방향이 될 수 있을 것이다.
Ⅴ. 결 론
본 연구에서는 기존 전이 학습 기법의 한계를 극복하기 위해 여러 전이 학습 모델의 출력을 융합하여 개별 모델 성능을 초월하는 새로운 접근법을 제안하였다. 제안된 기법은 모델 출력 조합기라는 인공신경망 구조를 활용해 전이 학습된 모델들의 클래스별 확률 분포(class-wise probability distribution)를 볼록 조합(convex combination) 형태로 결합함으로써 최적의 단일 출력을 생성하고 분류(classification) 성능을 향상시키는 방식이다.
ResNet-50 모델과 선형 레이어 재학습(linear layer retraining) 방식을 활용한 실험을 통해, 제안된 방법이 개 별 전이 학습 모델 중 최고 성능 모델보다 높은 분류 성능을 달성함을 확인하였다. 특히, 새로운 손실 함수 를 통해 모델 출력 조합기의 학습을 가능하게 하였으며, 이 과정에서 손실 함수 내부의 하이퍼파라미터 값 설정이 모델 출력 조합기의 성능에 중요한 영향을 미친다는 사실을 실험적으로 확인하였다.
본 연구는 전이 학습 모델의 융합을 통해 이질적인 구조의 모델이 주어진 상황에서도 적은 컴퓨팅 자원 소모만으로 개별 전이 학습 모델의 최고 성능을 상회하는 분류 성능을 달성할 수 있음을 보여주었다는 점에 서 학문적, 실용적 의의를 가진다. 다만, 본 연구는 상대적으로 단순한 ResNet-50 모델과 선형 레이어 재학습 방식을 기반으로 한 실험에 한정되어 있어 절대적인 성능 수치에서는 한계를 지닌다. 따라서 향후 연구에서 는 보다 복잡한 인공신경망 구조와 고급 전이 학습 방식을 활용한 실험이 필요하다.
그럼에도 불구하고, 본 연구에서 제안된 접근법은 모델 융합을 통한 전이 학습 성능 향상의 가능성을 성 공적으로 입증하였으며, 다양한 응용 분야에서 활용될 수 있는 잠재력을 보유하고 있다. 이는 인공지능 분야 에서 전이 학습 기법의 확장과 모델 융합 기술의 실질적인 적용에 기여할 수 있을 것으로 기대된다. 특히, 안정적인 성능 확보를 위해 대규모 데이터가 요구되며, 데이터 수집 및 라벨링에 큰 비용이 드는 자율주행 자동차 AI 기술에 효과적으로 적용될 수 있을 것으로 생각된다.