[CVPR 2024] D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection

안녕하세요 정의철 연구원입니다. 이번에 제가 소개할 논문은 KCCV 2024 poster 논문들 중 하나로 RGB에서 열화상 도메인으로의 객체 감지에 대한 도메인 적응 문제에 대해 연구한 논문입니다. 그럼 바로 리뷰 시작하겠습니다.

1. Introduction

Convolutional Neural Network (CNN)의 중요한 성공 이후, 이는 자연스럽게 CNN 기반 객체 탐지의 최근 발전으로 이어졌습니다. 이러한 발전은 자율 주행, 감시, 인간 활동 인식과 같은 다양한 실제 응용 분야에 대한 잠재력을 지니고 있습니다. 이러한 성공의 주요 요인을 반영해보면, 두 가지 중요한 요소가 있습니다.: 첫째는 효율적인 네트워크 아키텍처의 개발과 둘째는 지도 학습을 위한 충분한 수의 훈련 가능한 RGB 이미지와 이에 상응하는 supervision signals 의 가용성입니다. 주목할 점은 RGB 카메라가 특히 야간에 가시광 센서가 충분하지 않은 시나리오에서 신뢰할 수 있는 이미징을 제공하는 데 어려움을 겪는다는 것입니다. 반면에, 열화상 카메라는 물체에서 방출되는 열을 감지하여 어둠, 연기, 시야를 방해하는 환경에서도 효과적으로 작동할 수 있는 큰 이점을 지니고 있습니다. 이러한 능력은 야간 감시, 수색 및 구조 작업, 야생 동물 모니터링, 모든 날씨 조건에서의 자율 주행 시스템 등 다양한 응용 분야에서 필수적입니다.

열화상 이미지 기반 객체 탐지를 탐구함에 따라 독특한 과제들이 드러납니다. 그 중에서도 가장 중요한 것은 고성능 탐지 모델을 훈련하기 위해 주석이 달린 열화상 데이터셋의 부족입니다. RGB 객체 이미지에 대한 풍부한 주석에 비해, 열화상 데이터셋은 현저히 제한적이며, 이는 충분한 훈련 이미지를 사용하여 고성능 열화상 탐지 모델의 발전에 도전을 제기합니다. 열화상 이미지의 시각적 특징은 RGB 이미지와 크게 다르며, 이는 도메인 이동 문제를 초래합니다. 이 불일치는 가시광 데이터셋에서 훈련된 모델을 열화상 이미지에 적용할 때 성능 저하를 유발합니다. 따라서 이러한 과제를 해결하기 위해서는 열화상 카메라의 고유한 특성을 활용할 수 있는 효과적인 객체 탐지 시스템을 구축하기 위한 전문화된 훈련 및 적응 기술이 필요합니다.

이 논문에서 저자는 도메인 이동 문제를 완화하기 위해 Unsupervised Domain Adaptation (UDA) 방법을 활용하여 소스 도메인(e.g., RGB 이미지)에서 타겟 도메인(e.g., 열화상 이미지)으로의 적응을 시도합니다. 저자는 UDA를 객체 탐지에 적용하는 데 중점을 두었으며, 이는 소스와 타겟 도메인 간의 불일치를 최소화하고, 타겟 데이터에 대한 노력이 많이 드는 라벨링 없이 모델 성능을 향상시키는 것을 목표로 합니다. 이 논문에서는 실시간 응용을 위해 일반적으로 더 빠른 FCOS와 같은 One-Stage Object Detection 방법에 중점을 두었습니다. 이는 자율 주행과 같은 응용 프로그램에서 라벨이 지정된 열화상 이미지를 얻는 것이 시간 소모적이고 비용이 많이 들기 때문에 특히 중요합니다. 앞서 언급한 방법들이 주로 RGB 이미지에 기반한 전통적인 UDA 방법을 사용했지만, 이들은 RGB에서 열화상 이미지로의 UDA의 근본적인 문제를 해결하는 데 부족합니다. 그림 1 (a)에 나타난 것처럼, 이는 두 RGB 도메인 간보다 RGB와 열화상 도메인 간의 큰 차이에서 비롯됩니다.

이 문제를 해결하기 위해, 저자는 RGB와 열화상 도메인 간의 도메인 적응 객체 탐지를 위한 Distinctive Dual-Domain Teacher (D3T)를 사용하는 새로운 Mean Teacher (MT) 프레임워크를 제안합니다. 이전의 MT 기반 객체 탐지(e.g., single teacher and single student)와 달리, 저자는 RGB 또는 열화상 도메인 중 하나에 특화된 두 개의 teacher 모델을 사용하여 상당한 불일치가 있는 경우 도메인별 정보를 보다 효과적으로 학습할 수 있도록 합니다. 이 D3T 프레임워크는 도메인 간의 지그재그 학습 방법(그림 1 (b) )과 결합되어 단일 student에게 도메인별 가중치를 동적으로 업데이트하면서 RGB에서 열화상 도메인으로 점진적인 전환을 가능하게 합니다. teacher 네트워크 선택을 지그재그 방식으로 진행함으로써, 초기 훈련 중에는 소스 라벨로부터 사전 훈련된 RGB teacher가 타겟에 대해 상대적으로 정확한 pseudo-label을 예측할 가능성이 더 높고, 훈련이 진행됨에 따라 열화상 teacher가 더 나은 성능을 발휘한다는 점을 활용합니다. 이를 달성하기 위해, 저자는 훈련 초기 단계에서 RGB teacher를 더 많이 선택하고 훈련이 진행됨에 따라 점차적으로 열화상 teacher 에게 비중을 두는 방향으로 선택 빈도를 조정합니다. 마지막으로, 저자는 FLIR와 KAIST와 같은 잘 알려진 열화상 데이터셋을 사용하여 새로 확립된 평가 프로토콜을 통해 저자의 방법의 성능을 검증합니다.

저자의 contribution는 다음과 같이 요약됩니다:

  • 저자는 RGB와 열화상 도메인 간의 효과적인 도메인 적응 객체 탐지를 위한 두 가지 구별된 도메인 teacher를 활용하는 D3T 프레임워크를 소개합니다.
  • 저자의 지그재그 학습 방법은 도메인 간 점진적인 전환을 촉진하며, 도메인별 가중치를 동적으로 업데이트합니다. 이는 훈련 중 각 teacher의 강점을 활용하여 적응을 최적화합니다.
  • 저자는 FLIR 및 KAIST와 같은 잘 알려진 열화상 데이터셋을 사용하여 새로운 실험 프로토콜을 구축하고, 다른 방법과 비교하여 저자의 방법의 우수성을 입증했습니다.

2. Related Work

2.1. 객체 탐지를 위한 비지도 도메인 적응 (UDA for Object Detection)

객체 탐지를 위한 비지도 도메인 적응(UDA)은 레이블이 있는 소스 도메인에서 레이블이 없는 타겟 도메인으로 탐지기를 적응시키는 데 중점을 둡니다. UDA의 주요 방법은 도메인 정렬(domain alignment)과 자기 훈련(self-training)으로 나눌 수 있습니다. 도메인 정렬 기법에는 스타일 전이, 적대적 훈련, 그래프 매칭 등이 있으며, 이들은 소스 도메인과 타겟 도메인 간의 특징 또는 시각적 스타일을 정렬하여 도메인 불일치를 최소화하려고 합니다. 그러나 이러한 방법들은 특징 전이성과 구별 가능성 간의 균형을 유지하는 데 어려움을 겪습니다. 반면, 자기 훈련 방법은 타겟 도메인에서의 고유 정보를 활용합니다. UMT는 소스 도메인과 유사한 이미지를 사용하여 가짜 레이블을 생성하며, HT는 분류 및 위치 측정의 일관성을 강조하고 새로운 샘플 가중치 조정 방식을 사용합니다. 통합된 CMT 프레임워크는 도메인 적응 객체 탐지에서 대비 학습을 포함한 자기 훈련을 사용합니다. 이는 타겟 도메인 레이블 없이 가짜 레이블을 사용하여 객체 수준 특징을 최적화하여 타겟 도메인 성능을 향상시킵니다.

2.2. 도메인 적응 열화상 객체 탐지 (Domain Adaptive Thermal Object Detection)

도메인 적응 열화상 객체 탐지는 특히 열악한 조명 조건에서 열화상 이미지의 객체 탐지를 향상시키는 것을 목표로 합니다. 이 분야는 일반적으로 가시광선 데이터셋을 위해 설계된 객체 탐지기의 제한점을 다룹니다. 이러한 탐지기들은 일반적으로 조명이 좋지 않거나 가변적인 환경에서 성능이 저하됩니다. UDA를 활용하여, 이 방법들은 가시광선 스펙트럼에서 레이블이 있는 데이터를 사용하여 열화상 스펙트럼에서 탐지를 개선하려고 합니다. Meta-UDA 접근 방식[40]은 레이블이 있는 가시광선 도메인 데이터를 사용하여 더 나은 도메인 적응을 위한 알고리즘 독립적인 메타 학습 프레임워크를 활용하여 주목받고 있습니다. Nakamura et al.[31]은 CutMix를 사용하여 독특한 데이터 융합 전략을 소개합니다. 이 접근법은 타겟 이미지를 소스 이미지에 통합하고 적대적 학습과 결합하여 객체 탐지 효능을 향상시킵니다. 이전 방법들은 RGB 이미지에 대한 UDA만 활용하며, RGB와 열화상 도메인 간의 큰 격차를 연결하는 것이 어렵습니다. 이를 극복하기 위해, 저자는 RGB에서 열화상 도메인 적응을 위해 특별히 설계된 D3T 프레임워크와 지그재그 학습 방법을 제안합니다.

3. Method

3.1. MT Framework with A Single Teacher

MT 프레임워크는 도메인 adaptation의 패러다임을 나타내며, 특히 객체 탐지 작업의 맥락에서 적용됩니다. 이 접근법은 소스 도메인에서 레이블이 있는 데이터로부터 지식을 학습하고 이를 레이블이 없는 타겟 도메인에 adaptation시킵니다. 또한, teacher-student 상호 학습 방법을 사용하여 탐지 정확성을 향상시킵니다.

Overview: MT 프레임워크의 핵심 아이디어는 교사 모델과 학생 모델, 동일한 아키텍처를 가진 두 개의 검출기로 구성된 모델 아키텍처입니다. teacher 모델은 소스 도메인에서 레이블이 있는 데이터로 사전 훈련된 후 타겟 도메인 데이터에 대한 pseudo-labels을 생성합니다. student 모델은 이 pseudo-labels을 사용하여 최적화되며, student 모델의 가중치로 teacher 모델을 업데이트합니다. teacher 모델은 다양한 time steps에서 student 모델의 앙상블로 간주될 수 있어 더 높은 정확도와 더 나은 품질의 pseudo-labels을 생성합니다.

Training method: MT 프레임워크는 소스 도메인과 타겟 도메인 데이터를 동시에 사용하여 훈련을 진행합니다. 소스 도메인 데이터는 강한 데이터 증강과 약한 데이터 증강이 적용된 후, 실제 레이블로 student 모델의 supervised training에 사용됩니다. 타겟 도메인 데이터는 teacher 모델의 입력 이미지에 대해 약한 증강을 사용하여 신뢰할 수 있는 pseudo-labels을 보장하고, student 모델의 입력 이미지에 대해 강한 증강을 사용하여 모델의 다양성을 향상시킵니다. 이로 인해 teacher 모델은 다양한 시간 단계에서 student 모델의 가중치로 업데이트되며 향상됩니다.

MT 프레임워크의 전체 손실 함수는 다음과 같이 정의됩니다:

여기서 Lsrc는 소스 도메인에서의 손실로, 분류 손실과 위치 손실을 포함하며, Ltgt는 타겟 도메인에서의 손실로, pseudo-labels을 사용하여 유사하게 계산됩니다.

teacher 파라미터 업데이트: MT 프레임워크는 지수 이동 평균(EMA)을 통해 teacher 모델의 가중치를 student 모델의 가중치로 업데이트합니다. 이 점진적인 업데이트 과정은 teacher 모델이 다양한 시간 단계의 student 모델의 앙상블이 되어 더 높은 정확도와 더 나은 품질의 pseudo-labels을 생성합니다. 업데이트는 다음과 같이 수행됩니다:

여기서 θT는 teacher 모델의 가중치, θS는 student 모델의 가중치, α는 EMA 계수입니다. 실험에서는 α를 0.9996으로 설정합니다.

3.2. Distinctive Dual-Domain Teacher, D3T

UDA는 일반적으로 RGB 이미지 도메인 간의 adaptation을 위해 단일 teacher 모델을 사용하는 MT 프레임워크를 사용합니다. 예를 들어, Cityscapes[7]에서 Foggy Cityscapes 데이터셋[36]으로의 adaptation이 이에 해당합니다. 그러나 RGB와 열화상 도메인 간의 도메인 격차는 훨씬 더 큽니다. 따라서 단일 teacher 모델을 두 도메인에 모두 사용하는 것은 부정적인 영향을 미치고 모델의 효율성을 감소시킬 수 있습니다. 이 문제를 해결하기 위해, 저자는 D3T라는 새로운 접근 방식을 도입합니다. 이 방법은 RGB 도메인과 열화상 도메인 각각에 대해 두 개의 개별 teacher 모델을 포함합니다. 두 teacher 모델은 각각의 도메인에 대한 전문 지식을 활용하고 이 지식을 student 모델로 전달합니다. D3T의 개요는 그림 2에 요약되어 있습니다.

Separate teachers: 저자의 방법의 핵심 아이디어는 RGB teacher와 열화상 teacher라는 두 개의 별도 teacher를 사용하는 것입니다. 각 teacher 모델은 해당 도메인에 대해만 훈련되어 student 모델의 가중치를 업데이트합니다. 이로 인해 각 teacher는 해당 도메인의 전문 지식을 습득하고 다른 도메인에 의해 부정적인 영향을 받지 않습니다. D3T 모델은 열화상 이미지로 훈련되고 해당 열화상 teacher의 가중치를 업데이트합니다. 비슷하게, RGB 도메인으로 훈련된 모델은 RGB teacher 모델의 가중치를 업데이트합니다.

Learning knowledge from Dual-Teachers: D3T 모델의 각 훈련 단계에서, 오직 하나의 도메인, 즉 RGB 또는 열화상 도메인에서 이미지를 사용합니다. 그러나 두 teacher의 결합된 지식을 활용하고 두 도메인 간의 domain shift를 최소화하기 위해, 열화상 teacher와 RGB teacher 모두 pseudo-labels을 생성하는 데 사용됩니다. 듀얼 teacher 학습 방법은 두 teacher의 지식을 활용할 뿐만 아니라 pseudo-labels의 신뢰성을 높여 student 모델의 훈련을 보다 효과적으로 만듭니다. 손실 함수는 다음과 같이 정의됩니다:

여기서 Lthr는 열화상 도메인에서의 손실을 나타내며, Lrgb sup는 RGB 도메인에서의 supervised loss을 나타냅니다. Ithr와 Irgb는 각각 열화상과 RGB 도메인에서의 이미지를 나타냅니다. fS는 student 모델로, 입력 이미지에 대한 예측을 생성합니다. fTthr와 fTrgb는 각각 열화상 도메인과 RGB 도메인에 대한 teacher 모델로, student 모델을 훈련시키기 위해 pseudo-labels을 생성합니다. Y는 RGB 소스 도메인의 이미지에 대한 실제 레이블을 나타냅니다. 손실 함수는 비지도 손실 Lun과 감독 손실 Lsup을 포함합니다

3.3. RGB-열화상 도메인 간 지그재그 학습 (Zigzag Learning Across RGB-Thermal Domains)

전통적인 UDA 방법에서 객체 탐지는 소스 도메인과 타겟 도메인을 동시에 훈련하는 경우가 많습니다. 그러나 RGB와 열화상 도메인 간의 상당한 도메인 격차로 인해 동시에 훈련하는 것이 비효율적입니다. 저자는 RGB에서 열화상으로의 도메인 adaptation을 위한 훈련 접근법으로 지그재그 학습(Zigzag Learning)을 제안합니다.

  • 구별된 훈련 (Distinctive Training): 지그재그 학습은 RGB 도메인과 열화상 도메인에 대해 분리되고 교대로 훈련을 수행하여 각 도메인의 고유 지식을 효과적으로 학습합니다. 특정 도메인에 대해 훈련할 때마다 해당 도메인의 teacher 모델에 가중치를 EMA를 사용하여 업데이트합니다. 이러한 도메인 특정 훈련 및 가중치 업데이트 전략은 RGB와 열화상 도메인 간의 상당한 도메인 격차가 교차 도메인 간 부정적인 영향을 초래하지 않도록 보장합니다.
  • 점진적인 훈련 전환 (Progressive Training Transition): 지그재그 학습 방법의 개념은 레이블이 있는 RGB 도메인에서 지식을 학습하는 데 중점을 두고 시작하여 점진적으로 열화상 도메인으로 전환되는 훈련 과정입니다. 이 과정에서 열화상 이미지에 대한 훈련 빈도를 점진적으로 증가시키고 RGB 이미지에 대한 훈련 빈도는 동시에 줄입니다. 이러한 점진적인 전환은 RGB에서 열화상 도메인으로의 매끄러운 도메인 adaptation을 촉진하며 열화상 도메인에서의 성능을 향상시킵니다. 예를 들어, 처음에는 레이블이 없는 열화상 도메인을 한 번 훈련하고, 레이블이 있는 RGB 도메인은 세 번 훈련하여 RGB 도메인에서 지식을 습득하는 데 집중합니다. 그 후, RGB 도메인에서의 훈련 빈도를 줄이고 열화상 도메인에서의 훈련 빈도를 증가시켜 RGB에서 열화상으로의 도메인 adaptation을 촉진합니다. RGB와 열화상 도메인에서의 훈련 반복 횟수는 다음과 같이 정의됩니다:

  • 여기서 Ztthr와 Ztrgb는 각각 열화상 도메인과 RGB 도메인에서의 훈련 반복 횟수입니다. β는 각 단계에서 조정된 반복 횟수를 나타냅니다.

3.4. teacher 모델로부터의 지식 통합 (Incorporating Knowledge from Teacher Models)

저자의 도메인 adaptation 기술의 효과에 대한 실험은 RGB 도메인 내에서 ground truth 레이블만으로 훈련할 때의 한계를 나타냅니다. 이 섹션에서는 한계점을 설명하고, 지식 전이를 향상시키기 위한 개선된 전략을 제안합니다.

단순한 ground truth 레이블로 훈련의 한계 (Limitations of Training with Only Ground Truth Labels): ground truth 레이블만을 사용하여 student 모델을 훈련하는 것은 입력 이미지의 강한 증강으로 인해 student 모델이 효과적으로 학습하기 어렵다는 도전 과제가 있습니다. 이는 student 모델이 teacher 모델로부터의 지식 전이에서 ground truth 레이블과 pseudo-labels의 조합이 더 효과적이라는 첫 번째 관찰로 이어집니다. 두 번째로, RGB 도메인에서 ground truth 레이블만을 사용하여 훈련하는 것은 열화상 teacher 모델이 합성한 지식을 활용하지 않으므로 RGB에서 열화상 도메인으로의 도메인 adaptation 효과를 감소시킵니다. 이러한 문제를 해결하기 위해, 저자는 RGB 도메인에서의 훈련에 pseudo-labels와 ground truth 레이블을 전략적으로 통합합니다.

Pseudo-Label 통합 (Pseudo-Label Integration): 그러나 pseudo-label을 직접 사용하는 것은 결과가 좋지 않습니다. 표 6에서 설명된 실험은 pseudo-label을 ground truth 레이블과 동일한 방식(λ가 1인 경우)으로 사용하는 것이 모델 성능의 상당한 감소를 초래한다는 것을 나타냅니다. 섹션 3.3에서와 같이, 처음에는 ground truth 레이블로 훈련에 집중하고, 이후 pseudo-label을 두 teacher로부터 통합하여 ground truth 레이블과 함께 훈련 과정에 포함시킵니다.

이 접근법은 다음과 같은 방정식으로 정의됩니다:

여기서 λ는 RGB 도메인에서의 훈련 동안 pseudo-label이 사용되는 정도를 조절하는 하이퍼파라미터입니다. 이 하이퍼파라미터는 pseudo-label의 영향을 균형 있게 조정하여 student 모델이 teacher 모델이 제공하는 지식을 부정적인 영향을 받지 않고 얻을 수 있도록 합니다. 비지도 손실 Lun은 3.2와 유사한 방식으로 사용됩니다.

D3T 모델의 전체 손실은 다음과 같이 공식화됩니다:

4.Experiment

4.1. 데이터셋 및 평가 프로토콜

RGB→열화상 FLIR : 저자 연구에서는 이전의 FLIR 데이터셋 대신 업데이트된 FLIR 데이터셋을 선택했습니다. 이전 데이터셋은 많은 레이블링 오류가 있었기 때문입니다. 이 데이터셋에는 5,142개의 정밀하게 정렬된 컬러 및 열화상 이미지 쌍이 포함되어 있으며, 이 중 4,129개는 train에, 1,013개는 test에 사용됩니다. 이 이미지는 자동차 운전자의 시점에서 촬영되었으며, 주간 및 야간 장면이 포함되어 있습니다. 저자는 평가의 정확성을 보장하기 위해 ‘사람’, ‘자동차’, ‘자전거’와 같은 완전한 레이블이 있는 객체만을 대상으로 합니다.

KAIST [19]: KAIST 데이터셋은 95,328개의 컬러 및 열화상 이미지 쌍을 포함하고 있습니다. 이 버전에는 RGB-열화상 이미지 쌍 8,892개가 학습에 사용되며, 2,252개는 평가 목적으로 사용됩니다.

RGB→열화상 FLIR 평가: FLIR 데이터셋은 정밀하게 정렬된 이미지 쌍으로 알려져 있지만, 모델이 과적합할 수 있으며 도메인 적응 알고리즘의 실제 성능을 정확하게 반영하지 않을 수 있습니다. 이를 해결하기 위해 저자는 분리된 이미지 학습 접근 방식을 도입합니다. 첫 번째 2,064개의 RGB 이미지를 source 도메인으로 사용하고, 별도의 2,064개의 열화상 이미지를 target 도메인으로 사용하여 학습을 진행합니다.

RGB→열화상 KAIST 평가: FLIR 데이터셋과 마찬가지로, KAIST 데이터셋에서도 분리된 이미지 학습 접근 방식을 적용합니다. 처음 4,446개의 RGB 이미지를 source 도메인으로 선택하고, 그 다음 4,446개의 열화상 이미지를 target 도메인으로 선택하여 학습에 사용합니다.

4.2. 구현 세부 사항

저자는 FLIR 데이터셋에 대해 VGG-16을 백본으로하는 FCOS detector를, KAIST 데이터셋에 대해 ResNet-50을 백본으로하는 FCOS detector 사용하여 실험을 진행합니다. 실험은 4개의 NVIDIA RTX A5000 GPU를 사용하여 배치 크기 8로 실행됩니다. 학습률은 0.005로 설정하고, 학습률 감쇠는 적용하지 않습니다. 섹션 3.3에서 FLIR 데이터셋에 대해 Zthr와 Zrgb는 각각 50과 150으로 초기화되며, 매 10k 반복마다 β 값 50에 의해 조정됩니다. KAIST 데이터셋의 경우, Zthr, Zrgb, 및 β는 각각 25, 75, 및 25로 초기화되며, 각 조정 단계가 진행됩니다.

4.3. 성능 비교

RGB→열화상 FLIR 평가: FLIR 데이터셋에서 RGB를 열화상 이미지로 변환한 adaption 결과를 표 1에 나타내었습니다. 제안된 D3T 방법은 도메인 adaption 분야에서 주요 기술들보다 뛰어난 성능을 보여주었습니다. 특히, D3T 방법은 student-teacher 프레임워크를 활용하는 HT 알고리즘을 평균 정밀도(mAP)에서 3.49% 초과하여 성능을 개선했습니다. 주목할 만한 점은 HT 자체가 student-teacher 접근 방식을 사용하지 않는 EPM 방법을 평균 정밀도에서 21.21% 초과하여 성능을 개선했으며, 저자 연구에서의 발전은 RGB와 열화상 도메인 간의 상당한 도메인 갭을 적절히 해결하지 못한 이전 알고리즘의 한계를 강조합니다.

RGB→열화상 KAIST 평가: KAIST 데이터셋에서 RGB 이미지를 열화상 이미지로 변환한 도메인 적응 결과를 표 2에 나타내었습니다. D3T 알고리즘은 이 분야의 가장 진보된 알고리즘 중 하나인 HT을 평균 정밀도에서 5.51% 초과한 성능을 보여줍니다. 또한, student-teacher 프레임워크를 사용하지 않는 EPM 알고리즘과 비교했을 때 D3T 방법은 평균 정밀도에서 9.41% 향상된 성과를 보입니다.

4.4. Ablation Experiments

시각화: 그림 3은 D3T 모델의 효과를 보여줍니다. 초기 학습 단계에서 각 teacher는 해당 도메인에 관련된 특정 지식을 보유하고 있습니다. 따라서 teacher들은 그림 3 (a)와 (b)에서 보이는 바와 같이 서로 다른 가상 레이블을 생성했습니다. 최종 학습 단계에서는 두 teacher가 비슷한 고품질의 가상 레이블을 제공하였습니다. 이는 D3T 알고리즘이 모델 효율성을 개선하고 도메인 간의 격차를 좁힌다는 것을 나타냅니다. 이는 그림 1 (b)에서 제시한 개념과 일치합니다. 또한, FLIR 및 KAIST 데이터셋에서의 객체 감지 결과를 그림 4와 5에서 시각적으로 비교하여 D3T 방법의 효과를 보여줍니다.

Effect of zigzag learning across RGB-thermal gap:: 표 5는 FLIR 데이터셋에서 RGB에서 열화상으로의 adaption을 위한 zigzag 학습의 결과를 제시하며, dynamic iteration 설정을 사용합니다. ‘Fix’ 설정은 각 도메인이 동일한 반복 횟수로 학습되는 일관된 학습 체제를 의미하며, 예를 들어 100회입니다. 반면, ‘zigzag’ 설정은 섹션 3.3에서 설명한 바와 같이 RGB 도메인에 집중한 후 점진적으로 열화상 도메인으로 초점을 이동합니다. teacher 선택의 빈도는 학습이 진행됨에 따라 동적으로 변경됩니다. 결과는 ‘zigzag’ 접근 방식이 1.02% 더 높은 mAP를 제공하여 ‘Fix’ 설정 방법보다 효과적임을 보여줍니다.

Effect of incorporating knowledge from teacher mod- els: 표 6은 FLIR 데이터셋에서 pseudo 레이블을 사용하여 학습 능력을 향상시키고 RGB와 열화상 도메인 간의 격차를 줄이는 영향을 보여줍니다. 이 표는 pseudo 레이블 없이 학습한 모델과 고정 λ 하이퍼파라미터, 동적으로 조정되는 λ 하이퍼파라미터를 사용한 모델의 성능을 비교합니다. pseudo레이블을 사용하지 않는 경우 mAP가 68.46%로 나타나며, 실제 레이블과 유사한 pseudo 레이블을 λ 1로 사용하면 성능이 크게 떨어져 55.12%로 감소합니다. 고정 λ 0.1은 mAP를 68.57%로 개선하며, 동적으로 변경되는 λ 0→1은 mAP를 69.30%로 달성하여 가장 좋은 성과를 보여줍니다. 이는 학습 중 pseudo 레이블 사용 수준을 동적으로 조정하는 것이 RGB-열화상 격차를 완화하는 효과적인 전략임을 제시합니다.

Author: 정 의철

2 thoughts on “[CVPR 2024] D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection

  1. 안녕하세요 의철님 좋은 리뷰 감사합니다.
    제가 UDA 분야를 잘 몰라서 리뷰를 읽던 중 개인적인 의견이 담긴 질문이 하나 있습니다.
    D3T 모델의 zigzag 학습 단계에서, RGB와 Thermal 도메인을 가진 Dual-Teacher가 각각 pseudo-labels을 생성하여 student 모델의 UDA 학습을 돕게되는 것으로 이해했는데 여기서 궁금한 점이 생겼습니다. 두 teacher의 결합된 지식을 활용하고 두 도메인 간 domain shift를 최소화하는 게 목적이면 여기다 추가로 우리가 흔히 아는 두 도메인의 feature fusion된 정보에 관한 어떤 loss를 만들어주기만 한다면 student 모델의 supervision으로 주어지는 pseudo-label의 신뢰도가 더욱 올라갈 수도 있을 것 같다고 생각이 드는데, 해당 의견에 대해 의철님은 어떻게 생각하시나요?

    1. 안녕하세요 재찬님 좋은 질문 감사합니다.
      RGB와 Thermal 도메인 각각의 특성이 서로 다른 유용한 정보를 갖고 있어 fusion을 한다면 풍부한 정보를 학습할 수 있고 신뢰도 높은 pseudo-label을 생성할 수 있을 것 같습니다. 하지만 Feature fusion의 추가적인 loss를 도입하면 모델의 복잡성이 증가할 것이고 그 방법이 실제로 효과적인지 검증할려면 여러번의 실험이 필요할 것 같다는 생각이드네요.
      감사합니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다