[CVPR2021 Workshop] Self-training Guided Adversarial Domain Adaptation For Thermal Imagery

본 페이퍼는 MLPD의 확장연구를 위해 찾아본 논문입니다.

문제정의

RGB 이미지는 이미 많은 데이터가 있지만, Thermal은 상대적으로 이용가능한 오픈데이터가 적으며, 이러한 데이터의 부재는 데이터가 중요한 딥러닝 방법론에서는 단점으로 작용됨. 따라서 Thermal 카메라가 RGB 카메라에 비해 조도 변화에 대해 강인한 장점이 있지만 널리 이용되지 않고 있음. 따라서 본 논문에서는 RGB 이미지(Visible spectrum)의 large-scale 데이터셋을 소스 도메인으로, Thermal 이미지를 타겟 도메인으로 사용하여 RGB의 풍부한 데이터셋을 Thermal 영상을 이용한 Task에서도 사용 가능하도록 함.

관련연구

  1. Domain-Adversarial Training of Neural Networks

http://jaejunyoo.blogspot.com/2017/01/domain-adversarial-training-of-neural.html

2. Adversarial Discriminative Domain Adaptation

https://benlee73.tistory.com/38

방법론

본 논문에서 제안하는 방법의 overview

해당 논문의 방법론은 관련연구 (2)에서 많은 부분을 가져왔습니다. 학습 단계를 보면 다음과 같습니다.

먼저 소스 이미지(RGB)를 가지고 일반적인 Classifier 네트워크를 학습합니다. 그래서 해당 과정을 Pre-training이라고 하며, 저자는 MS-COCO 데이터를 이용해 학습했다고 하는데, 아마 학습된 모델을 가져온것 같습니다.

다음으로는 타겟 이미지를 학습합니다. 이때 소스 이미지를 학습해 피처를 추출했단 Source CNN의 파라미터는 freeze 하게 됩니다. 해당 방법론은 관련연구 (2)에서 자세히 알 수 있는데, GAN의 원리를 이용해 Target CNN은 Generator Loss를 사용하여 Discriminator를 잘 속일 수 있도록 학습합니다. 반면 Discriminator는 Source CNN으로 부터 나오는 Feature와 Target CNN으로 부터 나오는 Feature를 잘 구별할 수 있도록 학습합니다. 이러한 학습을 통해서 결론적으로 Target CNN은 Source CNN과 유사한 Feature를 만들도록 학습하게 됩니다.

마지막 단계입니다. 앞서 단계에서 Target CNN은 Source CNN과 유사한 Feature를 만들도록 학습됐습니다. 그렇다면 그러한 Feature를 Source CNN과 함께 학습시켰던 Classifier를 붙인다면 어느정도 분류가 가능합니다. 따라서 Classifier를 통해 예측된 Label을 Pseudo Labels로 사용합니다. 여기서 한가지 가정은 Classifier가 분류에서 높은 confidence를 보인다면 해당 label은 참이라는 가정이 존재합니다. 현재 Target CNN, Discriminator, Classifier는 모두 학습됐으며, freeze 합니다. 그리고 Target Images가 입력으로 들어가면 Classifier는 confidence와 함께 class를 예측하게 됩니다. 동시에 Discriminator도 Target CNN에서 나온 Feature의 도메인 라벨을 예측합니다. Classifier가 높은 confidence로 예측하고 (일정 thershold를 넘기고) 동시에 Discriminator가 헷갈려 RGB 도메인으로 예측했다면 그때 예측된 class label을 pseudo label로 사용하게 됩니다.

본 논문에서는 이렇게 추출된 pseudo label만을 이용하여 모델을 학습시켰다고 합니다.

각 모델의 디테일

실험결과

먼저 실험은 Classification으로 진행했다고 합니다. Source는 MS COCO이고, Target은 FLIR ADAS 데이터셋 입니다. 예시는 아래 그림과 같으며, Classification을 위해 Crop하여 평가하였습니다.

그리고 이러한 Classification 성능을 비교한 표는 아래와 같습니다. 모든 클래스에서 SOTA는 아니지만 그냥 평균으로 SOTA를 달성했다고 합니다.

자신들의 방법에 대한 Ablation study 입니다. Classifier confidence를 가지고 pseudo label을 선정해 학습했을때, Discriminator confidences만 가지고 pseudo label을 선정해 학습했을때, 그리고 두개다 이용해서 앞서 설명한것처럼 높은 confidence와 Discriminator를 속인 pseudo label을 선정해 학습했을때에 대한 결과입니다.

결론

문제정의에서 나타난 이유 처럼 Thermal 이미지 데이터셋의 부재를 해결하기 위한 방법에 대한 요구가 증가하고 있습니다. 본 논문에서는 Classification만 수행하였고, 지난번 초청세미나에서는 Segmentation에 대한 발표가 이어졌습니다. 다음번에는 Detection에 대한 논문이 있는지 찾아보고 세미나를 진행해보겠습니다.

Author: 김 지원

6 thoughts on “[CVPR2021 Workshop] Self-training Guided Adversarial Domain Adaptation For Thermal Imagery

  1. 리뷰 잘 읽었습니다.

    리뷰를 읽을 때는 내용이 잘 이해가 되는 듯 싶었으나 막상 다 읽고 정리해보려 하니 막히는 부분이 존재하네요. 결국 제안하는 논문에서 하고자 하는 것은 입력은 Thermal 영상을 넣었으나 결국엔 RGB input과 유사한 feature를 생성하는 encoder를 만들어서 뒷단의 레이어들이 RGB 영상으로 학습된 weight를 써도 동작에 문제가 없게끔 만드는 것인가요?

    1. 제가 필력이 부족한것 같습니다. 본 논문은 DA를 통해 confidence가 높은 pseudo label을 얻고 이를 통해 classification을 학습하여 성능을 나타내는 논문입니다.

  2. DA 공부한지 얼마되지않았지만, 해당논문을 봤을때 굉장히 나이브하지만 신기하네요. 개인적으로 느끼기에 모델들이 너무 나이브한거 같은데 논문에서 해당아키텍쳐들을 선정한 기준같은 얘기가 잇나요?

  3. 평가에 사용된 데이터 셋을 어떻게 가공했는지에 대한 정보를 더 알 수 있을까요?
    특히 target과 source에 대한 평가가 어떻게 이뤄졌는지 궁금합니다. 경향성을 보니 target이 upper로 보이네요

    1. 제가 질문을 정확히 이해하진 못했지만, 글에서 나타내고 있는것처럼 FLIR셋에 바운딩 박스를 이용해 각 클래스의 이미지를 crop하고 이를 그냥 classification하였습니다

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다