Thermal Object Detection using Domain Adaptation through Style Consistency

해당 논문을 이해하기 위해서는 Multi_style GAN(MS-GAN)에 대해서 알아야한다.

https://openaccess.thecvf.com/content_ECCVW_2018/papers/11132/Zhang_Multi-style_Generative_Network_for_Real-time_Transfer_ECCVW_2018_paper.pdf

MS-GAN에 대해서 설명하자면, Style이 되는 이미지와 content가 되는 이미지를 입력으로 넣으면 CoMatch라는 것을 통해서 content 이미지에 style 이미지의 style이 섞인 새로운 이미지를 새롭게 생성하는 네트워크이다. CycleGAN은 특정 스타일의 소스 이미지로를 변화시켜 새로운 이미지를 생성하지만 MS-GAN은 두 도메인 사이의 gap을 줄이는 동시에 Multi style 변환이 가능하다. MS-GAN은 texture와 edges와 같은 low level feature를 source domain에서 추출하고, target domain의 high level feature는 유지시킨다는 이점이 있다.

input 이미지의 오른쪽 상단에 있는 이미지가 style image이다.

MS-GAN 논문에 대해서는 추후에 자세히 다루는것으로 하고, 다시 해당 논문으로 돌아가면 본 논문도 위에 언급한 이점을 이유로 MS-GAN을 사용한다. 단 해당논문에서는 GAN을 위한 pair 이미지(content-style)는RGB 이미지와 Thermal 이미지다. 아래 그림은 실제 MS-GAN을 통해서 구한 이미지를 나타낸다. RGB-Thermal , Thermal-RGB 조합을 다르게 하였고 이를 구분하기위해서 논문에서는 각각 이름을 RGB(content)-Thermal(style) 의 조합은 CDMT, Thermal(content)-RGB(style)의 조합은 ODSC로 명명하였다.

Object Detection in Thermal Images through Style Consistency (ODSC)

저자는 RGB 도메인에서 Object Detection은 높은 성능을 보이지만 이에 비해서 Thermal도메인에서의 Object Detection 성능은 부족함을 언급하며 MS-GAN을 통해서 새로운 이미지를 생성하고 이 이미지를 이용해 Object Detection을 수행하면 성능을 높일 수 있다고 주장한다. .

우선 Thermal 이미지를 contents로 RGB를 style 설정해 MS-GAN 돌린다. 그리고 MS-GAN로 생성된 이미지를 가지고 Object Detection을 수행한다. 이러한 프레임워크는 아래 그림과 같다.

위에서 제안하는 프레임워크에 대해서 설명하자면 크게 2단계로 나눌 수 있다. 1단계는 MS-GAN 부분이며, Thermal로 구성된 content 이미지와 RGB로 구성된 style 이미지 사이에 low level feautre를 변환하여 style 이미지를 생성한다. 2단계는 이 이미지를 가지고 Object Detection을 수행하는 것이다.

이를 통해 source 도메인인 RGB에서 low level feature를 target 도메인인 Thermal에 전달하여 Thermal 이미지로 Object Detection을 수행하는데 있어서 성능을 높일 수 있다고 저자는 이야기한다.

Cross Domain Model Transfer for Object detection in Thermal Images(CDMT)

보통 detection network는 RGB 이미지로 학습한다. 이처럼 RGB로 학습된 네트워크를 가지고 Thermal 이미지에서 테스트를 진행한다면 학습한 도메인과 평가하는 도메인이 다르기 때문에 성능은 좋지 못하다.

따라서 이를 극복하는 CDMT 방법도 제안하고 있는데, ODSC와는 반대되는 개념이다. 기존처럼 RGB를 이용해 Detection Network를 학습할때, style 이미지로 Thermal을 사용해 Thermal의 low level feature가 섞인 새로운 이미지로 Detection Network를 학습하면 해당 Detection Network는 RGB 뿐만 아니라 Thermal에 대해서도 준수한 성능을 나타낸다고 저자는 이야기한다.

이를 저자는 cross-domain model transfer라고 설명하며 이는 Thermal 이미지의 상황처럼 unlabeled dataset을 위한 weak object detection module로 적용할 수 있다고 설명한다.

실험결과

리뷰

해당 논문은 Thermal Object Detection을 사용하는데 있어서 Domain Adaptation의 이점을 최대한 적용하려고 하고있따. Thermal 이미지로 Object Detection을 수행하는데 있어서 부족한 부분들을 RGB를 style이미지로 활용해 채워주려고 한다. 근데 한가지든 의문은 Thermal 이미지가 Object Detection에 더 강인하지 않나(?)라는 의문이 들었다. 물론 그동안 내가 했던 Thermal Object Detection에 Object가 사람이 한정이라 그럴 수 도 있지만, 해당 논문에서 제시하고 있는 car, bicyle, person도 매한가지 일것 같다. 이러한 기법이 더 유용하려면 Thermal 이미지를 이용한 line detection 같은 부분에 사용되면 뭔가 도움이 되지 않을까 생각했다. 아무튼 GAN을 잘 몰라서 개인적으로 이해하기 어려운 높은 논문이였다. 리뷰를 쓰고있는 지금도 해당 논문에 대해서 옳게 리뷰한것인지 모르겠다.

Author: 김 지원

4 thoughts on “Thermal Object Detection using Domain Adaptation through Style Consistency

  1. GAN에 대한 기본 강의를 들어보시길 추천합니다.

  2. CoMatch라는 것을 통해서 content 이미지에 style 이미지의 style이 섞인 새로운 이미지를 어떻게 만드나요?

    1. 해당 내용은 MSGAN에서 다룬 자세히 살펴보지 않았지만, style 이미지와 content 이미지의 feature맵을 통계적으로 동일시시키고 동일시 시킨 feature map을 다시 upsampling 하면 두 특성이 섞인 새로운 이미지를 만들게 됩니다. 이때 알파라는 파라미터를 주어서 content와 style중 어떤것에 더 많은 가중치를 줄지 설정할 수도 있습니다. 자세한 내용은 MSGAN에서 CoMatch 부분을 확인하시면 더 많은 도움이 될 것 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다