[IROS 2019] RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes

기존에 저는 RGB+Thermal을 Fusion해 Pedestrian Detection을 수행하였다면, 해당 논문은 Semantic Segmentation을 수행한 논문입니다. 생각보다 코드도 잘 작성되어 있어 Multispectral Semantic Segmentation을 수행하는데 좋은 베이스 라인이 될 것 같습니다. 링크

Related Work

RGB와 Thermal, 멀티스펙트럴 데이터를 이용해 Semantic Segmentation을 수행하는 연구는 이전에도 존재했습니다. 그리고 대표적인 연구가 MFNet 입니다. 아래는 MFNet에서 제안하는 아키텍처 입니다.

해당 아키텍처는 기존 UNet과 유사한 구조를 가지고 있으며, 다른점은 두 도메인을 다루기 때문에 RGB, Thermal 각각의 타워를 가지고 Fusion된 Feature map을 만들고 그 Feature map을 이용해 Semantic Segmentation을 수행합니다.

Proposed Method

본 논문에서는 Multispectral 분야에서 Semantic segmentation을 수행하는데 있더 정확하고 강인한 segmentation을 위한 방법을 제안합니다. 본 논문에서 제안하는 Contribution은 다음과 같습니다.

  1. RGB와 Thermal 데이터를 이용해 segmentation을 하기위한 새로운 Fusion 네트워크를 제안합니다.
  2. Thermal의 정보가 semantic segmentation performance를 향상시킴을 증명합니다.
  3. Urban scenes에 대해서 Sota를 달성했다고 합니다.

그러면 이러한 Contribution을 제안한 본 논문이 제안하는 방법에 대해서 자세히 알아봅시다.

본 논문에서 제안하는 네트워크는 다른 Segmentation을 위한 논문과 같이 Encoder와 Decoder로 구성됐습니다. 전체 네트워크 관점에서 기존 연구들과 차별점이라고 저자가 이야기하는 내용은 본 논문에서 제안하는 RTFNet은 Encoder와 Decoder가 Mirrored 구조가 아니라고 합니다. 각 모듈은 asymmetrically하게 디자인했다고 합니다.

The Encoders

본 논문에서 디자인한 Encoder 입니다. 기존 MFNet은 위에서 설명한것처럼 투타워를 진행하였지만, 본 논문에서는 element-wisely adding을 통해서 RGB와 Thermal를 중간중간에 Fuse하게 됩니다. (저자가 주장하는) 또다른 차별점으로는 기존 연구들과 다르게 ResNet을 사용했다고 합니다. 이때 ResNet에서 spatial information의 손실을 방지하기 위해서 average pooling과 fully connected layer를 제거했다고 합니다.

The Decoder

다음으로는 Decoder 입니다. 본 논문에서는 dense한 prediction을 위해 Upception block 기반의 Decoder를 설계합니다. Upception Block은 두 파트로 구성되며 각각은 아래 그림과 같습니다.

본 논문에서 제안하는 Upception block의 A파트는 resolution을 유지하며 feature map의 채널을 변화시키지 않는 모듈입니다. 반면 B파트는 resolution을 증가시키고, feature map의 채널수를 감소시켜서 최종적인 output을 만들어 갑니다. (두 파트가 각각 어떠한 의미를 갖고 어떻게 디자인 한것인지에 대한 디테일을 논문에서는 나타내지 않습니다.)

EXPERIMENTAL RESULTS

본 논문에서 제시한 실험결과는 다음과 같습니다.

1. 다른백본, Upception 유무에 따른 mACC. mIoU 성능 비교

여기서 NRE는 No RGB Encoder, RTE는 No Thermal Encoder, NUB는 No Uception block을 의미합니다. 결론적으로 본인이 제안한 RGB, Thermal를 Fuse하는 Encdoer와 Unception block이 포함된 Decoder가 있어야 좋은 성능이 나타남을 이야기합니다.

2. Urban scenes 데이터셋에서의 각 클래스별 성능 비교

3. 데이터셋에서 밤/낮에 따른 성능 비교

4. 속도 비교

등 기타 실험들이 있지만 본 논문을 이해하는데 필요한 실험 결과들은 위와 같습니다.

CONCLUSION

본 논문에서는 정말 간단하지만 기존 연구(MFNet, FuseNet)보다 성능이 좋은 네트워크를 제안하였고, 2019년 IROS IEEE RAL 에 Accept된 페이퍼 입니다. 그리고 공개한 코드도 정말 심플하게 작성되어 있습니다. 이후에 Multispectral 분야에서 Segmentation을 수행하는 많은 네트워크들이 나왔고, 추후에 2020년에 나온 논문도 리뷰할 예정이지만 생각보다 Multispectral 분야에서의 Segmentation에서 많은 연구가 이뤄져야할 것 같다는(?) 생각이 들었습니다. 다른 분들에게 좋은 인사이트 및 좋은 논문주제거리가 될 수 있다고 생각돼 소개드립니다.

추가적으로..

이번 논문을 쓰면서 Segmentation에 적용하려다가 네트워크 자체가 변경되어야 될 것 같아서 중간에 그만뒀지만,시해당 분야에도 Multi lable의 컨셉을 적용해 Segmentation을 수행하면 좋은 결과가 나타날 것 같다는 생각이 들었습니다. 함께 진행하실분을 모집합니다.

Author: 김 지원

2 thoughts on “[IROS 2019] RTFNet: RGB-Thermal Fusion Network for Semantic Segmentation of Urban Scenes

  1. 잿슨 TX2에서 RTFNet_152의 속도가 급격히 저하되네요. 다른건 어느정도 경향성이 맞는데 급격히 저하되는게 임베디드 보드가 수용할수있는 정도를 넘어서서 과부화가 걸린거라고 해석해야 할까요?

    1. 152의 용량이 커서 스왑(GPU용량 초과로 CPU로 연산)이 일어난게 아닐까요

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다