Multispectral Pedestrain Detection 리뷰

저희 연구실에서 진행하는 연구중 메인 연구라고도 볼 수 있는 Multispectral Pedestrian Detection과 관련된 리뷰입니다. 저희 연구실에서 제안하고 있는 AF와 비슷한(?) 내용의 논문들은 무엇인지 찾아보다가 알게된 논문들에 대해서 간단히 이야기해보고자 합니다.

(2018) Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

해당 논문은 입력되는 영상의 Illumination을 이용해 RGB와 Thermal의 weight를 생성하는 논문입니다. (AF와 비슷하면서 다르네요)

위의 그림에서 왼쪽의 그림은 RGB도 정상적으로 보이는 사진이므로 RGB이미지에 더 큰 가중치를 줘서 Detection을 수행합니다. 반면 오른쪽은 RGB는 Poor한 Illumination을 가지므로 Thermal에 weight를 줘서 Detection을 수행합니다. 그러면 어떻게 이렇게 상황에 따라서 다른 가중치를 생성할 수 있을까요?

정답은 Illumination aware Network라는 것을 따로 만들어서 해당 네트워크를 통해서 가중치를 만들어 내는 것 입니다. 더 디테일한 내용은 해당 논문을 통해서 확인하실 수 있으며 이번 리뷰에서는 다양한 논문들의 컨셉만 다루겠습니다. 아래 예시 사진을 보시면 좀 더 쉽게 이해하실 수 있습니다.

(2018) Fusion of Multispectral Data Through Illumination-aware Deep Neural Networks for Pedestrian Detection

해당 논문은 위의 설명한 논문보다 약 한달정도 먼저 나온 논문으로 위의 논문과 비슷한 컨셉을 가지고 있습니다.

해당 논문에서는 각가 Day, Night 상황에 대한 Illumination을 계산하기 위한 Sub Network를 만들고 이를 통해서 퓨전을 수행하게 됩니다.

`

실제 아키텍처를 보면 많이 복잡해 보이지만, 해당 논문에서 제안하는 핵심 컨셉은 위에서 설명한것과 같이 Day,Night에 대해서 각각 SubNetwork를 따로 둔다는 점 입니다. 해당 논문에서는 Detection 뿐만 아니라 Segmentatioin에서도 작동함을 나타내고 있어서 위의 아키텍처를 보시면 IAMSS도 함께 나타내고 있습니다.

(2020) Attention Based Multi-Layer Fusion of Multispectral Images for Pedestrian Detection

앞서 논문들은 Illumination을 통해서 가중치를 계산했다면 해당 논문은 channel-wise attention module (CAM) and a spatial-wise attention module (SAM) 을 통한 퓨전 방법을 제안합니다. 아래 그림은 전체 아키텍처 입니다.

먼저 channel-wise attention module (CAM)는 fusion 이전에 유용하고 유의미한 채널은 보존하고 방해( interfering )가 되는 채널은 제거하는 역할을 수행합니다. 해당 모듈은 ‘Squeeze-and-excitation networks(SE)‘를 수정하여 만든 모듈입니다. 정리하면 피처맵의 압축과 재조정을 과정을 통해서 유의미한 채널들만 남기는 모듈입니다. (자세한 SE Network의 설명은 위의 링크를 클릭하시면 됩니다.)

spatial-wise attention module (SAM)는 Salient Object detection(SOD)를 기반으로한 방법론 입니다. SOD란 쉽게 배경과 객체만 분리해서 나타내는 Detection이라고 생각하면 됩니다. CAM이 어떤 채널이 Detection에 유의미한 지 나타냈다면 SAM은 각 피처맵에서 어느 위치가 유의미한지, 그리고 더 많은 정보를 가졌는지를 얻을 수 있습니다.

정리하면 다음과 같습니다. 아래와 같이 Detect하는 과정을 기존 방법론과 비교해설명하면 다음과 같습니다.

기존 방법은 위에서부터 보시면 가장 위는 input 이미지, 그 다음은 input 이미지에 따른 spatial attention map 입니다. 그리고 다음은 Input 이미지에 대한 feature map 입니다. 그리고 이를 spatial attention에 따라서 weight feature을 만들고, 이 둘을 sum을 통해 fusion 하게 됩니다.

이와 다르게 해당 논문에서 제안하는 방법론의 메커니즘은 다음과 같습니다.

비교하면 Spatial attention map은 더 확대됐고, 밑에 sum이 아닌 CAM을 통해서 선택적인 feature map들이 합성됨을 볼 수 있습니다.

자 여기까지 Multispectral Pedestrain Detection을 위한 많은 연구들이 이뤄지고 있으며, 각 연구들은 RGB, Thermal 이미지 fusion을 위해서 어떻게 연구를 했는지 알아봤습니다.

Author: 김 지원

3 thoughts on “Multispectral Pedestrain Detection 리뷰

  1. Illumination이 무엇인지 잘 이해가 가지않는데,설명 부탁드립니다. 또 데이터셋이 낯익는데, 카이스트 데이터셋 맞나요?

    1. 넵 카이스드 벤치마크 데이터셋이며, Illumination 은 밤과 낮에 나타나는 조도차이라고 이해하시면 됩니다.

  2. 앞의 두 논문은 이미지 전체에서 Illumination을 계산하여 합하는 것이고 마지막 논문의 경우 CAM이나 SAM을 이용하여 압축한 feature를 합하는 것인가요? CAM도 SAM 처럼 위치정보를 제공할 수 있을 것 같은데 CAM은 위치정보로 이용하지 않는다는 점이 신기하네요..

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다