[MVA2021] Multi-Modal Pedestrian Detection with Large Misalignment Based on Modal-Wise Regression and Multi Modal IoU

(ICCAS, UR과 같이) MVA2021은 일본에서 열리는 국제학회 같습니다.

해당 논문에서 다루는 Large Misalignment는 MLPD에서도 앞으로 해결해야할 문제이기 때문에 논문을 읽게됐습니다.

Introduction

논문의 시작은 모든 멀티스펙트럴 보행자 인식이 갖는 문제점을 이야기합니다. 결국 실제 상황에서 멀티스펙트럴 센서를 통해 보행자 인식을 하기 위해서 반드시 해결되어야할 문제는 Misalignment 입니다. 그리고 해당 논문에서도 이러한 점을 언급합니다.

Methods

해당 논문에서 제안하는 방법론은 간단합니다. MLPD에서 pair를 깨서 각 모달리티에 대해서 스코어를 독립적으로 예측하였다면, 이 논문은 Box Regressor를 독립적으로 수행하는 논문입니다.

사실 논문이 간단한 내용이라 크게 설명드릴점은 없지만, 기존의 Faster RCNN 기반 방법론들이 fused feature map에서 단일 ROI를 추출하였다면, 해당 논문은 두 모달리티에 독립적인 ROI를 추출하여 마지막까지 박스를 예측하는 방법론 입니다. 위에 그림에서 확인할 수 있듯 해당 논문은 두 모달리티에 대해 box Regressor를 독립적으로 보유하는 네트워크를 제안합니다. 최종적인 아키텍처는 아래 그림과 같습니다.

Multi-modal IoU

MLPD 논문을 작성할 때, Missalignment에 대해서 강인함을 보이기 위해서 새로운 평가 메트릭의 필요성을 느꼈습니다. 그리고 해당 논문에서는 동일한 부분을 생각하였고, 이에 대해서 새로운 IOU 계산 방식을 이야기합니다. 먼저 기존 IoU계산 방식을 살펴보면 다음과 같습니다.

해당 수식에서 GT는 ground truth box, DT는 detection box 입니다. 그러면 이러한 IoU 계산을 다음과 같이 제안합니다.

GT와 DT의 notation은 동일하며, V,T,M이 추가됐는데 각각 V:visible(rgb) , T:Thermal, M: Multimodal 입니다. 즉 기존에는 단일 모달리티에만 사용했던 IoU 계산 방식을 각각 모달리티에 대해서 IoU를 계산하도록 평가방식을 제안합니다.

Experiments

가장 먼저 논문의 제목처럼 Thermal 이미지를 shift하여서 이에 따른 Miss-rate를 평가합니다. 이때 IoU는 본인들이 제안한 방식으로 평가하였고, 그 때 결과는 위의 표와 같습니다. 일반적인 범주에서는 기존 모델들이 더 좋은 성능을 나타냈지만, misalignment가 커진경우 자신들의 방법이 더 강인함을 이야기합니다.. 또한 특히 IoU thres를 0.7로 하였을때는 자신들의 성능이 가장 좋다고 이야기합니다….

또한 일반적인 상황에 대해서도 기존에 제안된 방법론들과 비교하며, 이때 IoU를 3가지로 나누어서 평가를 진행합니다. 결론은 성능이 다른 방법론을 이기진 못했지만, 0.7까지 높이면 자신들의 방법론이 더욱 강인함을 이야기합니다.

Review

해당 논문을 읽으면서 Misalignment의 해결이 필요하다는 내용만 제외하고 다른 부분에서는 의아한 부분이 많았습니다. 그래도 IoU를 각 모달리티에 대해서 평가할 수 있는 방법을 이야기하였으므로, 만약 추후에 관련 논문을 작성한다면 해당 논문을 인용해 해당 논문에서 밝힌 실험 결과들과 평가방법을 인용할 수 있을 것 같습니다. 하지만 이외에 아직 Misalignment에 대한 온전한 해결방법을 제안했다고 생각하지 않으며, 이에 대해서 아직 해결해야할 부분이 많은 것 같습니다.

Author: 김 지원

3 thoughts on “[MVA2021] Multi-Modal Pedestrian Detection with Large Misalignment Based on Modal-Wise Regression and Multi Modal IoU

  1. Table 1… 저희가 했었던 폐기된 실험 중 하나라 맘이 아픕니다. ㅠㅜ
    KAIST 말고 CVC-14나 FLIR에서 평가한 결과는 없나요?? 인위적으로 미는 것과 실제로 다른 건, 시점 차이로 인한 문제도 있어 어떤 결과가 나왔는지 궁금하네요.

    1. 해당논문에서는 말씀하신 부분과 다른 데이터셋은 다루고있지 않습니다.

  2. 좋은 리뷰 감사합니다. 해당논문에서는 GT 자체를 같이 밀어서 평가한거 같은데, 역시나 GT자체가 misalignment를 포함한 경우에는 한계가 있나 보군요. 반면에 IoU를 새롭게 정의한건 흥미롭네요.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다