[MMM2021] Robust Multispectral Pedestrian Detection via Uncertainty-Aware Cross-Modal Learning

해당 논문은 카이스트 노용만 교수님 연구실에서 지난 2020년 10월에 나온 논문입니다. 우연히 검색하던 중 찾게돼 리뷰를 진행합니다. (IPIU 준비로 리뷰의 퀄리티가 떨어질 수 있습니다.)

해당 논문에서 핵심적으로 제안하는 방법은 위의 그림처럼 Object region의 Uncertainty를 feature level에서 계산하여 검출의 정확도를 높이는 방법을 제안합니다. 해당 논문에서 제안한 파이프라인은 다음과 같습니다.

정리하면 Uncertainty 를 계산하는 모델을 통해서 weight를 만들고 해당 weight를 기반으로 feature를 fusion 하는 방식의 모델을 제안하였습니다. 해당 논문에서는 Uncertainty를 학습하기 위해서 Input에 대해서 다양한 노이즈를 추가해 Uncertainty 를 만들었다고 합니다. 이러한 방법을 Uncertainty-aware Crossmodal Fusion(UCF)라고 표기하였습니다. 또한 Uncertainty에 대해서 soft label을 적용하여(첫번째 그림 참고) 학습을 진행하였는데 이를 Uncertainty-aware Feature Learning (UFL) 라고 표기하였습니다.

결국 시그마를 Uncertainty라고 했을때 RGB(c), Thermal(t)의 비율을 구해서 feature를 Fusion하는 방법입니다. 다음으로는 soft label이 적용된 UFL 방법은

다음의 수식과 같이 불확실성을 적용하여 실제 라벨을 1이 아닌 그보다 더 작은 숫자로도(불확실성에 따라 다르게 계산) 되도록 하였다고 합니다.

이러한 방법으로 해당 모델은 Kaist 데이터셋과 CVC14 데이터셋에서 다음과 같은 성능이 나타났다고 합니다.

확실히 해당 방법을 사용할때 성능이 올라간다고 합니다. 그리고 백본을 ResNet-101로 변경하여 7.80의 높은 성능을 나타냈다고 합니다. (논문에서는 SoTA라고 하는데, 당시 8월에 이미 6%인 anchor-free 방식이..)

해당 논문에서 밝힌 데이터셋과 관련된 정보입니다. 해당 논문에서는 특이하게 Annotation을 사용했다는 내용이 없습니다… 하지만 경험상 Night의 Miss rate가 저렇게 낮은것으로 보아서 Sanitized를 사용하지 않았을까 생각됩니다. (일반적인 경향성을 보아서)

결론

MultiMedia Modeling 이라는 학회(?)에 올라온 논문입니다. 주말에 어떻게하면 좋은 방법은 없는지 혹 그사이에 또 다른 논문이 실험의 의지를 꺾을 만큼 좋은 결과를 나타내지 않았는지 찾다가 알게된 논문입니다. 해당 논문에서 고려해볼만한 점은 실제 Score를 Fusion할때 저는 현재 RGB와 Thermal의 스코어를 그냥 평균해서 쓰고있는데, 해당 논문에서는 RGB f.g Score – Thermal b.g Score와 같이 사용했습니다. 이러한 방식을 적용하는것도 도움이 될 것 같습니다. 그리고 꼭 SoTA가 아니여도 제가 제안하는 방식이 성능 향상에는 도움이 된다는 식으로 논문을 전개해도 될 것 같습니다.(메이저는 안되겠지만….) 그리고 마지막으로 현재 대부분의 논문이 ResNet으로 백본을 사용하는데 이참에 백본을 변경해 실험을 진행해볼까 생각중입니다.

Author: 김 지원

2 thoughts on “[MMM2021] Robust Multispectral Pedestrian Detection via Uncertainty-Aware Cross-Modal Learning

  1. Uncertainty 계산할 때 RGB와 Thermal의 비율이라고 하셨는데 정확히 어떤 것의 비율인 것인 가요?? 데이터 셋 상에서 영상의 갯수를 말하는 건가요, 아니면 predict 된 박스들 의 비율인가요??

    1. Uncertainty 계산시 RGB와 Thermal의 비율을 구하는게 아니고, Fusion시 Uncertainty를 통해서 RGB와 Thermal를 Fusion할 비율을 계산하는 것 입니다.

      ‘결국 시그마를 Uncertainty라고 했을때 RGB(c), Thermal(t)의 비율을 구해서 feature를 Fusion하는 방법 입니다’ – 본문

      그리고 Uncertainty 계산은 실제 입력되는 이미지에 노이즈를 추가해서 Uncertainty의 라벨을 만들고 이를 통해 모델이 예측하도록 설계하였습니다.

      ‘해당 논문에서는 Uncertainty를 학습하기 위해서 Input에 대해서 다양한 노이즈를 추가해 Uncertainty 를 만들었다고 합니다. ‘ – 본문

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다