[CVPR2020]Single-Stage Semantic Segmentation from Image Labels

본 논문은 weakly supervised learning (약 지도학습)을 single stage로 진행한 논문이다. 기존 많은 약지도학습 기법에서는 CAMs(class activation maps)를 seed로 하여 이를 수정하는 등 multi-stage 방식이 많았다. 지난번 리뷰한 [CVPR2020]SEAM 의 경우가 CAMs을 seed로 이용한 multi-stage 방식이다. 같은 CVPR2020 Oral paper 지만 다른 방식이여서 신기했다.

기존 CAMs을 이용하는 방식을 CAMs의 결과의 문제점을 언급하며 설명하였다. 이 논문은 지적한 문제점을 classification scores 개선 및 후처리 방식을 제안하여 해결하였다. 이해가 부족해서 그럴 수 있지만 개인적으로는 CAMs을 segmentation 에 맞게 개선하여 CAMs 생성 부분에서 바로 segmentation mask 를 생성 하는것 처럼 느꼈다.
또한 CRFs, GrabCut과 같은 후처리와 비슷한 맥락으로 Pixel-adaptive mask refinement(PAMR)을 제안하였는데, 이는 iteratively update하기 때문에 parameter-free 모델이며, 10번 정도의 iteration으로 충분히 개선되어 효율적이라 한다.
마지막으로 psedomask의 정확성을 높이기 위해 Stochastic gate를 제안하였다. 앞서 논문에서는 CAMs이 가진 문제점에 반하여 이상적인 segmentation model이 가져야 할 성질을 정의한다 하였는데, 이는 다음의 3가지이다. (1) local consistency : 유사한 pixel은 유사한 label가져야 한다. (2)semantic fidelity 분류가 신뢰 가능해야 한다. (3) completeness 이미지에 나타나는 모든 클래스를 식별 가능해야한다. (아래 그림5를 참조하면 좋다)
Stochastic gate는 위 3가지 모델이 가져야 할 성질 중 모델의 부정확성을 개선하기 위한, (3)completeness를 위한 제안사항이다. 이는 그림1에서 보면 알 수 있지만 pesudomask생성 이전 단계로 존재하며 regularisation의 일종이다. (아키텍쳐는 그림4참조) 기본적인 아이디어는 deep features와 preceding layers의 features(=shallow features)를 확률적으로 결합하는 것이다. receptive field가 비교적 큰 deep feature에서 일종의 style vector 역활을 하는 vector를 이용하여 shallow features를 정규화한 후 결합하는 것이다. 논문에서는 이 이유를 shallow feature의 receptive field를 지키면서 대표성을 키우기를 원해서 다음과 같은 결합을 하였다고 한다. color나 edge같은 비교적 얕은 특성이라 할 수 있는 부분을 정규화하여, 물체를 완벽히 찾기 위해 정규화를 진행한 것이라 할 수 있다.

정리하면 (그림1을 참고하며) feature를 잘 정규화하여(stochastic gate) 개선된 classification score를 통해 한번에 좋은 score map을 통해 mask를 만들고 parameter-free module을 이용해 빠르고 가볍게 refinment를 진행하여 one-stage로 weakly supervised segmentation 문제를 해결한다 고 하면 될것같다.