[ICCV 2022]Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement

Intro

Image segmenatation은 각 object 영역을 구별하면서 이미지에서 object가 차지하는 영역을 예측하는 instance segmentation과 이미지의 각 픽셀을 (일반적으로 사전정의된) 카테고리로 분류하는 semantic segmentation으로 나뉜다. 한편 segmentation은 학습 할 ground truth 마스크를 생성하기 위한 annotation 과정의 비용이 높아 weakly-supervised 기반의 연구도 많이 진행되고 있는데, 일반적으로 weakly-supervised instance segmentation(WSIS)가 weakly-supervised semantic segmentation(WSSS)보다 어려운 태스크라고 받아들여진다. 그 이유는 WSIS문제에는 object의 위치를 찾는 localization task가 내재되어있는데, weakly-supervised는 image level label이 주어지기 때문에 해당 정보(object location)를 갖을 수 없기 때문이다. 기존 방법론은 이러한 문제를 해결하기 위해 off-the-shelf proposal techniques 즉, 사전학습 된 개별 모델을 통해 object를 구분합니다. 그러나 이는 완전 학습 모델이라고 하기에는(사전학습된 모델을 사용하기 때문에) 무리가 있습니다. 이것이 [그림1]에 소개된 기존 방법론의 첫 번째 문제점입니다. 두 번째 문제점은 semantic drift problem 인데, 이는 background라고 잘못 분류된 pseudo label이 학습에 사용되는 경우 입니다.
해당 논문은 기존 연구에서 찾은 이 두 가지 문제점을 해결하고자 합니다.

Method

논문에서 앞선 문제점(off-the-shelf proposal techniques, semantic drift problem)을 해결하기 위한 해결책은 다음과 같습니다. 먼저 off-the-shelf proposal techniques 문제를 해결하기 위해 논문은 Semantic knowledge transfer 를 설계했습니다. cost 가 많이 들어가는 instance detection 모델을 사용하던 기존 WSIS 방법론과 다르게 Peak Attention Module(PAM)을 이용하여 weakly supervised semantic segmentation 모델의 출력을 instance level로 가공하면서 pseudo label을 생성했습니다. 여기서 PAM이란 [그림4]에서 확인할 수 있듯이 CAM 연구의 일종이며, 쉽게 생각하면, CAM을 필터링하여 피크지점을 찾는 모듈로 이해하시면 됩니다.

다음으로 semantic drift problem 해결을 위해 pseudo label refinement 파트를 통해 drift를 제거하였습니다. FixMatch 연구에서 pseudo label의 신뢰도를 thresholding 한 것과 같이, 이미지에서 생성된 pseudo instance semgnetation mask 중에서 신뢰도가 높은 object에 대해 offset 을 예측하는 모델을 이용하여 refinement를 합니다. 이때, 모델 기준으로 pseudo label에 대한 확신도가 낮은 object 영역의 경우 학습에 포함하지 않아 pseudo label의 잘못된 예측으로 인한 성능 하락도 막았습니다. [그림 3]을 보면 모델의 pseudo label 생성 능력이 높아질 수록, 데이터로 이용할 수 있는 pseudo label mask도 증가하는 것을 확인할 수 있습니다.

Experiments

제안하는 방법론을 Pascal VOC 2012과 COCO 데이터셋을 이용하여 유효성 검증을 진행하였습니다. 먼저 [표1]을 통해 기존 state-of-the-art(SOTA) 방법론과 비교하였으며 제안하는 방법론이 성능 측면에서 우월성을 보였습니다. 또한 [그림5]의 정성적 결과를 통해, 성능적 우월성이 실제 작동 측면에서도 확인할 수 있음을 보였습니다. 또한 높은 성능을 보이는 만큼 [그림6]과 같은 다양한 Ablation Study와 분석실험을 통해, 제안하는 방법론의 각 모듈이 실제로 효과가 있음을 밝혔습니다.

Leave a Reply Cancel reply

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

안녕하세요 승현님, 좋은 리뷰 감사합니다! compatibility를 구할때 db 기반 점수와 llm 기반 점수의 곱을 사용한 이유가 llm이 가진 편향의 영향을…

[ICCV 2022]Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement

Author: 황 유진

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment