[CVPR2020]BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

BlendMask는 빠른 segmentation을 가능하게 한 [ICCV2019]YOLACT 을 안다면 빠르게 이해할 수 있을 것이다. YOLACT 은 Real-time Instance Segmentation 즉, instance segmentation 문제를 real-time으로 해결하기 위한 논문이다. [설명 링크]를 참조할 수 있다. Abstract에서 BlendMask는 제안하는 방법론이 Mask R-CNN보다 outperforms을 보이며, 효율적이라 설명한다.

제안하는 BlendMask의 파이프라인은 detector network와 mask branch로 이루어 진다. 일반적인 two-stage 방법론들은 detector module과 segmentation 모델을 직렬적으로 사용하여 이미지 시프트와 같은 변동에도 일관성을 갖어야하는 classification 문제와 그와같은 변동을 잘 반영해야하는 location문제를 나누어 해결한다. 그러나 one-stage (YOLACT을 포함한) 방법들은 두 문제를 위의 pipline과 같이 병렬적으로 해결하기 위해 위와같이 두 파이프라인을 이용한다. 여기서 detector network로는 SOTA인 one-stage object detector인 FCOS와 유사하다고 하며, sota인 one-stage detector모델과의 통합능력 또한 장점으로 소개하였다.

BlendMask의 main이라 생각하는 mask branch는 또 다시 Bottom module, Top layer, Blender module 3개의 기능으로 나눌 수 있다. (그 중에서도 Blender module이 메인이라 한다.)

– Bottom module은 그림1에 나와있듯이 Bases를 생성하는데 이는 말 그대로 backbone model에서 추출한 feature와 같은 base의 역활을 한다.
– Top layer는 Detector module의 tower 뒷부분의 푸른 부분으로 attentions을 생성한다 (즉, Tower의 output은 Detector module에서 추출한 bounding box와 attentions(A)!)
그림 2에서 확인 할 수 있듯이 base는 서로 다른 edge를 active(활성화라는 표현이 옳은지는 모르겠습니다만) 한 backbone feature와 같은 역활이고, attentions는 detector에서 추출한 box의 attention을 나타낸다. (그림의 컬러는 weight를 나타낸다고 한다.)

마지막으로 blender module은, attentions (A로 표기)와 bases(B로 표기), detector module의 box proposals (P로 표기)를 입력으로 하여 마스크를 생성한다. 마스크를 생성하는 방식은 다음과 같다.

1. Mask R-CNN 의 RoIPooler를 이용하여 bases를 각 Pbox에 대해 crop, R*R로 resize한다.

2. A의 size를 R*R로 interpolate(Nearest, Bilinear 각 선택에 따른 성능 비교 논문 Table 5 참조) 한다

3. softmax function을 통해 Normalize하여 score map S_d를 만든다

4. score map과 base feature 값을 요소 곱하여 mask logit m을 생성한다. 그림3을 참고하면 이해가 쉬을 것이다.

2 thoughts on “[CVPR2020]BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation”

안녕하세요 글을 읽다 문득 예전부터 궁금했던 점이 있어 댓글 남깁니다.

본문 내용 중 “OLACT 은 Real-time Instance Segmentation 즉, instance segmentation 문제를 real-time으로 해결하기 위한 논문이다.”라는 내용이 있는데 여기서 Instance라는 단어에 대해 설명해주실 수 있나요?

여러 논문들 보면 가끔 한번씩 나오는 단어인데 우리가 흔히 알고있는 인스턴트 푸드처럼 그냥 쉽게 꺼내다가 쓰기 쉬운? 모델을 말하는건지… 컴퓨터비전 쪽에서 해당 단어를 어떻게 해석하고 받아들어야할지 헷갈리더군요.

혹시 제안된 mask branch는 따로 학습하지 않는 것으로 보이는데 맞게 이해한 것일까요? 만약 학습을 한다면 전체 network의 loss function을 설명해주실 수 있을까요?

Leave a Reply Cancel reply

정민 신 says:

11/09/2020 at 00:24

안녕하세요 글을 읽다 문득 예전부터 궁금했던 점이 있어 댓글 남깁니다.

본문 내용 중 “OLACT 은 Real-time Instance Segmentation 즉, instance segmentation 문제를 real-time으로 해결하기 위한 논문이다.”라는 내용이 있는데 여기서 Instance라는 단어에 대해 설명해주실 수 있나요?

여러 논문들 보면 가끔 한번씩 나오는 단어인데 우리가 흔히 알고있는 인스턴트 푸드처럼 그냥 쉽게 꺼내다가 쓰기 쉬운? 모델을 말하는건지… 컴퓨터비전 쪽에서 해당 단어를 어떻게 해석하고 받아들어야할지 헷갈리더군요.

Jo-won says:

11/16/2020 at 01:32

혹시 제안된 mask branch는 따로 학습하지 않는 것으로 보이는데 맞게 이해한 것일까요? 만약 학습을 한다면 전체 network의 loss function을 설명해주실 수 있을까요?

안녕하세요 인하님 댓글 감사합니다. 저도 항상 sim데이터를 풍부하게 만드는 것은 여기저기서 다루지만, 어떻게 사용하는게 효과적인지와 더불어 sim2real gap은 구체적으로 얼마나…

안녕하세요 기현님 댓글 감사합니다. Figure 2와 3 모두 sim과 real의 object 색상과 texture는 다릅니다. Figure 2에서 두 환경에서의 observation 차이…

안녕하세요 인택님 좋은 댓글 감사합니다. 일단 질문 주신 부분에 대해서는 저도 잘 모릅니다..하하 질문 주신 내용은 코드레벨에서 구현하기 나름일 거…

안녕하세요 우진님 좋은 댓글 감사합니다. language representation 자체가 성능 향상에 기여한 건지 hierarchical decoupling이 핵심 요인인지에 대한 실험한 부분은 따로…

안녕하세요 재연님 좋은 댓글 감사합니다. 일단 별도의 데이터 품질에 대한 분석은 없습니다! 저도 궁금한 부분이긴합니다만 보통 이런 모델이 생성한 action…

[CVPR2020]BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

Author: 황 유진

2 thoughts on “[CVPR2020]BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment