PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS (R-MAX)

논문 요약 : CNN을 통해 search와 re-ranking을 했다. (Oxford5k와 Paris6K datasets으로 검증)

해당 CNN모델을 통해 두쌍의 이미지이며 왼쪽은 쿼리 이미지 이며 오른쪽에 일치하는 부분을 작은 박스로 표시하였고 쿼리이미지가 오른쪽이미지에서 어떤부분인지 오른쪽에 이미지의 분홍색 박스로 표현한 것입니다.

Main idea

  • CNN을 통해서 multiple image region을 추론할때 re-feed 없이 encode한다.
  • Max-pooling을 사용한다.
  • localization할때 re-ranking 과 leads 할때 simple yet effective query expansion방법을 사용한다.

Maximum activations of convolutions (MAC)

  • pre-trained CNN에서 fully connected layer를 제거한다.
  • W * H * K 형태의 3D tensor형태의 convolution layer 형태를 하고 있다.
  • ReLU를 사용하여 마지막 layer에서 non-negative를 보장한다.
  • feature vector를 max-pooling으로 정의 하였다.
  • K차원에 대해서 cosine유사도를 통해 두 이미지 사이의 유사도를 계산한다.
  • location에 대한 정보손실이 있다.(FClayer와 차이)
가장 유사도 높은 5개의 MAC결과를 뽑아서 visualize함.

R-MAC: regional maximum activation of convolutions

Region feature vector : 앞에서 설명한 feature vector에서 rectangular region의 정보를 얻기위해 Region feature vector를 정의한다.

Region feature vector

해당 방법으로 original image로부터 region에대한 정보를 linear하게 고려 한다.

R-mac

  • 크기가 다른 여러 scale의 square regions을 사용한다.
  • 1인 scale이 가장 크며 해당 scale일 때 W와 H를 통해 min(W,H)라고 정의한다.
  • scale값을 키우며 square regions의 크기를 줄여준다. 하지만 가장큰 scale ,의 40%크기 이하로는 줄이지 않는다.
scale 조정
왼쪽은 region에대한 3개의 scale의 예시
  • post-process를 위해 l2-normalization과 PCA-whitening을 사용한다.

OBJECT LOCALIZATION

Approximate integral max-pooling

(Xi are non-negative , approximate each feature value fR,i)
Figure3에서 Approximation error이며 이를 통해 유사한이미지의 region을 예측한다.

AML: approximate max-pooling localization

  • 경험적으로 평가하는 region을 수를 제한한다.
  • best region을 5번까지 3개의 변수를 변경하여 얻는다.
  • 검색결과와 가장 겹치는 부분이 많은 것으로 나타낸다.
결와

Author: rcvlab

RCV연구실 홈페이지 관리자 입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다