논문 요약 : CNN을 통해 search와 re-ranking을 했다. (Oxford5k와 Paris6K datasets으로 검증)
Main idea
- CNN을 통해서 multiple image region을 추론할때 re-feed 없이 encode한다.
- Max-pooling을 사용한다.
- localization할때 re-ranking 과 leads 할때 simple yet effective query expansion방법을 사용한다.
Maximum activations of convolutions (MAC)
- pre-trained CNN에서 fully connected layer를 제거한다.
- W * H * K 형태의 3D tensor형태의 convolution layer 형태를 하고 있다.
- ReLU를 사용하여 마지막 layer에서 non-negative를 보장한다.
- feature vector를 max-pooling으로 정의 하였다.
- K차원에 대해서 cosine유사도를 통해 두 이미지 사이의 유사도를 계산한다.
- location에 대한 정보손실이 있다.(FClayer와 차이)
R-MAC: regional maximum activation of convolutions
Region feature vector : 앞에서 설명한 feature vector에서 rectangular region의 정보를 얻기위해 Region feature vector를 정의한다.
해당 방법으로 original image로부터 region에대한 정보를 linear하게 고려 한다.
R-mac
- 크기가 다른 여러 scale의 square regions을 사용한다.
- 1인 scale이 가장 크며 해당 scale일 때 W와 H를 통해 min(W,H)라고 정의한다.
- scale값을 키우며 square regions의 크기를 줄여준다. 하지만 가장큰 scale ,의 40%크기 이하로는 줄이지 않는다.
- post-process를 위해 l2-normalization과 PCA-whitening을 사용한다.
OBJECT LOCALIZATION
Approximate integral max-pooling
AML: approximate max-pooling localization
- 경험적으로 평가하는 region을 수를 제한한다.
- best region을 5번까지 3개의 변수를 변경하여 얻는다.
- 검색결과와 가장 겹치는 부분이 많은 것으로 나타낸다.