위치 인식을 하기 [위해 영상의 local descriptor를 추출하는 것은 매우 중요한 부분이다. 따라서 R2D2[1], D2-Net[2[,DELF[3] 등 관련 논문들이 많이 나왔다. 이전 논문들을 통해 나온 가장 최근 work 를 가져 와봤다.
이 논문의 키포인트를 정리하면 밑과 같다.
- Hard-mining Triplet Loss를 이용해 새로운 Detector를 위한 Loss를 설계했다.
- 다양한 크기와 Rotation를 고려하여 detector 와 descriptor를 학습 하는 새로운 방식을 제안한다.
- Hand -crafted 방식과 CNN based 방식을 융합하여 Rotation과 scale 변환에 강인한 feature를 처음 제안했다.
1, 모델
1.model
Descriptor 에 Scale 과 Rotation Robustness를 주기 위해 각 각 하나씩 방법을 고안 했다.
먼저 Rotation 에 Robustness를 주기 위해 [그림2] 와 같은 Handcrafted block 을 제안한다. 영상을 Rotation fitter를 통해 여러 영상을 만든 후 그것을 max pooling 하여 L2Net을 통해 Descriptor를 추출한다.
Scale에 Robustness를 주기 위해서 [그림 3] 과 같이 영상을 피라미드 형식으로 쌓운 후 각각을 Handcrafted block 과 L2-Net 을 적용해 Descriptor를 추출한다.
그리고 Detector는 현재 Repeatability에서 가장 좋은 성능을 나타내는 Key-Net[1]을 적용했다.
2. Triplet Loss
Triplet loss를 기존 영상끼리 사용하는 것과 달리 하나의 영상을 격자로 나눈후 격작끼리 Negative 와 Positive 로 나눠서 격자 속 Descriptor 끼리 metric learning을 진행한다.
Reference
[1]Key.Net: Keypoint Detection by Handcrafted and Learned CNN Filters
[2]HDD-Net: Hybrid Detector Descriptor with Mutual Interactive Learning
1. 회전에 강인함을 주기 위해 rotation filter로 이미지를 회전시키는 것이 핵심인것 같은데 어떤 것이 새로운 점인지 잘 모르겠습니다. 데이터 augmentation을 위해 다들 하고 있던게 아닌가요?
2. 이미지를 gird로 나눠 triplet loss를 하는 것은 알겠으나 그림 4에 나오는 s=1, s=2는 어떻게 적용되는건지 알고 싶습니다.