[CVPR2020]SuperGlue: Learning Feature Matching with Graph Neural Networks

[그림 1] 제안하는 SuperGlue 두 feature의 매칭을 DNN을 통해 진행

이 논문은 SIFT + BF matching 와같이 두 영상의 local descriptor 끼리 유사한 것들끼리 묶고 불필요한 feature 들은 제거하는 알고리즘을 DNN 방식으로 하는 것을 제안합니다. DNN 기반의 Local Descriptor 추출 자인 SuperPoint 의 저자 논문으로 이 논문에서 또한 Superpoint를 Local Descriptor로 사용한다. GNN을 사용해 각 keypoint 간의 정보를 처리하는데 GNN에 관한 지식이 많이 없어, 식에 관해서 생략이 되었다는 점 유의하시길 바랍니다.

1. Intrduction

기존 heuristics방식보다 나은 그와 비슷한 방식의 것들과는 다르게 Local feature로 부터 학습을해 매칭을 진행하는 SuperGlue를 제안한다. GNN(Graph Nueral Networ)를 활용해 각 local feature 의 위치와 생김새를 잘 표현하는 vector를 생성한다. 이 벡터를 후처리하여 두 영상의 local feature 간의 연관성을 학습한다. 이러한 학습 방식을 통해서 매칭은 기존 매칭 방식들이 갖고있던 고질적인 문제들을 해결한다. 그리고 그림 2와 같이 강한 매칭을 통해 여러 각도에서도 매칭이 되도록하여 3D 추정과 포즈 추정에서도 좋은 성능을 낼 수 있도록 도와준다.

2. Method

2.1 Attentional Graph Neural Network

2.1.1 keypoint Encoder

그림 3을 토대로 설명드리면, d는 keypoint descriptor 이고 p는 keypoint position 입니다. 두 정보(d,p)를 모두 고려하여 각 feature들 간의 관계성을 고려하기 위해 keypoint Encoder라는 것을 정의해서 두 정보를 하나로 합칩니다. 합치는 방식은 식(1) 과 같습니다.

[식 1] keypoint Encoder 식

MLP란 Multilayer Perceptron 으로 NN layer이다 이렇게 두 정보를 합치는 방식은 language processiong에서 인기있는 방식이라고한다.

2.1.2 Multiplex Graph Neural Network

Graph의 노드는 각 영상의 keypoint이고, Edge는 두가지로 구성한다. 첫번째는 하나의 영상 내 keypoint 끼리 연결하는 self edges이고, 두번째는 두 영상의 포인트 끼리 연결한는 cross edges이다. GNN을 구성하고 message passing formulation 을 사용하여 두 종류의 Edge를 따라서 정보를 전파한다.
그 결과 GNN은 각 노드에 대해 고차원적인 상태로 시작하여 모든 노드에 대해 주어진 모든 에지에 걸쳐 메시지를 동시에 집계함으로써 각 계층에서 업데이트된 표현을 계산한다.

2.2 Optimal matching layer

두번째 블록인 optimal matching layer는 partial assignment matrix를 생성한다. 이는 두 영상 키포인트간의 유사도 행렬이다. P를 구하는 과정에서 Score를 계산하고, 불필요한 키포인트들을 음의 수로 바꾸는 과정이 진행된다.

3 Result

기존 방법론 대비 월등히 높은 성능을 보이는 것을 확인할수있다.

2 thoughts on “[CVPR2020]SuperGlue: Learning Feature Matching with Graph Neural Networks”

pose estimation AUC는 어떤 방식으로 평가하는 지표인가요?

매칭에 대해서는 설명하고있는데, Pose Estimation에 대해서는 설명이 없는것 같습니다. 마지막 결과를 보면 PoseEstimation AUC라고해서 5도, 10도, 20도에 대한 성능을 리포팅하고 있는데, 해당 결과들은 2D이미지만 가지고 3D Pose를 예측하였을때 정확도인가요?

Leave a Reply Cancel reply

찬호 정 says:

07/14/2020 at 16:20

pose estimation AUC는 어떤 방식으로 평가하는 지표인가요?

지원 김 says:

07/19/2020 at 23:12

매칭에 대해서는 설명하고있는데, Pose Estimation에 대해서는 설명이 없는것 같습니다. 마지막 결과를 보면 PoseEstimation AUC라고해서 5도, 10도, 20도에 대한 성능을 리포팅하고 있는데, 해당 결과들은 2D이미지만 가지고 3D Pose를 예측하였을때 정확도인가요?

안녕하세요 인하님, 좋은 리뷰 감사합니다. 쉽게 설명해주셔서 덕분에 공부가 많이 되었습니다. positional encoding 부분에서 궁금한 점이 있는데요, 하필 sinusoid 형태의…

질문 감사합니다. φ_db와 φ_llm을 곱하는 게 아니 더하는 등의 다양한 조합에 대해서는 논문에 따로 언급하고있지 않습니다. (Supplementary Material에도 따로 없네요)…

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

[CVPR2020]SuperGlue: Learning Feature Matching with Graph Neural Networks

Author: 한 대찬

2 thoughts on “[CVPR2020]SuperGlue: Learning Feature Matching with Graph Neural Networks”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment