[GRSL 2018]A local feature descriptor based on combination of structure and texture information for multispectral image matching

제가 이번에 리뷰할 논문은 서로 다른 두 도메인의 이미지를 매칭하기 위한 방법론에 관해 서베이를 진행하다 읽게 된 논문입니다.

Abstact

multispectral 이미지는 선형으로 변화하지 않기 때문에 매칭이 쉽지 않습니다. 이러한 문제를 해결하기 위해 structure와 texture 정보를 결합하는 새로운 descriptor를 제안한 논문입니다. 저자들은 공통의 structure와 texture를 추출하기 위해 directional map을 제안하였고, gradient 히스토그램의 공간적 풀링을 이용하여 directional map으 기반으로 interest point의 local한 영역을 서술하도록 하였고 이를 HoDMs라 하였습니다. 저자들은 가시광선 영역과 적외선 영역의 영상의 쌍으로 구성된 데이터셋을 이용하여 평가하였다고 합니다. 이제 더 디테일한 내용은 아래에서 추가로 설명하도록 하겠습니다.

Introduction

이미지 매칭에 대한 연구가 진행되어 기하학적 혹은 조도의 변화에는 강인한 매칭이 가능해졌지만 여전히 multi-spectral 이미지 간에 매칭은 낮은 성능을 보였다고 합니다. 이러한 multi-sepctral 이미지의 매칭을 위해 다양한 연구가 진행되었고, 그중 gradient-oriented 정보는 edge와 gradient-structure를 포착할 수 있다고 합니다. 아래의 Fig1에서 확인할 수 있듯이 multi-spectral 이미지에 공통적으로 나타나는 특징을 포착하기 위해 새로운 descriptor를 설계하였다고 합니다. 또한 multi-spectral 이미지간의 밝기 강도 변화가 비선형적이라는 문제를 해결하기 위해 HoDM(histograms of directional maps)라는 local feature descriptor를 설계하였다고합니다. 이는 structure 정보와 texture 정보를 결합하여 다중 스펙트럼 이미지에서 일반적인 특징을 캡쳐하도록 하였다고 합니다.

Method

1. DMs and DBMs

Fig2와 같이 4 방향에 대한 필터를 이용하여 절대값을 구하였다고 합니다.

이미지 (I(x,y))와 필터 (f_k(x,y))는 convolution 연산(∗)을 통해 DM 값을 구하게 됩니다.

Fig 3과 같이 4가지 방향에 대하여 DM을 구하고, texture 정보를 구할때는 threshold를 이용하여 약한 texture는 억제하고, 강한 texture는 유지한다고 합니다. { DM(x,y)^4_1 } 의 최대 값이 threshold T보다 클 경우 픽셀값은 1로 할당이 되고 작을 경우 0으로 할당이 됩니다.

이렇게 0과 1로 구성되도록 만든 것을 DBM(directional response binary map)이라 합니다. 그리고 이때 threshod T는 edge 픽셀의 70%를 상위 threshold로 이용하는 Canny method의 하위 threshold(상위 threshold에 0.4를 곱하여 얻음)로 학습이 된다고 합니다. Fig3의 (b)가 DBMs의 예시입니다.

2. HoDM Descriptor based on DMs and DBMs

출처: Histogram of Gradient (HoG) (donghwa-kim.github.io)

위의 설명은 HoG에 대한 설명을 가져온 것입니다. 해당 논문은 DMs과 DBMs에 HOG의 공간적 pooling을 적용하여 제안하는 HoDM descriptor의 정확도를 높였다고 합니다. 또한 보간법을 사용하는 대신 Gaussian 필터와 평균 필터를 이용함으로써 연산을 효율적으로 진행하였다고 합니다.

Fig 4는 HoDM descriptor를 추출하는 과정을 나타낸 것으로, 다음과 같이 진행이 됩니다.

  1. 4개의 방향에 대한 Sobel 필터를 적용하여 두 도메인에 공동으로 존재하는 특징인 DMs과 DBMs를 추출합니다.
  2. Gaussian 필터를 4개의 DMs에 적용하여 convolved DMs를 얻고, DBMs에 평균 필터를 적용하여 convolved DBMs를 얻습니다. 이후 동일한 크기를 가지는 셀을 만들고, 4개의 셀을 하나의 블록으로 묶어줍니다.(Fig 4의 Block Selection and Description을 보면 빨간색으로 4개의 셀이 한 묶음이 만들어져있고, 초록색 박스도 4개의 셀이 하나의 블록으로 이루어지는 것을 확인할 수 있습니다. 이때 셀의 크기가 어떻게 정해지는 지는 논문에서 자세하게 이야기하지 않고있습니다. 두 셀의 크기가 똑같다는 이야기만 있습니다.)
  3. 일부 영역이 겹치도록 block을 나누고, HOG의 pooling 패턴을 이용하여 DMs와 DBMs로부터 각각 feature vector를 계산합니다.
    • DMs로부터 feature vector 계산. 4 방향의 convolved DMs는 각 방향의 bin에 이용되고, 하나의 블록을 이루는 4개의 셀의 중심 위치에 해당하는 4개 픽셀의 histogram을 결합합니다. feature vector는 16개의 bin으로 이루어져있으며, L2 norm을 적용하여 밝기 변화에 더 강인하도록 합니다. 이렇게 구해진 structure description을 SF라 하고, SF_i는 p개의 블록 중i번째 블록에 대한 feature vector를 의미합니다.
    • DBMs로부터 feature vector 계산. 위의 방식과 동일하게 진행되며, 이렇게 얻은 texture description를 TF라 하고, 마찬가지로 p개의 블록에 대해 feature vector를 구해줍니다.
  4. feature vector를 결합하여 하나의 descriptor를 구성합니다.

Experiments

HoDM descriptor에 대한 평가를 위해 SOTA local feature descriptor인 SIFT, SURF, NG-SIFT, PIIFD, EOH, MFD와 성능을 비교하였다고 합니다.

실험에는 (1) visible과 near-infrared(NIR)로 이루어진 데이터셋(38Potsdam)과 (2) visible과 infrared(LWIR)로 구성된 데이터셋(100CVC27UAV)을 이용하였다고 합니다.

(1)-38Potsdam

  • 38쌍의 visible 이미지와 NIR 이미지로 구성된 Potsdam의 urban 데이터

(2)-100CVC

  • 100쌍의 visible 이미지와 LWIR 이미지로 구성.

(2)-27UAV

  • 27쌍의 visible 이미지와 LWIR 이미지로 구성.
  • 저자들이 수집한 UAV 데이터
데이터셋 예시

Experimental Analyses

AUCPR(area under the precision–recall curve)를 평가 지표로 이용하였습니다.

TABLE 1을 통해 structure 정보와 texture 정보를 모두 사용하는 것이 좋은 descriptor임을 알 수 있습니다.

Fig 6은 각 데이터셋에 대한 average precision–recall curves 그래프이고 TABLE 2는 전체 데이터셋에 대한 AUCPR 성능으로, 다른 방법론들과 비교했을 때, HoDM 방식이 서로 다른 도메인에서의 matching이 잘 되도록 한다는 것을 확인할 수 있습니다. 이는 multi-spectral 이미지의 공통적인 structure와 texture 정보를 포착하였기 때문이라고 주장합니다. 이때, HoDM방식은 블록들이 겹치도록 하여 feature를 추출하므로, 다른 descriptor들과 비교했을 때 훨씬 높은 차원으로 구성이 된다고 합니다. 그러나 아래의 Fig 7은 각 descriptor를 구할 때 걸리는 시간으로, HoDM 방식의 경우 기존의 SOTA 방법론들과 비교했을 때 월등히 빠르다고 합니다.


해당 논문은 multi-spectral 이미지에서 공통의 feature를 추출하여 서로 다른 파장을 이용하므로써 생기는 이미지의 밝기가 비선형적으로 변하는 문제를 해결하고자 한 논문입니다. DBMs로부터 texture 정보를 추출한다는 것이 잘 이해가 가지 않아서, 이에 대한 근거나 설명이 있었으면 좋았을 것 같습니다. 또한, 실험 결과를 분석한 섹션에서, HoDM의 경우 차원이 굉장히 높다라는 말이 있었는데, 활용 측면에서 고려하면 descriptor를 추출하는 시간이 짧더라도, 차원이 커서 다른 이미지들과의 비교가 오래 걸린다면 실제로 적용하기는 어렵다는 점이 아쉬웠습니다. 또한, cell을 구성하는 방식에 대한 자세한 설명이 없어서 아쉬웠습니다.

Author: 이 승현

4 thoughts on “[GRSL 2018]A local feature descriptor based on combination of structure and texture information for multispectral image matching

  1. 안녕하세요. 좋은 리뷰 감사합니다.
    자세한 설명 덕분에 DM이 뭔지 DBM이 뭔지 이해할 수 있었습니다.

    간단한 질문이 있습니다. DBM을 설명하실 때 threshod T에 대해서 간단히 설명해주셨습니다. 상위 threshold라는 표현이 잘 이해가 되지 않는데, edge 픽셀을 내림차순으로 쭉 나열했을 때 위에서부터 70%를 상위 threshold라고 하는 건가요?? threshold라는 거는 하나의 값으로 딱 정해져 있다고 생각했는데 상위, 하위라는 단어가 붙어 헷갈려 질문드립니다.

    감사합니다.

    1. Canny edge detection은 최대한 많은 edge를 추출하면서도 참이기 위한 방법론이라 할 수 있습니다. 이를 위해 canny edge detection은 2개의 threshold를 이용합니다. 우선 낮은 threshold이하에 해당하는 값은 노이즈로 보아 제거를 해줍니다. 이후, 상위의 threshold와 연결이 되어있는 하위 threshold 이상의 선들은 그대로 두고, 연결이 되어있지 않은 선들은 노이즈로 보아 제거를 해주게 됩니다. 즉, 하나의 threshold만을 이용할 경우 선이 끊기는 문제를 해결할 수 있는 방법론이라 생각하시면 될 것 같습니다. 작동 원리는 아래의 블로그를 보시면 이해가 잘 될 것 같습니다!!
      https://com24everyday.tistory.com/370

  2. 안녕하세요.
    multispectral 이미지는 선형으로 변화하지 않는다고 하셨는데, 그 이유를 알 수 있을까요?
    선형으로 변화한다는 것이 두 센서에서 수집된 이미지가 랜즈 굴곡이 있거나 카메라의 위치가 3차원적으로 있기 때문에 발생하는 문제인지 궁금합니다.
    좋은리뷰 감사합니다.

    1. 이 논문에서 의미한 선형으로 변화하지 않는다는 것은, 동일한 포인트들에 대한 서로 다른 파장의 이미지가 하나의 선형식을 이용하여 변환할 수 없다는 것입니다. 이는 다른 파장의 정보는 서로 다른 정보를 가지고 있기 때문입니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다