[ICCV] LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

멀티스펙트럴 데이터셋이 새롭게 나와서 리뷰를 진행하게 됐습니다. 다만 해당 데이터셋은 KIAST셋과 다르게 자동차에서 촬영된게 아닌, 감시카메라를 통해 촬영된 데이터셋 입니다. 정확히 내용은 모르지만, 아마도 AI 전장 카메라 과제가 해당 데이터셋과 연관도가 높을 것이라고 생각됩니다.

Introduction

다른 멀티스펙트럴 데이터셋이 촬영된 이유와 동일하게 해당 데이터셋도 처음 부분에서 멀티스펙트럴 데이터셋의 필요성을 이야기 합니다. 따라서 해당 부분은 생략하겠습니다. 그럼 본 논문에서 공개한 LLVIP 데이터셋이 기존에 공개된 데이터셋과는 어떠한 차별점이 있을까요? 저자는 자신들의 데이터셋은 이전에 공개된 멀티스펙트럴 데이터셋에서 나타내지 않은 large scale, image alignment, low-light scene and a lot of pedestrians를 만족한다고 주장하고 있습니다.

해당 데이터셋은 binocular camera를 통해서 수집하였습니다. 또 이미지들은 시간적으로 엄격하게 aligned 됐다고 합니다. 또 RGB-Thermal이 same field of view and size를 가지도록 cropped 했다고 합니다. 위에 그림을 보면 알 수 있듯, 이렇게 Aligned을 맞췄기 때문에 label은 Thermal 영상을 통해서 진행하였고 해당 annotation을 카피하여 RGB도 동일하게 가져갓다고 합니다. 그 이유로는 RGB는 빛이 적어 사람이 pedestrian을 구별하기 힘들기 때문에 Thermal을 이용해 annotation 하였다고 저자는 논문에서 언급합니다.

그렇다면 이러한 데이터셋 논문의 저자가 이야기하는 해당 논문의 contribution은 다음과 같습니다.

  • 다양한 low-light visual task를 위한 첫번째(?) visible-infrared paired datasets이라고 합니다.
  • low-light visible images에서 label하는 방법을 제안했다고 합니다.(완전히 aligned 된 thermal 영상에서 annotation하고 copy하는 방법을 이야기하는것 같습니다.)
  • image fusion, pedestrian detection, image to image translation 등에 대해서 LLVIP 데이터셋을 평가했다고 합니다.

LLVIP Dataset

먼저 데이터셋 촬영은 HIKVISION DS-2RD8166BJZFY-75H2F/V2로 촬영했다고 합니다. 그리고 데이터셋은 저녁 6시부터 10시까지 촬영하였고, time alignment를 맞추고 수동으로 필터링 작업을 하여 시간적으로 동기화됐고, 높은 퀄리티의 이미지 페어를 가진다고 합니다. 총 데이터셋은 16836장의 페어를 가지며, 26개의 다른 지역에서 촬영됐다고 합니다.

뭐 아시다싶이 두 모달리티의 카메라를 정확하게 aligned 하는것은 쉬운 문제는 아닙니다. 그래서 저자는 본인들 말에 의하면 semi-manual method를 사용했다고 하는데요. 먼저 수동으로 몇장의 페어를 맞추고, 그때 projection transformation을 계산했다고 합니다. 그래서 이를 이용해서 최종적으로 이미지 페어를 얻었다고 합니다. 추가적으로 이러한 작업이 없는 raw 이미지 상태의 이미지도 함께 제공한다고 합니다.

그래서 이러한 자신들의 LLVIP 데이터셋이 기존에 공개된 멀티스펙트럴 데이터셋보다 갖는 장점을 위에 테이블로 나타냈습니다. resolution이 크고, 장수가 많다 정도가 되겠습니다. 그래서 이제 저자는 이러한 자신들의 데이터셋이 유용함을 나타내기위해서 다양한 Task에 적용하여 결과를 나타내고 있습니다.

  1. Image Fusion

먼저 Image Fusion을 진행하였습니다. (제가 지금하고 있는것과 비슷하네요…. 저도 어떻게보면 Image Fusion을 진행하고 있었던것 같은데, 사전조사가 부족했던것 같네요..) FusionGAN,DenseFuse등의 논문을 소개하며 Image Fusion을 수행합니다. 이전의 논문들은 이러한 방법을 통해서 Thermal 이미지 이지만 Visible image의 texture information을 포함하는 fusion image를 만들었다고 합니다. 그래서 본 저자도 자신들의 데이터셋을 이러한 Task에 적용시켰고, 정석적인 결과는 다음과 같습니다.

그리고 이러한 자신들의 Image fusion에 대한 정량적인 평가는 EN(entropy), MI(mutual information), SSIM(structural similarity), VIFF(visual information fidelity for fusion)등으로 평가하였다고 합니다.

다양한 방법에 따른 결과들인데 다른 데이터셋과 비교는 없네요..

2. Pedestrian Detection

Detection은 모두가 아시는듯 진행하였고 모델은 YOLO v3,v5 이용해 평가했다고 합니다.

3. Image Translation

마지막은 Image translation 입니다. pix2pix GAN을 사용하였고 KAIST와 비교하면 다음과 같다고 합니다.

KAIST셋과 결과를 비교하면 성능이 완전히 별로인데요.. 이에 대해서 저자는 pix2pixGAN이 poor generalizatioin ability라서 그렇고, KAIST가 little change를 가지고 있어서 그렇다고 합니다. 또 LLVIP는 low light condition만 가지고 있는 반면 KAIST는 lighting conditions of dark night images가 still good하다고 합니다. (??????????????) 그래서 결국은 정량적으로 낮게 성능이 낮다고 합니다.

결론

전장AI카메라 과제에서 도움이 됐으면 좋겠습니다. (감시용 카메라니까?)

Author: 김 지원

3 thoughts on “[ICCV] LLVIP: A Visible-infrared Paired Dataset for Low-light Vision

  1. 리뷰 잘 읽었습니다.

    몇가지 질문을 드리고 싶은데
    첫째는 semi-manual method에 대해서 조금 더 설명해주실 수 있나요? 본 리뷰 글 내용 중 “먼저 수동으로 몇장의 페어를 맞추고, 그때 projection transformation을 계산했다고 합니다.” 라는 부분이 있는데 이때 projection transformation은 2D에서 2D로의 변환을 의미하나요?

    둘째로 Image Fusion이라는 분야에서 SSIM과 같은 평가는 Fusion된 영상을 어떤 도메인에 비교하는건가요?

    마지막으로 KAIST에서 SSIM이 0.69 가까이 달성했는데 학습과 평가용 셋을 어떻게 구성했는지에 대해서는 따로 말이 없나요? 생각보다 높게 나와서 신기하네요.

  2. 1. semi manual method에 대한 설명은 다음과 같이 한문장이 전부입니다. infraed image가 deform 된다는 것으로 보입니다. 2D to 2D 겠죠?

    ‘ We first manually select several pairs of points that need to be aligned between the two images, then calculate the projection transformation to deform the infrared image, and finally cut out to get the registered image pairs.’

    2. visible image 입니다. 결국 visible image의 texture information을 잘 fused image가 나타내는지 확인하기위함이므로 visible image와 비교하여 평가합니다.

    3. 해당 결과는 다른논문을 인용한 결과이며 인용한 논문은 다음과 같습니다.
    ‘Xiaoyan Qian, Miao Zhang, and Feng Zhang. Sparse gans for thermal infrared image generation from optical image. IEEE Access, 8:180124–180132, 2020.’

  3. 좋은 리뷰 감사합니다. 해당 회사 제품 카메라 검색해보니 sdk 툴도 제공하는거 같은데 연구목적의 EO/IR 카메라로 활용할 여지가 있어보이네요. SDK Tool 에서 어떠한 기능까지 제공하고 있는지 확인해볼 필요가 있는거 같습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다