[ICCP 2024] ThermalNeRF: Thermal Radiance Fields

이번 리뷰 논문은 열화상과 컬러 영상에서의 Novel View Synthesis를 제안한 논문입니다. 해당 연구 결과는 열화상과 컬러 영상 간의 도메인 갭을 메꾸기 위한 기반이 될 연구라고 생각합니다.

Intro

열화상은 온도, material의 특성 뿐만이 아니라 저조도, 연기와 같은 사람의 눈 혹은 컬러 카메라로부터 관찰하지 못하는 정보들을 읽을 수 있다는 장점을 가집니다. 이러한 장점으로 보안, 구조, 농업 분야에서 활발하게 활용되고 있습니다. 허나, 열화상은 컬러 카메라 대비 텍스쳐 정보가 부족하며, 도메인 차이로 인해 컬러 영상 위주로 발전한 컴퓨터 비젼 분야의 지식들을 활용하기 어렵다는 문제가 존재합니다. 이러한 문제를 해결하기 위해서 열화상과 컬러 카메라 간의 도메인 갭을 줄이기 위한 연구들이 존재하죠.

열화상 카메라와 컬러 카메라 간의 도메인 갭을 메꾸기 위해서 우선 해결해야만 하는 몇 가지 장벽들이 존재합니다. 그 중 하나는 서로 다른 시점입니다. 서로 다른 영상 센서로 촬영한 두 도메인의 영상들은 물리적으로 서로 다른 카메라 시점을 가지게 됩니다. 서로 다른 시점은 영상 정보의 핵심적인 정보인 공간 정보가 일치하지 않기 때문에 활용하기 어렵다는 점입니다. 정리하자면, 같은 시간대에 촬영된 영상이 있더라도 열화상과 컬라 영상 간의 도메인 갭을 메우기 위해서 원초적으로 공간적인 일치 문제를 해결해야만 한다는 이야기 입니다.

해당 문제를 해결하기 위한 대표적인 방법으로 광학적인 일치를 수행하는 방법을 사용하기도 합니다. 허나, 장치가 커지며 외부 충격에 취약하다는 단점이 존재합니다. 이외에도 멀티스펙트럴 간의 특징 매칭을 통한 소프트웨어적으로 두 영상 간의 특징 매칭을 통해 영상 일치를 수행하고자 하는 연구도 존재합니다. XoFTR 등과 같은 뛰어난 연구 결과들에도 불구하고, 두 도메인 간의 갭으로 인해 여전히 문제를 해결하기 위한 노력 중입니다. 저는 이러한 한계를 해결하기 위한 방법으로 Novel View Synthesis이 가능해져 동 시점의 영상을 생성 가능하다면 정말 큰 갭을 메꾸는 영향을 주지 않을까 싶습니다.

결과적으로 무엇을 만들고자 하는 것인지 이해가 안되시는 분들은 fig 1 혹은 최상단의 동영상을 보시면 됩니다. Fig 1은 저자가 드론을 통해 취득한 컬러 영상과 열화상 영상으로부터 3D reconstruction or Novel View Synthesis을 진행한 영상입니다.

여기까지 읽으신 분들 중 일부는 열화상을 그냥 NVS에 태우면 되는거 아닌가? 란 생각을 하시는 분들이 계실 겁니다. 허나… 아쉽게도 그렇지 않습니다. 우선 열화상 영상들은 컬러 카메라 대비 낮은 해상도를 가지고 있습니다. 또한, 대표적인 SfM 기법인 COLMAP에서 열화상 영상으로 복원**을 진행했을 때, 적은 텍스쳐로 인해 매칭 조차 이뤄지지 않는 결과가 태반입니다.
+ 열화상의 낮은 해상도는 하드웨어 자체의 기술적 한계로 고해상도를 가진 센서는 수천만원에 호가할 정도로 높은 가격대를 형성합니다… 하하…
** NVS에 입력 정보로 COLMAP (혹은 3D reconstruction)의 카메라 포즈와 point cloud를 활용합니다.

또한, 알려진 열화상 카메라 포즈를 사용하더라도 thermal을 채널로 확장하여 NVS를 학습시키더라도 material이 가시광선에 맞춰져 설계된 기존 NVS과 열화상에서는 다르게 상호작용하기 때문에 좋은 결과를 내기 힘듭니다.

저자는 위와 같은 문제를 해결하기 위해서 열화상 카메라와 컬러 카메라의 상대적인 포즈를 보정하여 정확한 열화상 카메라 포즈를 복구하고, material-specific properties에 따라 두 모달을 결합합니다 . 이어서 컬러 카메라는 열화상 카메라에 비해 공간 해상도가 훨씬 높은 경우가 많기 때문에 가시 스펙트럼의 정보를 활용하여 초고해상도의 3D 열화상 복원 품질을 구현합니다.

Method

저자는 NeRF Studio에서 대표 기법인 nerfacto를 베이스라인으로 삼아 RGBT로 확장합니다.

Main Idea: Broad-Spectrum Radiance Fields. NeRF와 그 다양한 변형을 포함한 기존의 radiance field model들은 일반적으로 가시 스펙트럼의 방사선을 세 가지 색상 채널(red, green, blue)로 모델링하는 데 중점을 둡니다. 해당 모델링은 standard volume rendering formulation인 Beer–Lambert law를 기반으로 합니다. 해당 모델링은 공간 내 각 지점들이 세 가지 색의 빛을 모두 똑같이 흡수한다고 암시적으로(implict) 가정합니다.

해당 모델링은 불투명하거나 투명한 소재로부터 쬐여진 가시광선에서는 좋은 접근이지만 스테인글라스와 같은 특정 소재에서는 해상 접근이 유효하지 않습니다. 예를 들어 빨간 스테인 글라스는 적색광은 투과하지만, 녹색광과 청색광은 나타나지 않는 결과를 보여주는 결과를 보여줍니다.

이러한 경향은 열화상으로 확장하면 더욱 많은 소재들이 위의 예시와 같이 Beer–Lambert law 위반하는 예시들이 많아지기 시작합니다. 저자는 이러한 문제를 해결하기 위해서 각 공간 위치에 각 wavelength에 대해 별도의 densities (absorption coefficients)를 명시적으로 부여하고 정규화를 도입하여 대부분의 소재에서 이러한 wavelength-specific densities가 유사하게 유지되도록 함으로써 이러한 동작을 모델링합니다.

+ 정리하면 기존 NeRF에서 RGB 따로 densities를 예측하는 MLP를 R-G-B-T 따로 densities를 예측하는 MLP로 변경하겠다.

Image Formation Model. 기존 RGB를 기반으로 하는 NeRF를 정리하면 다음과 같습니다.

3D point x \in R^3 와 viewing direction d \in R^3 를 volume density \omega_{rgb} 과 view-dependent emitted color c_{rgb} = (r, g, b) \in R^3 에 맵핑합니다. 해당 장면은 camera ray r = o + td 에 렌더링 되어집니다. 여기서 origin o \in R^3 와 direction d \in R^3 에 해당합니다. 이는 standard volumetric rendering에 해당하며 다음과 같이 정리됩니다.

위 수식을 통해 ray에 따라 N 개의 샘플을 통해 수치적으로 근사화됩니다.

여기서 ray r이 주어졌을 때 NeRF를 RGB에서 RGBT 영역으로 확장하려면 RGB 색상(r, g, b)에 열화상 이미지의 색상 τ 를 더한 색상을 렌더링하기 위해 4-D color [/latex] c = (r, g, b, \tau ) [/latex]로 변경합니다. 따라서 저자는 c_{therm} := \tau \in R 를 제안합니다.

저자는 가시광선 스펙트럼에서는 관심 있는 물체가 비슷한 파장의 빛을 흡수하는 경향이 있지만 infrared-and-visible light spectrum에서는 그렇지 않다는 것을 관찰했다고 합니다. 예를 들어, fig 2의 pyrex glass bowl이 열적으로는 불투명하지만 시각적으로는 투명한 것처럼 가시광선에는 불투명하지만 적외선에는 투명하거나 그 반대인 물체도 많이 있습니다. 이러한 경향에 따라 저자는 render c_{therm}(r) [/late]의 density를 [latex] \omega_{therm}, \omega_{rgb} 로 구분하여 나누는 것을 제안합니다.

최종적으로 저자가 제안하는 RGBT에 대한 radiance field는 다음과 같습니다.

Optimization and Regularization. F_Θ를 최적화하기 위한 목적 함수는 다음과 같습니다.

여기서 L_rgb와 L_therm은 보정된 GT 영상에 대한 standard pixel-wise photometric L2에 해당합니다. 이는 다음과 같습니다.

여기서 R_rgb와 R_therm은 RGB와 thermal 카메라로부터의 rays에 해당합니다.

Lσ는 L1 regularizer로 RGB와 thermal densities가 서로 적은 3D position x에서만 벗어 나도록 하는 것을 목적으로 합니다. 이는 다음과 같습니다.

저자는 위 정규화를 2 가지 구성으로 적용하여 사용했다고 합니다. 하나는 컬러에 대한 가중치를 규제를 주며 열화상에 대한 그래디언트는 차단합니다. 또 다른 하나는 이와 반대로 구성하였다고 합니다. 이를 통해 fig 2와 같이 각 도메인 특성이 다른 경우에서 어느 도메인에 집중 할지를 정할 수 있다고 합니다.

L_cc는 cross-channel prior [ref 추가 필요]의 분파로 이를 저자가 해당 태스크에 맞게 변경했다고 합니다. 이는 다음과 같습니다.

여기서 c_{rgb}^{gt} = (r^{gt}, g^{gt}, b^{gt} ) *에 해당합니다. 구체적으로, 각 미니 배치 gradient update 중에 batch of pixel patch*를 선택하여 확률적으로 Lcc를 추정하는 방법을 사용합니다.
* NeRF는 batch of pixel patch 단위로 학습합니다.

각 pixel patch에 대해 각 채널에 대한 local spatial gradient을 계산한 다음 컬러 채널에 대한 기울기 를 열화상 채널에 대한 L1 패널티로 부여합니다. Lcc는 참조 가능한 RGB가 존재하는 열화상에만 적용되며, 직관적으로 해석하자면 두 모달 간의 엣지를 추출하여 align되도록 유도하는 것을 목표로 합니다.

각 픽셀 패치에 대해 2D 유한차 커널로 컨볼루션하여 각 채널의 local spatial gradient를 계산한 다음, 가시 채널에 대한 기울기 편차 ℓ1에 대해 열 채널에 페널티를 부여합니다. Lcc는 참조 가능한 RGB가 존재하는 열화상에서만 적용됩니다.

L_tv는 thermally-unsupervised rendered thermal views에 따른 pixelwise total variation regularizer로 다음과 같습니다.

해당 손실 함수는 열화상에 대한 GT가 없는 렌더링된 thermal view(즉, RGB에만 GT가 있는 뷰)에 대해서만 이 작업을 수행합니다. 해당 손실함수는 다음 2 가지 관찰을 통해 제안합니다. 첫째, 열화상은 특징이 희박합니다. 둘째, 열화상 카메라는 RGB 대비 FoV가 낮습니다. 이러한 특징으로 인해 RGB 카메라의 관점에서 렌더링할 때 장면의 열화상 뷰는 이미지의 가장자리나 배경에 노이즈 아티팩트가 나타날 수 있습니다. Ltv를 포함하면 이러한 아티팩트의 출현을 방지하고 열화상 장면의 경계를 확장하여 일반적으로 열화상 카메라의 낮은 FOV를 보완할 수 있습니다.

+ 정리하면, Lcc와 Ltv는 서로 다른 시점을 가진 컬러와 열화상을 사용하면 일치 시키기 위한 손실 함수로 Lcc는 직관적으로 엣지 측면에서 rgb_gt와 일치 시키고, Ltv는 열화상 대비 많은 특징과 높은 해상도 + FoV로 인해 아티팩트가 발생하는 것을 방지하는 것을 목적으로 합니다.

Camera Calibration

Fig 7과 같이 OpenCV에 있는 캘리브레이션 보드를 이용해서 2mm thick aluminum sheet with a 4 × 11 asymmetric grid of circular cutouts를 이용함. diameter는 15mm, center-center distance는 38mm에 해당합니다. 위 보드를 활용해 두 모달 간의 외부 파라미터, rotation R과 translation t를 구합니다. 추가로 내부 카메라 파라미터도 구합니다. 이를 이용해 RGB 카메라와 열화상 카메라 사이의 상대 변환을 계산합니다. 그 다음, RGB 기준으로 COLMAP을 수행하고, 캘리브레이션 보드를 활용해 얻은 정보를 토대로 열화상의 카메라 포즈를 복원합니다. 이 때, 각 장면에 대해 두 카메라 측정값 사이의 물리적 거리를 측정하여 이 카메라 오프셋을 적용할 때 발생하는 global scale ambiguity을 해결합니다.
+ global scale ambiguity은 COLMAP이 예측한 point cloud의 z에 대한 모호성을 해결하는 것을 목적으로 합니다.

Training. NeRF Studio 내의 nerfacto를 기반으로 모델을 제작.

Dataset Collection. 서로 다른 시점을 가진 50-170 영상들로 구성된 9개의 real-wrold scenes에서 테스트를 진행함. 해당 영상은 아이폰에 연결된 FLIR One Pro로부터 영상을 취득함. RGB는 1080x1440, LWIR은 480x640 해상도를 가짐. 각 장면은 10%는 test set으로 구성하고 나머지는 train set으로 구성. 추가로 hotdog 라는 가상 데이터도 제공

Experiments

Qualitative Results. fig 2, 4-6, 8-10, 14에서 정량적 결과를 보여줍니다. 해당 결과에서는 모든 방법에서 RGB에서는 잘 작동하지만 열화상에서는 저자가 제안한 기법에서만 잘 작동한다는 것을 확인할 수 있습니다. 열화상과 컬러를 별도로 재구성한 {RGB}{T}는 일반적으로 열화상의 해상도가 낮기 때문에 카메라 포즈의 정보가 달라져 열화상 재구성에 있어 실패하는 결과를 보여줍니다. 열화상과 컬러를 결합하여 density를 공유하도록 구성한 {RGBT}는 유리와 같은 특정 물체를 재구성하는 데에 있어 실패하고 가시 스펙트럼에서 열 스펙트럼으로 의도하지 않는 표현을 재구성하는 것을 볼 수 있습니다.

Quantitative Results. Tab 1에서 정량적 결과를 확인 할 수 있습니다. {RGB}{T}와 {RGBT} 모두 RGB 장면에서 좋은 결과를 보이지만, 저자가 제안한 기법이 열화상 재구성에서 좋은 결과를 내는 것을 볼 수 있습니다.

Ablation Studies. 열화상에서 각 정규화에 따라 변화되는 성능을 보여주며 L_{omega}에 따른 정성적 변화는 fig 11에서 확인 가능합니다.

Revealing Hidden Objects. fig 12에서는 컬러와 열화상의 density를 분리(L_{omega})하면서 가능한 어플리케이션 예시를 보여줍니다. fig 12의 상단은 컬러 영상 내에서 열화상에서만 관측 가능했던얇은 티슈 뒤의 뜨거운 tea kettle를 컬러 영상에서도 복원하는 결과이며, 하단은 적외선이 뚫지 못하는 유리로 구성된 pyrex 내 cold pack을 컬러 영상과 동일하게 관측 가능하도록 복원하는 결과를 보여줍니다.

Thermal Super-resolution. 추가로 저자는 만약에 컬러와 열화상 영상 간의 완전한 시점 일치된 영상이 존재한다는 전제 하에서 가상의 데이터 hatdog로 실험을 진행했습니다. 실험 결과, fig 13과 같이 열화상이 컬러 카메라의 가이드에 따라 이전에 없던 정보까지 추론이 가능해지면서 열화상에 대한 super-resolution이 가능함을 보입니다.


해당 기법을 활용해서 TransPose 데이터 셋을 가공하고 더 나아가 시점이 일치한 영상을 통해 6D Pose estimation을 수행하고자 합니다. 추가로, 해당 데이터를 통해 더 많은 파생 연구들이 가능할 것이라고 보고 있습니다. 실험이 잘 마무리 되었으면 좋겠네요 ㅠ

Author: 김 태주

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다