[ECCV 2024]Thermal3D-GS :Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis

안녕하세요 손우진입니다.

오늘은 제가 지금 껏 리뷰했던 6D pose estimation 분야가 아닌 graphics 분야의 논문을 들고왔습니다. 이번년도 연구 타이틀은 Multispectral 통해 object perception 과 6D pose estimation 분야가 될거같은데요, 그것을 준비하는 단계로 열화상과 RGB를 software적으로 둘간의 이미지를 정렬시키는 방법이 Gaussian splatting이 되지않을까 해서 들고왔습니다. 그럼 바로 리뷰 시작하도록 하겠습니다.

introduction

본 논문은 제목에서도 보았든, Thermal 영상 환경에서의 novel-view-synthesis라는 비교적으로 다루어지지 않은 문제를 대상으로 합니다. Novel-view synthesis(NVS)는 여러 시점에서 촬영된 이미지들을 이용해 장면의 3차원 구조를 재구성하고, 이를 바탕으로 관측되지 않은 새로운 시점에서의 장면을 렌더링 하는 기술입니다. 이 NVS기술은 가상현실이나 로봇 인식 등 여러 task에서 핵심적인 역활을 수행할 수 있습니다.

기존의 NVS 연구는 주로 RGB 영상기반에서 발전 되어왔습니다. 그중, 3D gaussian splatting 이 NVS 분야에서 빠른 렌더링과 안정적으로 동작하고 실시간 처리에 용이함을 보여주면서 Graphics 분야의 센세이셔널을 일으켰습니다.

하지만 이러한 방법들이 가시광 영상의 가정을 전제로 설계되었기 때문에, 열화상 이미지에서는 RGB의 특징을 살릴 수 없고 정보가 제한적이라 3D rendering하는 것에 큰 한계점이 있습니다.

열화상이미지 같은경우 열 복사 특성을 관측하기때문에 야간, 연기, 안개와 같은 악조건에서도 기본적이 RGB카메라과는 파장이 다르기에 안정적으로 동작 하는 장점을 갖습니다. 이런 장점들을 갖기에 국방쪽이나 자율주행 분야에서 열화상연구가 계속해서 이어지고 있지 않을까 생각이듭니다. 아무튼, 본 논문은 이러한 도메인 갭이 나는 문제를 물리적 현상에서바라보고 물리적 현상을 모델링 함으로써 도메인 갭을 줄여 나갑니다.

저자들이 해결하려는 문제는 대표적으로 두가지라고 합니다.

첫번째로는 열화상영상은 열 복사 특성을 관측하므로 이 특성을 최대한 살리고 유지하고자 합니다. 열 복사 에너지가 이미지로 전달되기까지 외부요소로 인해 많은 감쇠가 일어나고 특히나 이 감쇠의 특성이 시점과 위치에 따라 달라지게됩니다. 원인 중 하나는 대기 중에 떠있는 입자들로 인해 감쇠되는데요, 기존의 3DGS는 이러한 것을 고려하지않는다고 합니다.
그래서 mulit view(다중 시점) 학습 과정에서 일관되지않게 밝기 정보가 누적되다보니 floaters같은 것이 자주보이게 되는 됩니다. 여기서 floaters는 guassian 이 잘못 만들어져서 생성되는것을 말합니다.

두번째로는 Thermal 영상에서는 물체간의 열전도 현상으로 인해 실제 물체 경계에서 온도가 섞이게 되고 이로 인해 경계가 흐려진 채 관측 된다는 것입니다. 예를 들면 어떤 한 뜨거운 물체가 있다면 그 물체에서 내뿜는 열로인해 실제 물체와의 윤곽과는 다르게 좀 더 물체가 크게 나올수 있겠죠 그 열이 다른 물체들로 전달되는 현상때문에 일어나는 것인데요 이 때문에 물체에대해 윤곽이 제대로 포착이 안된다고 합니다 . 이렇게 흐려진 경계가 여러시점에서 포착이 되면서 재구성할때 문제가 되는 것이죠.

앞서 말씀들인것 처럼 이러한 물리적인 현상 첫번째는 대기전달 현상 두번째는 열 전도 현상으로 해석하고 이를 직접적인 물리기반 학습 모듈로 모델링하여 해결합니다. 구체적으로는, 대기 전달로 인한 감쇠효과는 3D gaussian level에서 처리하기 위해 Atomspheric Transmission Field(ATF)를 도입합니다. 또한 열전도로 인해 발생하는 경계 흐림 현상은 3D 구조의 문제가 아니라 영상 공간에서 나타나는 현상으로 간주하고 Thermal Conduction Module(TCM)을 통해
렌더링 된 열화상 결과를 2D 이미지 공간에서 보정합니다.

최종적으로, 이러한 두 모듈은 기존 3D Gaussian Splatting 프레임워크에 자연스럽게 통합되며, 전체 모델은 다중 시점 열화상 관측을 end-to-end 방식으로 학습하게됩니다. 이를 위해 렌더링된 novel-view 결과가 실제 열화상 관측과 일치하도록 하는 손실함수를 도입하고, 제안한 물리 기반 모듈들이 시각적 품질을 동시에 향상시키도록 유도합니다.

그리고 추가적으로 저자들은 이를 검증하기에 평가하기위한 Dataset이 제한적이라 Thermal Infrared Novel-view Synthesis Dataset을 구축하였습니다. 이 Dataset은 열화상 NVS작업을 위한 최초의 데이터셋이라고 합니다. 실내 7개의 장면 7개의 지상 기반 장면 6개의 UAV기반 장면을 포함 6664프레임의 이미지로 구성된 20개의 실제 열화상 장면으로 구성된다고합니다.

저자들의 Contribution 을 정리하면 아래와 같습니다.

  • Thermal3DGS라는 물리 기반 3D Gaussian Splatting 방법이 특히 열 적외선 novel-view synthesis 작업을 위해 제안되었습니다.
    Thermal3D-GS는 신경망을 통해 대기 투과 및 열 전도 물리적 프로세스를 모델링하여 네트워크를 최적화하고,
    네트워크를 최적화하기 위해 온도 일관성 제약 조건을 손실 함수로 도입합니다.
  • 본 논문에서는 TI-NSD라는 열 적외선 novel-view synthesis를 위한 최초의 대규모 데이터 세트가 구축되었습니다. TI-NSD는 7개의 실내 장면, 7개의 지상 기반 실외 장면, 6개의 UAV 기반 장면을 포함하여 총 6,664프레임의 열 적외선 이미지로 구성된 20개의 실제 열 적외선 장면으로 구성됩니다.
  • TI-NSD에 대한 광범위한 실험이 수행되어 제안된 데이터 세트에서 주류 방법의 성능을 평가합니다. 또한 실험을 통해 제안된 방법은 기준 방법에 비해 PSNR에서 평균 3.03 dB 향상을 입증했습니다.

Method

Thermal 3DGS 의 방법론은 생각보다 간단합니다. 앞서 intro에서 말씀드린 물리적현상을 모델링함으로써 두 모듈을 추가하고 그에대한 loss를 설계하였습니다. 3D gaussian을 rendering하기 전에 Colmap이라는 과정을 거치게 되는데요 그것은 기존 gaussian splatting과 동일하게 이루어집니다.

이 Colmap이 하는 역활을 간략하게 정리해보면 이미지와 이미지사이의 특징점을 추출하고 매칭함으로써 이미들간에 공통적으로 관찰되는 point들을 3D point 로 재구성하고 각 이미지들의 카메라 포즈를 예측해서 출력합니다. 출력된 3D point 들은 3DGS의 초기값으로 사용됩니다. 그럼 각모듈에 대해 설명드리도록 하겠습니다.

Atmospheric Transmission Field (ATF)

ATF는 열적외선 novel-view synthesis에서 발생하는 구조적 불안정의 원인을 열 복사 에너지가 카메라에 도달하기까지의 대기 전달 과정이라 해석합니다. 저자들은 열화상 영상에서 관측되는 밝기 변화가 Gaussian 자체의 속성 변화가 아니라, 대기 중 입자에 의한 감쇠 효과로 인해 발생한다고 해석한다. 이러한 관점은 Beer–Lambert 법칙에 기반에 설명 할 수 있다고 합니다. 열 복사 에너지는 아래 수식으로 설명 할 수 있습니다.

I_{0} 는 감쇠 이전의 열 복사 강도 \mu는 대기 중 입자에 의한 흡수 와 산란 효과를 포함하는 감쇠 계수 입니다. d는 물체–카메라 간의 대략적인 거리입니다. 여기서 감쇠 계수 \mu\mu_{abs} + \mu_{sca} 입자에의한 흡수(absorption) 산란(scatter)로 표현할 수 있습니다.

저자는 이를 모델링하여 감쇠계수를 예측합니다

입력으로는 3D Gaussian의 공간적 위치 x와 관측 시간 t가 사용됩니다.
\gamma(\cdot)는 mlp를 고려햐여 positional encoding으로, 위치와 시간 정보를 다중 주파수 공간으로 확장하여 네트워크가 공간적·시간적 변화를 효과적으로 학습할 수 있도록 합니다

이렇게 ATF를 통해 예측된 감쇠 계수는 Gaussian의 appearance에 직접적으로 적용됩니다. 논문에서는 각 Gaussian이 갖는 기본적인 SH 계수를 SH_0로 두고, 대기 전달에 의한 감쇠 효과를 반영한 실제 SH 계수는 다음과 같이 정의합니다.

이 식은 ATF가 예측한 흡수 계수 \mu_{\text{abs}}, 산란 계수 \mu_{\text{sca}},
그리고 유효 거리 항 d가 Gaussian의 기본 appearance를 스케일링하는 방식으로
대기 전달 효과를 모델링함을 보여줍니다.

즉, Gaussian이 가지는 고유한 열 복사 특성은 SH_0에 보존하고,대기 중 감쇠로 인한 밝기 변화만을 지수항을 통해 분리하여 반영합니다. 이러한 설계를 통해 동일한 Gaussian이라 하더라도, 관측 시점이나 시간에 따라 달라지는 대기 조건을 반영할 수 있으며, 다중 시점 학습 과정에서 발생하던 밝기 불일치 문제를 효과적으로 완화할 수 있다고 합니다.

Thermal Conduction Module(TCM)

ATF가 대기 전달로 인한 전역적인 감쇠 문제를 다루는 반면, 열화상 영상에서는 물체 간 열전도(thermal conduction) 로 인해 경계 부근의 온도 분포가 퍼지며 윤곽이 흐려지는 문제가 추가적으로 발생합니다. 저자들은 이러한 현상을 2D 온도장 상에서의 열전도로 해석하며, 열전도 방정식으로부터 그 영향을 설명합니다.

논문에서는 열전도 현상을 미소 영역에서의 에너지 보존 법칙을 통해 유도하고, 최종적으로 열화상 이미지에 적용 가능한 2D 열전도 방정식을 다음과 같이 제시합니다.

여기서 u는 열화상 이미지 상의 온도 분포를 의미하며, \Delta는 2차 미분으로 구성된 2D Laplacian 연산자입니다. 이 식은 열전도로 인한 온도 변화가 온도 분포의 곡률, 즉 2차 기울기에 의해 결정된다는 점을 의미합니다. 계수 \alpha는 물질의 열전도 특성을 반영하는 상수로, 열전도에 대한 반응 속도를 조절하는 역할을 합니다.

하지만 실제 열화상 영상에서는 \alpha가 픽셀마다 다르게 나타나며, 재질, 표면 상태, 접촉 조건 등 다양한 요인에 의해 공간적으로 불균일한 특성을 보입니다. 이러한 픽셀 단위의 이질성 때문에, 전통적인 물리 기반 방식으로는 열전도로 인한 영상 왜곡을 정확히 모델링하기 어렵다고 저자들은 지적합니다.

이를 해결하기 위해 논문에서는 Thermal Conduction Module (TCM) 을 제안합니다. TCM은 열전도 방정식에서 핵심 역할을 하는 2차 미분(Laplacian) 항에 착안하여, 입력 열화상 이미지로부터 2차 기울기 정보를 추출한 뒤 이를 원본 이미지 특징과 함께 합성하는 CNN 기반 모듈입니다. 이 과정은 각 픽셀 위치에서의 열전도 강도, 즉\alpha를 학습적으로 근사하는 역할을 수행한다고 볼 수 있습니다.

TCM은 이러한 정보를 바탕으로 잔차 형태의 보정을 수행하며, 열전도로 인해 손실된 경계 정보를 복원하는 것을 목표로 합니다. 결과적으로 TCM은 열전도 방정식을 직접적으로 해석하거나 수치적으로 푸는 방식이 아니라, 열전도의 핵심 물리적 특성을 반영한이미지 공간 보정 모듈로 작동합니다.

Discontinuous Loss

이제 저자들이 사용하는 최종 loss 함수를 살펴보겠습니다. 이를 위해 최종 loss는 다음과 같이 정의됩니다.

이 식은 세 가지 손실 항의 가중합으로 구성되어 있습니다.

먼저 \mathcal{L}_{1} loss는 픽셀 단위에서의 절대 오차를 최소화하는 항으로, 렌더링된 열화상 결과가 실제 관측된 열화상과 전반적으로 일치하도록 유도합니다. 이는 기본적인 재구성 정확도를 보장하는 역할을 합니다.

다음으로 \mathcal{L}_{\text{D-SSIM}} loss는 구조적 유사성을 고려하는 항으로, 열화상 이미지에서 중요한 전역적인 구조를 유지하도록 돕습니다. 이를 통해 단순한 밝기 일치뿐 아니라, 시각적으로 자연스러운 재구성을 유도합니다.

다음으로 \mathcal{L}_{\text{D-SSIM}} loss는 구조적 유사성을 고려하는 항으로, 열화상 이미지에서 중요한 전역적인 구조를 유지하도록 돕습니다. 이를 통해 단순한 밝기 일치뿐 아니라, 시각적으로 자연스러운 재구성을 유도합니다.

마지막으로 \mathcal{L}{\text{dis}}Discontinuous Loss로, Harris corner detector의 응답을 기반으로 정의됩니다. 논문에서는 먼저 각 픽셀의 코너 응답을 다음과 같이 계산합니다.

여기서 M은 이미지 gradient로부터 계산되는 공분산 행렬이며, R 값이 클수록 해당 픽셀이 코너일 가능성이 높음을 의미합니다. 즉, 이 응답 값은 이미지 내에서 불연속적이거나 급격한 구조 변화가 발생한 위치를 나타냅니다. 이 코너 응답을 이용해 Discontinuous Loss는 다음과 같이 정의됩니다.

이 식에서 첫 번째 항 \frac{R}{R_{max}}는 정규화된 코너 응답으로, 코너 가능성이 높은 픽셀일수록 손실에 더 큰 가중치를 부여합니다. 두 번째 항은 학습 iteration에 따라 감소하는 계수로, 훈련 초기에 Discontinuous Loss의 영향을 크게 주고 학습이 진행됨에 따라 점차 그 영향을 줄이기 위한 장치입니다. 마지막 \mathcal{L}_1 항은 해당 픽셀에서의 재구성 오차를 의미합니다.

즉, Discontinuous Loss는 코너 및 불연속 영역에서의 재구성 오차를 강조함으로써, 열화상 이미지에서 물리적으로 부자연스러운 구조나 아티팩트가 모델에 의해 생성되는 것을 억제하는 역할을 합니다.

Experiments

이제 제안한 Thermal3D-GS의 성능을 정량적·정성적으로 평가한 실험 결과를 살펴보겠습니다. 저자들은 실험을 통해 제안한 물리 기반 모듈(ATF, TCM)이 열적외선 novel-view synthesis 성능 향상에 실질적으로 기여하는지를 검증합니다. 또한 데이터셋은 저자들이 구축한 indoor , outdoor, UAV 에서 촬영한 데이터셋으로 평가를 합니다. 데이터셋이 없어 그걸로 평가한다고합니다. 제가 궁금했던 요소는 indoor scene에서의 물체에 어떤 트릭을 썼는지 궁금했는데요, 저자들은 Object를 확실히 구분하기위해 아이스 콜라, 뜨거운 물병 주변온도와 확실히 구분할 수 있게 설정했다고합니다.


우선 저자들이 제안한 데이터셋을 통해 indoor , outdoor, UAV 에서 촬영한 데이터셋이 기존 3D GS 보다 평균 적으로 PSNR 기준 평균 약 3.03 dB의 개선을 달성합니다. 특히 기존 RGB 기반 NVS 방법들은 열화상 환경에서 밝기 불일치와 구조적 불안정으로 인해 성능 변동이 큰 반면, Thermal3D-GS는 비교적 안정적인 성능을 유지합니다.


정성적인 평가로는 저자가 얘기한 Floater 나 윤곽이 사라지는 정보들을 보정한다고 얘기를 합니다. 제가 관심있게 봤던것은 indoor씬에서 3DGS보다 정성적인 그림으로는 렌더링이 잘되는거 같아 이용을 해봐야할 것 같습니다. 하하 그리고 저자들은 UAV로 찍은 영상으로는 비행중에 높은 속도로인해 모션 블러가 발생하여 제안된 Thermal 3DGS가 모션블러에도 강인하다고 주장합니다.

다음 으로는 Ablation study입니다. 먼저 기본 3D Gaussian Splatting 모델에 ATF만을 추가한 경우, 전반적인 재구성 성능이 눈에 띄게 향상됩니다. 특히 다중 시점에서 발생하던 밝기 불일치와 구조적 불안정이 크게 완화되며, PSNR과 SSIM 지표 모두에서 가장 큰 성능 상승을 보입니다. 이는 열화상 NVS에서 문제점인 시점·거리·대기 조건에 따른 intensity 불일치가 ATF를 통해 효과적으로 잘된 것 같습니다

또한, TCM(윤곽)만을 단독으로 적용한 경우에는 전역적인 성능 향상은 제한적이지만, 물체 경계 부근의 시각적 품질이 일부 개선되는 경향을 보입니다. 이는 TCM이 열전도로 인해 발생하는 국소적인 경계 흐림 문제를 다루는 모듈로서,
전역적인 밝기 안정성보다는 윤곽의 선명에 더 큰 영향을 미치기 때문에 그런게 아닐까 싶습니다..

결론적으로는, ATF가 열화상 NVS 성능 향상의 핵심적인 역할을 수행하며, TCM은 이를 보완하여 시각적 완성도를 높이는 역할을 한다는 점을 명확히 보여줍니다.

Conclusion

이 논문을 통해 느낀 점은, indoor scene에서 의미 있는 열화상 실험을 하기 위해서는 물체 설계 자체에 의도적인 장치가 필요하다는 점입니다. 저자들은 실내라는 통제된 환경에서도 열 복사 감쇠와 열전도 현상이 충분히 드러나도록 물체의 재질, 온도 분포, 배치 관계를 설계했으며, 이는 단순한 실내 촬영만으로는 물리적 한계를 검증할 수 없다는 점을 분명히 보여줍니다.

또한 열전도로 인해 흐려지는 경계 문제는 thermal 기반 인식과 6D pose estimation에서 직접적인 오차 원인이 될 수 있으므로, 향후 indoor 실험에서는 경계를 의도적으로 부각시키거나 왜곡이 발생하도록 설계한 물체와 환경이 필요하다는 확신을 갖게 되었습니다.

마지막으로 열화상도 GS가 가능하다는 것을 보고 이를 RGB와 열화상 모두 gaussian splatting으로 NVS를 통해 두 이미지가 서로 alignment를 맞출 수 있지않을까 생각하게 되었습니다. 감사합니다!

Author: 손 우진

Leave a Reply

Your email address will not be published. Required fields are marked *