안녕하세요 이번주는 Image to 3D 논문을 읽어보았습니다. 현실을 시뮬레이터로 옮기는 Real to Sim의 자동화 방법을 고민하다 최근에 TRELLIS라는 모델의 데모를 해보면서 하나의 2D 이미지만 가지고 나온 3D 결과물의 완성도가 아주 뛰어나다는 것을 체감했습니다. 저자들도 2D 이미지로 부터 3D 콘텐츠를 생성하는 기술이 최근 대규모 3D 데이터셋과 딥러닝 기반의 생성 모델들이 발전하면서 엄청나게 빠르게 발전했다고 하네요. 다만 절대적인 단위가 정의돼있지 않고 물리적인면은 반영하지 않기 때문에 (Isaac Sim 시뮬레이터의 경우 1unit = 1M) 시뮬레이터에서 그대로 사용하기에는 다양한 스케일이나 물리적인 오류가 있었습니다. 그러나 기존 접근법들은 입력 이미지를 다양한 각도의 다중 시점 이미지로 합성한 뒤, 그 이미지들을 활용해 3D 모형을 복원하는 방식으로 이루어졌습니다. 다만 이미지 생성하는 부분과 3D reconstruction을 진행하는 부분을 따로 학습해 문제들이 있다고 합니다. Ouroboros3D는 다중 시점 이미지 생성과 3D 재구성 단계를 end-to-end로 통합했다고 합니다. 그래서 혹시 이런 구조에서 기존의 스케일 문제를 해결해볼 수 있지 않을까? 하는 막연한 생각으로 읽어보았습니다.

Introduction
앞서 말했듯 기존 방법들은 일반적으로 멀티뷰 이미지 생성과 3d reconstruction을 따로 진행하는 파이프라인으로 구성하고, 이 과정을 별도로 학습하고 추론시에만 결합하기 때문에 멀티뷰 이미지 생성 단계에서는 diffusion 모델이 2D 이미지 수준에서만 최적화되어, 시점 간 기하학적 일관성을 보장하기 어렵고, 3D 재구성 단계에서는 훈련 시 주로 합성 이미지에 기반하므로 생성한 이미지와의 domain gap이 발생하여 성능이 저하된다고 합니다.
이러한 한계를 해결하기 위해 저자는 멀티뷰 이미지 생성과 3D reconstruction을 하나의 recursive diffusion 안에서 통합해 3D-aware feedback 메커니즘을 통해 재구성된 3D 정보를 이미지 생성에 활용하고 joint training을 통해 두 모듈이 상호작용하며 학습하게 만들어 도메인 차이를 줄이고 더 정교한 결과를 얻을 수 있었다고 합니다. 뿐만 아니라 이 프레임워크는 다양한 종류의 multi-view 생성기 및 재구성기와 호환될 수 있도록 설계되었다고 합니다.

Related Works
멀티뷰 이미지 생성 분야에서는 대부분 디퓨전 기반으로 연구를 진행했다고 합니다. 기존 연구들은 사전 학습된 이미지 또는 비디오 디퓨전 모델을 3D 데이터셋에 파인튜닝하여, 여러 시점의 이미지를 합성하려 노력했다고 합니다. 또한 동영상 생성 diffusion 모델을 활용하여 카메라가 물체 주위를 공전하는 영상 프레임을 생성함으로써 마치 3D를 표현하는 시도를 한 연구도 있었다고 합니다. 이러한 방법들은 명시적인 3D 이해 없이 2D 연속 프레임을 생성하기 때문에 완벽한 기하학적 일관성을 보장하지는 못한다고 합니다.
이미지 기반 3D 재구성 연구에서는 한 장, 또는 몇 장의 사진만으로 3D 객체를 복원하는 Feed-forward 3D reconstruction 모델들이 최근에 등장했다고 합니다. 트랜스포머나 CNN에서 이미지 특징을 받아 3D공간으로 매핑하거나, LGM 모델들 (Large Multi view Gaussian Model)은 3DGS를 활용해 이러한 모델들은 입력 이미지에 대한 일반화 능력이 뛰어나고 속도가 빠른 3D생성을 가능하게 했다고 합니다. 다만 훈련 데이터 분포와 상이한 실제 이미지나 생성 이미지에 대해 완벽히 대응하지 못하는 문제가 있다고 합니다. 따라서 단일 이미지에서 3D 생성 파이프라인을 개선하기 위해 위 두 접근을 결합하려는 시도도 있었다고 합니다. 그래서 사전 학습된 2D 생성 모델의 지식을 3D로 distillation해서 최적화하는 방법을 제시했지만, 시간이 많이 걸린다는 한계가 있었다고 합니다.
최근에는 멀티뷰 diffusion과 feed-forward 3D 재구성 모델을 한 번의 파이프라인으로 묶는 연구들이 나타나 앞의 문제들을 어느정도 해결했지만 diffusion은 여전히 3D에 대한 명시적 제약이 없어 완벽한 시점 일관성을 담보하기 어렵다고 합니다.
Methods

Ouroboros3D는 단일 입력 이미지로부터 시점 일관성이 높은 멀티뷰 이미지와 동시에 정밀한 3DGS 모델을 생성하는 것을 목표로 합니다. 위의 figure와 같이 전체 구조는 크게 세 가지 요소로 구성됩니다. 먼저, Stable Video Diffusion(SVD) 기반의 비디오 확산 모델이 다중-뷰 이미지를 생성하고, 그 결과는 3D Gaussian Splatting 기반 재구성 모델에 의해 3D 형상으로 변환됩니다. 이후 재구성된 3D 결과는 다시 diffusion에 조건으로 투입되어, 3D-aware self-conditioning 메커니즘을 통해 반복적으로 refinement가 이루어집니다.
우선 Stable Video Diffusion (SVD)을통해 멀티뷰 이미지를 생성합니다. 입력 이미지를 기반으로 8개의 프레임으로 구성된 시퀀스를 생성합니다. 기존 방법들은 프레임 단위로 카메라 위치를 인코딩하였기 때문에, 하나의 이미지 내 모든 픽셀이 동일한 위치 정보를 공유하는 문제가 있었다고 합니다. 저자들은 이러한 제한을 극복하기 위해 Plücker ray embedding 방식을 적용했습니다. 각 픽셀 수준에서 광선을 나타내는 r=(o,o×d)를 파라미터화하고, 이 ray 정보를 MLP를 통해 각 latent pixel에 주입함으로써, 픽셀 단위의 정밀한 위치 인코딩을 구현할 수 있다고 합니다. 이를 통해 프레임 간 깊이나 시점 변화에 따른 미세한 구조 차이를 보다 정교하게 표현할 수 있게 됩니다. 또한 모든 노이즈 제거 과정을 한 번에 마치고 나서 3D reconstruction을 수행하는 것이 아니라, sampling loop 내부에서 반복적으로 중간 결과를 추출하고 이를 멀티뷰 생성에 활용해 얻은 결과를 decoder를 통해 실제 이미지로 변환한 뒤에 이후 단계의 3D reconstruction 모듈에 전달한다고 합니다.

이후 3D 재구성은 feed-forward 방식으로 이루어집니다. 이 과정은 멀티뷰 생성 모델로부터 생성된 이미지들을 입력으로 받아 3D 구조를 복원하는 역할을 수행합니다. 이 역할을 수행하기 위해 Large Multi-view Gaussian Model (LGM)이 활용됩니다. LGM은 Gaussian Splatting 기반의 3D 표현을 사용함으로써 실시간 렌더링이 가능한 고효율 구조를 갖추고 있어, 복잡한 3D 모델링에도 적합하다고 합니다.
LGM은 각 반복 단계에서 재파라미터라이즈된 출력 결과들 중 4장의 특정 시점 이미지를 받아 3D Gaussian Splatting 형태의 재구성을 수행합니다. 또한 다양한 노이즈 수준이나 이미지 세부 정보에 대해 강건하게 작동하도록 하기 위해, 기존 U-Net 기반 구조에 zero-initialized time embedding layer를 추가하여 확산 모델의 시간 정보를 재구성 네트워크에도 반영할 수 있도록 했다고 합니다.
학습 시에는 총 8장의 시점 이미지를 물체 주변에서 균등하게 배치하고, 이 중 4장의 랜덤 뷰를 선택하여 supervision 신호로 활용합니다. 이때 사용되는 학습 손실 함수는 아래와 같습니다

I는 정답 multi-view 이미지 집합이며, C는 그에 대응하는 카메라 파라미터입니다. 첫 번째 항은 픽셀 단위의 RGB lss, 두 번째 항은 LPIPS(Perceptual Similarity)를 활용해 시각적으로 더 정밀한 3D reconstructoin이 가능하다고 합니다. 또한 모델이 일반 이미지에 대해서도 정상적으로 재구성할 수 있도록, 노이즈가 섞이지 않은 이미지 cnoise(σ)=0에 대해서도 동일한 손실을 계산합니다. 이러한 구조 덕분에 LGM은 다양한 수준의 노이즈와 다양한 시점에서 생성된 이미지를 안정적으로 처리할 수 있으며, 결과적으로 더욱 풍부하고 정확한 3D Gaussian 표현을 생성할 수 있게 됐다고 합니다.
저자들은 이 파이프라인의 핵심적인 차별점이 3D-aware feedback mechanism이라고 주장했습니다. Diffusion 모델의 denoising loop 안에 재구성된 3D 모델로부터 렌더링된 컬러 이미지와 기하 정보 맵을 조건으로 삽입하는 구조를 가집니다. 기존 방식들이 단순히 추론 단계에서 멀티뷰 생성 결과를 reconstruction 모델에 전달하고 그 결과를 재활용하는 수준이라면 해당 파이프라인은 학습 단계부터 멀티뷰 생성과 3D 재구성 모듈을 통합적으로 학습함으로써 보다 풍부하고 유의미한 피드백 경로를 제공한다고 하빈다.
구체적으로는, 이전 타임스텝에서 재구성된 3D 모델을 기반으로 두 가지 정보를 추출합니다. 첫째는 렌더링된 컬러 이미지(appearance)이고, 둘째는canonical coordinates map(CCM), (정규화된 3D 좌표 정보)입니다. CCM은 기존의 depth map이나 normal map과 달리, 물체 전체를 기준으로 글로벌 3D 위치를 직접 나타내는 지도라고 합니다. (이 부분 떄문에 뭔가 스케일 관련된 해결법이 없을까 하고 봤었습니다) 이를 통해 각 픽셀이 3D 공간 상의 어떤 위치에 대응되는지를 명시적으로 알려주기 때문에 시점 간 정합성 유지에 훨씬 효과적이라고 합니다.
이러한 CCM과 컬러 이미지 피드백을 diffusion 모델의 조건으로 활용하기 위해, 각각을 인코딩하는 경량화된 CNN 기반 인코더를 설계했다고 합니다. 이렇게 얻어진 두 조건 모달리티의 특징은 U-Net 디노이저의 인코더 각 단계의 중간 피처에 추가되어 diffusion에 전달된다고 합니다. 전체 모델은 3D-aware self-conditioning 구조를 따릅니다. 각 반복마다 확률 0.5로 피드백 정보를 실제로 사용할지 여부를 결정하는 probabilistic self-conditioning을 적용합니다. 이는 모델이 항상 3D 정보에만 의존하지 않고 균형 잡힌 학습을 하도록 유도하는 역할을 한다고 합니다. 학습 중에는 reconstruction 모듈을 이용해 멀티뷰 이미지를 명시적인 3D 표현으로 변환하고, 이를 다시 RGB 및 CCM 형태로 렌더링하여 다음 반복의 조건으로 활용합니다.
추론 과정에서는, 초기에는 3D 피드백 조건을 0으로 설정한 후, 각 타임스텝마다 이전에 재구성된 3D 결과를 기반으로 피드백 정보를 업데이트합니다. 이 업데이트된 조건은 다음 노이즈 제거 과정에 입력되어, 이미지 생성과 3D 복원이 반복될수록 점점 더 정교한 결과를 낼 수 있도록 한다고 합니다.
Experiments
Ouroboros3D 학습에는 Objaverse 데이터셋을 활용하였으며, LGM의 기준을 따라 잘못된 캡션이나 텍스처가 누락된 객체들을 엄격히 필터링하여 최종적으로 약 8만 개의 3D 객체가 사용되었다고 합니다. 각 객체에 대해서는 해상도 512×512의 RGBA 이미지로, 카메라가 물체 주위를 공전하며 촬영한 연속 16프레임 두 세트를 렌더링했다고 합니다. 각 프레임은 -5도에서 30도 사이의 임의 고도를 가진 시점에서 촬영됐고 학습 시에는 이 시퀀스에서 총 8프레임을 추출하여 사용했다고 합니다.
모델의 평가에는 GSO(Google Scanned Objects) 데이터셋을 사용하였습니다. 평가의 신뢰성을 높이기 위해 총 100개의 객체를 선정하여 중복을 줄이고 다양성을 유지하도록 노력했다고 합니다. 이 객체들에 대해서는 ground truth를 비디오로 렌더링하고, 첫 번째 프레임을 입력 조건 이미지로 설정하여 성능을 측정하였습니다.
학습은 8개의 A100 GPU를 사용하여 진행했다고 ㅎ바니다. 3D 모델을 output 하는데는 20초 정도가 평균적으로 소요된다고 하네요.
성능 평가는 생성된 다중-뷰 이미지 및 해당 이미지로부터 복원된 3D Gaussian Splatting(3DGS) 결과와, ground truth 영상 간의 유사도를 기반으로 수행됩니다. 주요 평가 지표로는 LPIPS(Learned Perceptual Image Patch Similarity), PSNR(Peak Signal-to-Noise Ratio), SSIM(Structural SIMilarity)이 사용되었습니다. 멀티뷰 이미지 생성은 SyncDreamer, SV3D, VideoMV와 비교하였으며, Image-to-3D 는 TripoSR, LGM, InstantMesh(Nerf) 등 feed-forward 기반의 모델들과 성능을 비교하였다고 합니다. 이 때 LGM과 InstantMesh는 기존의 투스테이지 기법들이라고 합니다. 정성적인 결과를 확인해보면 시점 간 정합성과 디테일 보존이 뛰어난 이미지를 생성하는 것이 시각적으로 확인됩니다.


Table 1을 확인해봤을때도 기존 방법들 대비 정량적인 지표가 좋아졌습니다. 특히 LPIPS가 높아진 것을 확인할 수 있습니다.

또한 Fig. 7에서는 3D-aware feedback의 구성 요소별 기여도를 살펴보기 위한 ablation study 결과가 제시됩니다. No feedback을 보면 어떤 피드백도 사용하지 않은 경우이며, 텍스처와 형태가 전반적으로 흐릿합니다.CCM (geometry feedback)을 사용한 경우, 형태는 개선되었지만 텍스처가 부족하고, RGB (appearance feedback)만 사용한 경우 텍스처는 개선되었지만 형태 정합성이 떨어지는 것을 볼 수 있습니다. 최종적으로 두 가지 피드백을 함께 사용한 경우, 가장 높은 기하학적 정합성과 디테일을 동시에 달성할 수 있었습니다.