안녕하세요, 정의철 연구원입니다. 이번에 소개할 논문은 지난번 KCCV 학회에 참관했을 때 포스터 세션에서 접하게 된 논문인데, 제목은 ‘Latent Space Geometry in Diffusion Models’입니다. 이 논문은 Diffusion Models의 latent space을 기하학적 관점에서 분석한 연구로 기저와 접선 공간의 변화를 관찰하여 DMs의 구조를 탐구한 논문입니다. 그럼 바로 리뷰 시작하겠습니다.
1. Introduction
diffusion models(DMs)은 강력한 생성 모델로, 인상적인 성능을 입증했습니다. DMs는 텍스트-이미지 합성, inverse problems, image editing 등 놀라운 응용 사례들을 보여주고 있습니다. 이러한 성과에도 불구하고, 연구 커뮤니티는 DMs의 latent space과 생성된 결과에 미치는 영향에 대한 포괄적인 이해가 부족합니다. 지금까지는 diffused images를 latent 변수로 간주했지만, 결과를 제어하는 데 유용한 속성은 없습니다. 예를 들어, latent space에서 특정 방향으로 이동하면 결과에 이상한 변화가 나타납니다. 다행히도 Kwon et al. [26]은 diffusion 커널의 중간 특징 공간을 semantic latent space으로 간주하고, 이를 통해 생성된 이미지를 제어하는 데 유용함을 보여줍니다. 비슷한 맥락에서, 일부 연구는 결과를 제어하거나, 샘플 품질을 향상시키거나, 또는 semantic segmentation와 같은 다운스트림 작업을 위해 self-attention 또는 cross-attention의 피처 맵을 조사합니다.
그러나 latent 변수 {xt}가 존재하는 Space Xt의 구조는 아직 탐구되지 않았으며, 이는 DMs를 이해하는 데 중요한 역할을 합니다. 이는 탐구하는데 어려운 이유는 다음과 같다고 합니다.
1) 모델은 입력에 의존하지 않는 forward 노이즈를 추정하도록 훈련되며, 이는 분류나 유사성 등의 일반적인 지도학습과는 반대의 방식입니다.
2) 여러 반복적인 타임스텝에 걸쳐 많은 latent 변수가 존재합니다. 본 논문에서는 리만 기하학의 풀백 메트릭 개념을 사용하여 X에 로컬 기하학을 도입함으로써, X와 그에 상응하는 표현 H를 함께 분석하고자 합니다.
첫째, 저자는 X의 로컬 latent 기저와 H에 해당하는 로컬 접선 기저를(local latent basis) 발견합니다. 로컬 기저는 X에서 H로의 매핑의 야코비안에 대해 특이값 분해(SVD)를 수행하여 얻습니다. 발견된 로컬 latent 기저를 검증하기 위해, 기저를 따라 이동함으로써 실제 이미지를 semantic으로 의미 있는 방식으로 편집할 수 있음을 입증합니다. 또한, 발견된 로컬 latent 기저 벡터를 사용하여, 유사한 로컬 기하학적 구조를 보일 때 평행 이동을 통해 다른 샘플을 편집할 수 있습니다. 기존의 편집 방법들은 self-attention 또는 cross-attention 맵을 여러 타임스텝에 걸쳐 조작하는 반면, 저자는 특정 타임스텝에서 단 한 번 xt를 조작합니다.
둘째, 저자는 다음과 같이 타임스텝과 샘플에 따라 latent 구조가 어떻게 다른지를 조사합니다. 로컬 latent 기저의 주파수 영역은 생성 과정에 따라 저주파에서 고주파로 이동합니다. 저자는 power 스펙트럼 밀도 분석을 사용하여 이를 명시적으로 확인합니다. 생성 과정이 진행됨에 따라 서로 다른 샘플의 로컬 tangent spaces간의 차이는 커집니다. CelebA-HQ나 Flowers와 같이 정렬된 데이터셋으로 모델을 훈련시킨 경우, 다양한 diffusion 타임스텝에서 로컬 tangent spaces은 서로 유사합니다. 그러나 ImageNet과 같은 복잡한 데이터셋에서는 이러한 동질성이 발생하지 않습니다.
마지막으로, 텍스트-이미지 DMs의 latent 구조에 프롬프트가 어떻게 영향을 미치는지 다음과 같이 조사합니다. 유사한 프롬프트는 유사한 latent 구조를 생성합니다. 구체적으로, 프롬프트의 유사성과 로컬 tangent spaces의 유사성 사이에는 긍정적인 상관관계가 있음을 발견했습니다. 텍스트가 로컬 tangent spaces에 미치는 영향은 생성 과정이 진행됨에 따라 약해집니다.
저자의 연구는 리만 기하학을 사용하여 X와 H의 기하학을 조사합니다. 저자는 X의 latent 구조와 그것이 생성 과정에서 어떻게 진화하며 프롬프트에 의해 어떻게 영향을 받는지를 발견했습니다.
2. Related works
Diffusion Models 최근 Diffusion Models(DMs)에서의 발전은 이미지 합성 분야에서 큰 진전을 이루며 최첨단 성능을 보여주고 있습니다. Diffusion Models의 중요한 주제 중 하나는 생성 과정을 제어하기 위해 classifier-free guidance를 포함한 gradient guidance의 도입입니다. Song et al.의 연구는 SDE(확률 미분 방정식)를 사용하여 DMs를 스코어 기반 모델과 통합함으로써 DMs를 역 Diffusion 과정으로 이해하는 데 기여했습니다. 그러나 여전히 latent space에 대한 연구는 미흡한 상태입니다.
GANs에서의 latent space 연구 최근 몇 년간 latent space 연구는 큰 주목을 받고 있습니다. 생성적 적대 신경망(GANs) 분야에서는 생성된 이미지에서 원하는 효과를 얻기 위해 latent space을 manipulation하는 다양한 방법이 제안되었습니다. 최근 몇몇 연구는 GANs의 latent space의 기하학적 특성을 분석하고, 이를 이미지 manipulation에 활용했습니다. 이러한 연구들은 latent space의 특성을 더 잘 이해할 수 있게 하며, GANs의 분석 및 활용을 촉진합니다. 반면에, DMs의 latent space은 아직 충분히 이해되지 않아 그 능력을 완전히 활용하기 어렵습니다.
DMs에서의 이미지 manipulation 초기 연구로는 Choi et al. [11]와 Meng et al. [33]이 DMs의 결과 이미지 manipulation을 시도했으며, 이를 통해 latent 변수를 교체하여 원하는 랜덤 이미지를 생성할 수 있게 했습니다. 그러나 DMs의 latent 변수에는 semantic 정보가 부족하여, 현재의 접근 방식들은 semantic 이미지 편집에 중요한 문제를 가지고 있습니다. 이에 대한 대안으로 U-Net의 피처 공간을 사용하여 semantic 이미지 manipulation의 가능성을 탐구하는 접근 방식들이 있습니다. 예를 들어, Kwon et al. [26]은 U-Net의 병목 구간인 H를 semantic latent space으로 사용할 수 있음을 보여주었습니다. 구체적으로, 이들은 CLIP을 사용하여 H 내에서 실제 이미지 편집을 촉진하는 방향을 식별했습니다. Baranchuk et al. [6]와 Tumanyan et al. [54]은 U-Net의 피처 맵을 semantic segmentation와 생성된 이미지의 구조 유지에 사용했습니다. 이전 연구들과 달리, 저자의 편집 방법은 supervision없이 편집 방향을 찾아내고, latent 기저를 따라 latent 변수를 직접 탐색합니다.
리만 기하학(Riemannian Geometry) 몇몇 연구들은 리만 기하학을 적용하여 Variational Autoencoders(VAEs) 및 GANs와 같은 딥 생성 모델의 latent space을 분석했습니다. Shao et al. [48]은 이미지 공간의 유클리드 메트릭에서 latent space으로의 풀백 메트릭을 제안하여 latent space의 기하학을 분석했습니다. 이 방법은 latent space에서 이미지 공간으로의 미분 가능 맵만 있으면 되기 때문에 VAEs와 GANs에서 널리 사용되고 있습니다. 그러나 풀백 메트릭을 활용하여 DMs의 latent space의 기하학을 조사한 연구는 없습니다.
3. Discovering the latent basis of DMs
이 섹션에서는 미분 기하학을 사용하여 X의 latent 구조를 추출하는 방법을 설명합니다. 먼저, 저자 방법의 핵심 개념인 풀백 메트릭을 소개합니다. 다음으로, H의 로컬 유클리드 메트릭을 적용하고 풀백 메트릭을 활용하여 X의 로컬 latent 기저를 발견합니다. 또한, 발견한 방향이 로컬이라는 점에도 불구하고, 이를 평행 이동을 통해 다른 샘플에 적용할 수 있는 방법을 보여줍니다. 마지막으로, 이미지 생성의 품질을 향상시키기 위해 X에서 데이터를 편집할 수 있는 x-space 가이던스를 소개합니다.
3.1 풀백 메트릭(Pullback metric)
저자는 latent 변수 xt가 존재하는 a curved manifold X를 고려합니다. 미분 기하학은 X를 각 지점 x에서 정의된 벡터 공간인 tangent 공간 Tx의 패치로 표현합니다. 그런 다음, X의 모든 기하학적 속성은 Tx에서 ||dx||² = ⟨dx, dx⟩x의 내적을 통해 얻을 수 있습니다. 그러나 이는 유클리드 메트릭이 아니고, DMs의 중간 타임스텝에서의 xt 샘플에는 필연적으로 노이즈가 포함되어 있어 Tx에서 의미 있는 방향을 찾기가 어렵습니다.
다행히도 Kwon et al. [26]은 U-Net의 병목 계층에 의해 정의된 H가 로컬 선형 구조를 보인다는 사실을 발견했습니다. 이를 통해 저자는 H에 유클리드 메트릭을 적용할 수 있습니다. 미분 기하학에서, 메트릭이 사용 불가능한 공간이 있을 때, 풀백 메트릭을 사용합니다. 원래 메트릭이 없는 도메인과 메트릭이 있는 공역 사이에 매끄러운 맵이 존재하면, 풀백 메트릭을 사용하여 도메인 공간에서 거리를 측정합니다. 저자의 아이디어는 H에서의 유클리드 풀백 메트릭을 사용하여 X의 샘플 간 거리를 정의하는 것입니다.
DMs는 각 diffusion 타임스텝 t에서 latent 변수 xt로부터 노이즈 ϵt를 추론하도록 훈련됩니다. 각 xt는 서로 다른 t에서 U-Net의 병목 표현인 내부 표현 ht를 가집니다. X와 H 사이의 미분 가능한 맵은 f: X → H로 표시됩니다. 여기서부터 xt를 간단히 x로 표기합니다. 저자의 방법은 디노이징 과정의 어느 타임스텝에서나 적용될 수 있습니다. 저자는 도메인과 공역 tangent 공간 사이의 선형 맵 Tx → Th를 고려합니다. 이 선형 맵은 Jx = ∇xh로 표현되는 야코비안에 의해 설명되며, 이는 Tx의 벡터 v가 Th의 벡터 u로 매핑되는 방식을 결정합니다(u = Jxv).
H의 로컬 선형성을 이용하여, 저자는 유클리드 공간에서 정의된 일반적인 점곱으로서의 메트릭 ||dh||² = ⟨dh, dh⟩h = dhᵀdh를 가정합니다. X에 기하학적 구조를 부여하기 위해, 저자는 해당 H의 풀백 메트릭을 사용합니다. 즉, v ∈ Tx의 노름은 대응하는 공역 tangent 벡터의 노름으로 측정됩니다:
3.2 로컬 latent 기저 찾기
풀백 메트릭을 사용하여, 저자는 Th에서 큰 변동성을 보이는 Tx의 로컬 latent 벡터 v ∈ Tx를 정의합니다. 저자는 ||v||²_pb를 최대화하는 단위 벡터 v₁을 찾습니다. v₁에 대해 직교성을 유지하면서 ||v||²_pb를 최대화함으로써 두 번째 단위 벡터 v₂를 얻을 수 있습니다. 이 과정을 반복하여 Tx에서 {v₁, v₂, ···, vn}과 같은 n개의 latent 방향을 얻을 수 있습니다. 실제로, vi는 Jx = UΛVᵀ의 특이값 분해(SVD)로부터 얻은 i번째 오른쪽 특이 벡터에 해당하며, 즉 Jxvi = Λiui입니다. 너무 많은 매개변수의 야코비안은 다루기 어렵기 때문에, 저자는 Jx의 SVD를 근사화하기 위해 power method을 사용합니다. 앞으로, Tx를 로컬 latent 하위 공간으로, {v₁, v₂, ···, vn}을 해당 로컬 latent 기저로 표현됩니다.
Tx와 Th 사이의 선형 변환을 Jx의 야코비안으로 통해, Th에서의 대응 방향도 얻을 수 있습니다. 실제로, ui는 Jx의 i번째 왼쪽 특이 벡터에 해당합니다. 큰 고유값의 상위 n개의 방향(예: n = 50)을 선택한 후, 저자는 Th에서 {u₁, u₂, ···, un}의 유한한 기저를 통해 Th의 임의의 벡터를 근사할 수 있습니다. 여기서부터 로컬 tangent 공간을 언급할 때, 이는 원래 tangent 공간의 n차원 저차원 근사화를 의미합니다.
제안된 방법을 통해 얻은 로컬 latent 기저 벡터 {v₁, v₂, ···, vn}은 주어진 x에 대해 모델이 크게 반응하는 신호로 해석될 수 있습니다. 반면에, 로컬 tangent 공간의 기저 {u₁, u₂ ···, un}는 해당 신호와 관련된 표현으로 간주될 수 있습니다.
Stable Diffusion에서는 프롬프트도 야코비안에 영향을 미치므로, 로컬 기저 또한 프롬프트에 의존하게 됩니다. 저자는 로컬 latent 기저를 얻기 위해 어떤 프롬프트도 사용할 수 있으며, 다른 프롬프트는 고유한 기하학적 구조를 생성합니다.
3.3 Generating edited images with x-space guidance
latent 벡터 ( v )를 사용하여 latent 변수 x를 Manipulate하는 단순한 접근법은 x + γv와 같은 단순 덧셈입니다. 그러나 이 단순한 접근법은 때때로 노이즈가 있는 이미지 생성으로 이어질 수 있습니다. 이 문제를 해결하기 위해, 저자는 직접적으로 manipulation에 basis를 사용하는 대신, 디코더를 한 번 거친 basis 벡터를 manipulation에 사용합니다. x-space guidance는 다음과 같이 정의됩니다:
여기서 γ는 편집의 강도를 조절하는 하이퍼파라미터이고, ϵθ는 diffusion 모델입니다. 식 (4)는 classifier-free guidance(classifier-free guidance)에서 영감을 받았지만, 중요한 차이점은 이 방법이 latent 공간 X에서 직접 적용된다는 점입니다.
3.4 The overall process of image editing
이 섹션에서는 전체 편집 과정을 다섯 단계로 요약합니다:
- 입력 이미지는 DDIM 역전파를 사용하여 초기 노이즈 x_T로 변환됩니다.
- x_T는 DDIM 생성을 통해 t까지 점진적으로 디노이즈됩니다.
- 타임스텝 t에서 풀백 메트릭을 사용하여 로컬 latent basis {v1, · · · , vn}를 식별합니다.
- x-space guidance를 사용하여 basis 벡터 중 하나를 따라 x_t를 Manipulate합니다.
- 수정된 latent 변수 xt를 사용하여 DDIM 생성을 완료합니다. 그림 2는 전체 편집 과정을 보여줍니다.
텍스트-투-이미지 모델(예: Stable Diffusion)의 경우, 로컬 basis 벡터를 도출하는 동안 텍스트 조건을 포함할 수 있습니다. 저자는 DDIM 역전파 및 생성 동안 텍스트 guidance를 사용하지 않지만, 텍스트 조건이 있는 로컬 basis는 주어진 텍스트에 맞는 의미적 편집을 가능하게 합니다.
3.5 평행 이동을 통한 다양한 샘플 편집
예를 들어, 10개의 이미지를 편집하여 직모를 곱슬머리로 바꾸려는 시나리오를 생각해본다면 비지도 이미지 편집 방법의 특성상, 편집된 결과에서 latent basis 벡터의 의미적 관련성을 수동으로 확인해야 합니다. 따라서 모든 샘플을 편집하려면 개별 샘플에 대해 직모에서 곱슬머리로 변환하는 basis 벡터를 수동으로 찾아야 합니다.
이 번거로운 작업을 완화하는 한 가지 방법은 한 이미지에서 얻은 곱슬머리 벡터를 다른 이미지에 적용하는 것입니다. 그러나 x에서 얻은 basis 벡터 v ∈ Tx 는 다른 샘플 x′에서는 사용할 수 없습니다. 따라서 얻은 방향을 다른 샘플에 적용하려면, 추출된 방향을 새로운 접선 공간으로 이동시켜야 합니다.
이를 달성하기 위해, 저자는 vi 를 새로운 접선 공간 Tx′로 이동시키는 평행 이동을 사용합니다. 미분 기하학에서 평행 이동은 접선 벡터를 최소한의 방향 변화로 다른 위치로 옮기며, 매니폴드 위에서 벡터가 접선 상태를 유지하도록 하는 기술입니다 . 곡선 공간에서는 평행 이동이 원래 벡터를 상당히 수정할 수 있으므로, 상대적으로 평평한 H에서 평행 이동을 적용하는 것이 유리합니다.
평행 이동을 통해 접선 벡터 v ∈ Tx 에서 v′ ∈ Tx′로 이동시키는 과정은 다음과 같이 요약할 수 있습니다. 먼저, latent 방향 vi ∈ Tx를 ui ∈ Th의 대응 방향으로 변환합니다. 둘째, 평행 이동을 ui ∈ Th 에서 u′i ∈ Th′. 일반적으로, 평행 이동은 두 점을 연결하는 경로를 따라 접선 공간에서 반복적인 투영과 정규화를 포함합니다 . 그러나 저자의 경우, H 가 유클리드 기하학을 가진다고 가정하므로, 반복 과정을 거치지 않고 투영을 통해 u 를 직접 Th′로 이동시킵니다. 마지막으로, u′i 를 v′i ∈ X로 변환합니다.
4 Findings and results
4.1 Image editing with the latent basis
이 섹션에서는 발견된 latent basis를 이용한 이미지 편집 능력을 보여줍니다. 실제 이미지에서 편집을 위한 latent 변수를 추출하기 위해 DDIM(Deterministic Denoising Diffusion Implicit Models) 역변환을 사용합니다. Stable Diffusion (SD) 실험에서는 DDIM 역변환과 DDIM 샘플링 과정에서 가이던스를 사용하지 않으며, 이는 편집 결과가 프롬프트 조건과 같은 다른 요소가 아닌 latent 변수에만 의존하도록 합니다.
그림 2와 3은 저자의 방법으로 발견한 latent basis를 사용하여 편집된 예제 결과를 보여줍니다. latent basis는 나이, 성별, 종, 구조, 질감과 같은 의미를 포함하고 있습니다. T 타임스텝에서의 편집은 나이와 종과 같은 거친 변화를 일으키는 반면, 0.6T 타임스텝에서의 편집은 코 색상이나 얼굴 표정과 같은 세밀한 변화를 일으킵니다.
그림 4는 다양한 latent basis 벡터로 편집된 예제 결과를 보여줍니다. 이때, “lion”이라는 텍스트를 조건으로 사용할 때, 전체 latent basis가 사자 관련 속성을 포착합니다. 또한, 그림 5는 latent basis가 객체 유형뿐만 아니라 포즈나 행동과 관련하여 텍스트와도 일치함을 보여줍니다.
4.2 Evolution of latent structures during generative processes
이 하위 섹션에서는 생성 과정 동안 latent 구조가 어떻게 진화하는지 보여주고, 세 가지 추세를 식별합니다.
1. latent basis의 주파수 도메인이 낮은 주파수에서 높은 주파수로 변화합니다. 이는 DMs가 샘플을 거칠게부터 세밀하게 생성한다는 이전 관찰과 일치합니다.
2. 서로 다른 샘플의 접선 공간(tangent spaces) 간의 차이가 생성 과정 동안 증가합니다. 이는 latent 공간에서 일반적으로 적용 가능한 편집 방향을 찾기가 후속 타임스텝에서 더 어려워진다는 것을 의미합니다.
3. 타임스텝 간의 접선 공간의 차이는 데이터셋의 복잡성에 따라 달라집니다.
latent basis는 점진적으로 낮은 주파수에서 높은 주파수 구조로 진화합니다.
그림 6은 다양한 타임스텝에서 발견된 latent basis의 전력 스펙트럼 밀도(PSD)를 보여줍니다. 초기 타임스텝에는 후속 타임스텝에 비해 낮은 주파수가 더 많이 포함되어 있으며, 후속 타임스텝에는 더 많은 고주파가 포함되어 있습니다. 이는 모델이 생성 과정의 초반에 낮은 주파수 신호에 집중하고, 시간이 지남에 따라 고주파 신호로 초점을 이동한다는 것을 시사합니다. 이 결과는 DMs의 생성 과정에서의 거칠게부터 세밀하게 변하는 행동에 대한 일반적인 이해를 강화합니다.
서로 다른 샘플의 접선 공간 간의 불일치가 생성 과정에 따라 증가합니다. 접선 basis의 기하학을 조사하기 위해 Grassmannian 매니폴드에서의 메트릭을 사용합니다. Grassmannian 매니폴드는 각 지점이 벡터 공간인 매니폴드이며, 위에서 정의한 메트릭은 다양한 벡터 공간 간의 왜곡을 나타냅니다. Geodesic 메트릭을 사용하여 두 개의 서브스페이스 {T(1), T(2)} 간의 불일치를 정의합니다:
여기서 θk는 T(1)과 T(2) 사이의 k번째 주각(principal angle)을 나타냅니다. 직관적으로, geodesic 메트릭 개념은 두 벡터 공간 간의 각도로 이해될 수 있습니다. 여기서는 {Th1, Th2}에 대해 두 다른 공간 간의 비교가 진행되었습니다. X와 달리, H는 유클리드 공간을 가정하여 접선 공간 간의 내적을 요구하는 geodesic 메트릭의 계산이 용이합니다.
그림 7은 서로 다른 샘플의 접선 공간이 t = T에서 가장 유사하며, 타임스텝이 0으로 가면서 서로 다르게 변함을 보여줍니다. 또한, 접선 공간 간의 유사성은 평행 이동을 통해 latent basis를 하나의 샘플에서 다른 샘플로 효과적으로 전송할 수 있게 해줍니다(그림 8).
t = T에서, 접선 공간이 homogeneous일 때, 저자는 일관된 의미론적 편집 결과를 얻습니다. 반면, t = 0.6T에서 평행 이동은 접선 공간이 거의 homogeneous하지 않기 때문에 만족스러운 편집 결과를 가져오지 않습니다. 따라서 샘플 간의 일관된 편집을 보장하기 위해서는 지역 서브스페이스의 유사성을 확인해야 합니다.
간단한 데이터셋으로 훈련된 DMs는 시간이 지남에 따라 더 일관된 접선 공간을 나타냅니다. 그림 9(a)에서는 geodesic 메트릭으로 측정된 서로 다른 타임스텝의 접선 공간 간 거리 행렬을 제공합니다. 저자는 CelebA-HQ에서 훈련된 모델이 ImageNet에 비해 접선 공간이 서로 더 유사하다는 것을 관찰합니다. 이 추세를 검증하기 위해, 서로 다른 타임스텝의 접선 공간 간 geodesic 거리를 측정하고, 동일한 타임스텝 차이의 평균 거리를 그림 9(b)에 나타냅니다. 예상대로, 일반적으로 더 간단하다고 여겨지는 데이터셋으로 훈련된 DMs는 시간이 지남에 따라 지역적으로 유사한 접선 공간을 갖습니다.
4.3 Effect of conditioning prompts on the latent structure
이 하위 섹션에서는 텍스트 프롬프트가 생성 과정에 미치는 영향을 기하학적 관점에서 조사하는 것을 목표로 합니다. MS-COCO 데이터셋에서 50개의 캡션을 무작위로 샘플링하여 텍스트 조건으로 사용했습니다.
유사한 텍스트 조건은 유사한 접선 공간을 유도합니다. 그림 10(a)에서 저자는 텍스트의 CLIP 유사성과 접선 공간 간 거리 사이에 음의 상관관계가 있음을 관찰합니다. 즉, 유사한 텍스트가 제공되면 접선 공간이 더 유사해집니다. 텍스트와 접선 공간의 불일치 사이의 선형 관계는 생성 과정의 초기 단계에서 특히 강한 것으로 나타났으며, 이는 그림 10(b)의 R² 점수에서 확인할 수 있습니다.
생성 과정은 후속 타임스텝에서 텍스트 조건에 덜 의존합니다. 그림 10(c)는 주어진 다양한 프롬프트에 대한 지역 접선 공간 간 거리와 타임스텝에 대한 관계를 보여줍니다. 특히, 확산 타임스텝이 0.7T 이하로 접근함에 따라 지역 접선 공간 간 거리가 줄어들기 시작합니다. 이는 지역 접선 basis를 따라 이동하면서의 변동이 텍스트 조건에 덜 의존하게 됨을 의미하며, 즉, 텍스트가 생성 과정에 미치는 영향이 후속 타임스텝에서 줄어든다는 것을 나타냅니다. 이로 인해 프롬프트의 유사성과 접선 공간의 유사성 간의 상관관계가 타임스텝에 따라 줄어드는 것으로 보입니다.
5. Conclusion
저자는 latent space을 기하학적 관점에서 분석했고 Pullback metric을 사용하여 X와 H에서 latent 및 접선 basis를 식별했습니다. Pullback metric으로 발견된 latent basis는 basis를 따라 이동하여 이미지를 편집할 수 있게 해줍니다. 저자는 이 basis들의 특성을 두 가지 측면에서 관찰했습니다. 첫째, 다음과 같은 사실을 발견했습니다: 1) latent basis가 저주파수에서 고주파수 구성 요소로 진화한다는 점; 2) 샘플 간의 접선 공간의 불일치가 생성 과정이 진행될수록 증가한다는 점; 3) 더 단순한 데이터셋으로 학습된 Diffusion Models(DMs)의 경우, 타임스텝이 진행되더라도 일관된 접선 공간을 유지한다는 점. 둘째, Stable Diffusion에서 텍스트 조건에 따라 latent 구조가 어떻게 변화하는지를 조사한 결과, 유사한 프롬프트가 접선 공간을 유사하게 만들지만, 이 효과는 시간이 지남에 따라 약해진다는 것을 발견했습니다.