[ICCV 2023] Distribution-Consistent Modal Recovering for Incomplete Multimodal Learning

안녕하세요! 이번에는 논문의 related work에 작성하면 좋을 법한 논문을 발견하여 조금 더 디테일하게 팔로업 해보고자 읽게 되었습니다. 그럼 시작합니다!

1. Introduction

기존의 많은 연구자들은 heterogeneous 모달리티에서 representation을 잘 인코딩하는 방법에 대해서 연구해왔지만, 실제 시나리오에서는 특정 모달리티가 사용되지 못하는 경우가 발생할 수 있습니다. 예를 들어서 음성 인식 오류로 인해서 language가 입력되지 않을 수도 있고, acoustic 모달리티는 배경 소음이나 센서 감지의 힌계로 인해서 손실된 상태로 입력되는 경우가 발생할 수 있습니다. 이로 인해 누락된 모달리티로 인해 cross-modal의 성능이 드랍될 수 밖에 없습니다.

이 문제를 해결하기 위해서, 간단한 방법은 데이터를 복원한 뒤 복원된 데이터를 통해 downstream task를 수행하는 것입니다.

이는 figure 1(a)를 통해서 볼수 있는데, 이러한 전형적인 패러다임은 광범위하게 연구되어 왔습니다. 이 패러다임의 핵심은 잘 설계된 encoder와 decoder를 구상하고, 이용 가능한 모달리티를 입력으로 하여 누락된 모달리티를 복구하는 것입니다.다양한 연구가 있지만, 본 논문의 저자가 말하길, 이러한 패러다임은 고유한 모달리티의 heterogeneous로 인해 발생하는 분포 파이를 충분히 고려하지 않아, 기본적으로 사용 가능한 모달리티와 복원된 모달리티 간의 일관되지 않은 분포를 초래한다고 합니다. 그래서 본 논문에서는 위의 문제를 완화하기 위해 새로운 프레임워크를 제안합니다. Figure 1(b)에서 보이는 바와 같이, 이전 패러다임과 다르게, 누락된 데이터를 decoding하기 전에 사용 가능한 모달리티에서 누락된 모달리티로 분포를 transfer합니다. 그 후, 누락된 모달리티는 추정된 분포 하에 복구됩니다. 따라서 여기서 핵심은 cross-modal distribution간의 transform을 수행할 수 있는 모델을 구축하고 학습하는 것입니다.

이를 위해서, 본 논문의 저자는 robust한 multimdoal understanding을 위해 누락된 모달리티를 완전하게 복구하는 distribution-consistent modal recovering (DiCMoR)을 제안합니다. cross-modal distribution을 변환하기 위해 모달리티 관련 flow를 도입하고, 내재된 distribution space 내에서 서로 다른 모달리티를 연결합니다. distribution transfer를 용이하게 하기 위해서 각 모달리티에 대해 가우시안 분포가 있는 latent space로 서로 다른 모달리티의 feature를 mapping하는 invertible(가역적인) modality-specific normalizing flow를 사용하여 모달리티 간의 분포 차이를 줄입니다. latent distribution space에서 누락된 모달리티의 latent space는 원본의 누락 데이터를 추정하기 위해서 inverse flow에 입력될 수 있도록 샘플링됩니다. 판별 가능성을 높이기 위해 모달리티 관련 flow는 일반적으로 서로 다른 class sample이 공통적으로 붕괴되는 것을 피하기 위해서 class label 조건에서 구축됩니다. 즉, 같은 class이지만 서로 다른 modality의 latent spcae가 동일한 class 특정 가우시안 분포를 공유하도록 제약을 두어 복구된 모달리티의 판별 능력을 향상시키고자 합니다. 마지막으로 복원된 모달리티와 사용가능한 모달리티가 함께 cross-modal fusion network에 넣어져 하위 task를 수행할 수 있도록 합니다.

본 논문의 contribution은 다음과 같습니다.

  • We propose a novel missing modality recovery framework by transferring the distributions from the available modalities to the missing modalities, which reduces the distribution gap between the recovered data and the vanilla available data.
  • We propose a cross-modal distribution transformation method by designing class-specific multimodal flows, which not only ensures the congruence of the distributions but also enhances the discriminative capacity.
  • We experimentally verify the superiority of the method in various modality-missing patterns. Visualization results demonstrate that distribution gaps between recovered and missing modalities are obviously reduced

2. The Proposed Method

2.1. Problem Formulation

먼저, tuple $(X^{(1)}, X^{(2)}, …, X^{(M)})$는 $M$개의 heterogeneous modality를 나타내며, 여기서 $X^{(m)}$은 $m$번째 모달리티의 input을 의미합니다. 모드 모달리티가 완전하게 들어오는 경우, 쉽게 input을 융합하여서 downstream task에 사용할 수 있습니다. 그러나 많은 제한된 상황에서는 일부 모달리티 input이 들어오지 않기 때문에 이를 복구해야하는 상황일 발생할 수 있습니다. 본 논문에서는 간소화를 위해서 $\lambda \in \{0,1\}$로 표시하여 $m$번째 모달리티가 missing된 경우 $\lambda_m = 0$, 아닌 경우에는 $\lambda_m = 1$로 표시합니다. 따라서 멀티모달 데이터에서 일부 모달티만 관측되는 불완전한 경우, 관측 가능한 모달리티 $\mathcal{I}_{obs}=\{m|\lambda_m = 1\}$를 사용하여 눅락된 모달리티 $\mathcal{I}_{miss} = \{m | \lambda=0 \}$를 복원하는 것이 주요 목적입니다. 여기서 주의할 점은 누락된 모달리티가 text example 간에 반드시 일관될 필요는 없다는 것입니다.

본 논문의 주요 아이디어는 cross flow를 통해 관찰된 모달리티에서 누락된 모달리티로 distribution을 transfer하고, 위의 Figure 1(b)와 같이 높은 distribution 일관성을 통해 보다 확실한 예측을 생성하는 것입니다. 구체적으로, 논문의 저자는 동일한 클래스의 모든 모달리티 example들이 가우시안 분포를 가진 latent space에 임베딩될 수 있다고 가정합니다. 또한, tansfer ability가 강하기 때문에 normalizing flow는 embedding 함수로 사용됩니다. 이를 수식으로 표현하면 아래와 같습니다.

여기서 $Z^{(m)}$은 $m$번째 모달리티의 latent state를 의미하며, $\mathcal{F}^{(m)}$은 해당하는 forward flow 함수이며, $c$는 input sample $\mathcal{X}$의 class label을 의미합니다. latent state에 따라, 각각의 누락된 모달리티 $\tilde{X}^{(k)}(k \in \mathcal{I}_{miss})$를 다음과 같이 추론합니다.

여기서 추정된 latent state $\tilde{Z}^{(k)}$는 존재하는 모달리티에 대한 관찰에 따라 class $c$의 가우시안 분포에서 sampling 됩니다. flow의 가역성을 통해, 누락된 모달리티 $\tilde{X}^{(k)}$를 원래 분포 $PX^{(X^{(k)})}$를 준수하면서 추론할 수 잇습니다.

추정된 $\tilde{X}^{(k)}$이 원래의 분포를 따르지만, 클러스터 내부 sample의 퍼짐 정도가 클 경우, 실제 값과는 차이가 날 수 있습니다. 따라서 논문의 저자는 decoder $\mathcal{D}$를 사용하여 추가로 정제하고자 하였습니다. 즉, $\hat{X}^{(k)} = \mathcal{D}^{(k)}(\tilde{X}^{(k)})$를 의미합니다. 학습 단계에서는 $\hat{X}^{(k)}$와 $\tilde{X}^{(k)}$ 사이의 reconstruction error를 최소화합니다.

2.2. Network Overview

본 논문에서 제안한 DiCMoR은 Fig 2를 통해서 확인할 수 있습니다. 본 방법론은 3개의 파트로 구성되어 있는데, 1) shallow feature extractor, 2) cross-modal distribution transfer (CMDT), 3) multimodal fusion and prediction으로 구성되어 있습니다.

먼저 multimodal shallow feature를 추출하고, 각 modality의 차원을 align하여 이후의 분포 변환 및 모달리티 복원을 용이하게 합니다. 복원된 데이터와 실제 데이터간의 분포 갭을 완화하기 위해, 다음으로 각 모달리티의 latent distribution space를 학습하고 누락된 모달리티의 분포를 추정하여, decoder를 통해 누락된 데이터를 복원하는 CMDT network를 구축합니다. 마지막으로 classificatio을 수행하기 위해, cross-modal fusion and prediciton 부분은 복원된 완전한 cross modal data를 받아 cross modal transformer를 사용합니다.

그럼, 전체적인 흐름을 알았으니, 다음 파트에서 조금더 디테일하게 설명해보겠습니다.

2.3. Shallow Feature Extractor

본 논문에서는 3개의 모달리티(language(L), visual(V), acoustic(A))에 대해서 고려합니다. 세 모달리티의 원래의 dimensional space가 종종 서로 다르기 대문에 cross modal transformation에 직접 사용할 수 없습니다. 그래서 이 문제를 해결하기 위해 세 모달리티의 shallow feature를 추출하고 동일한 dimensional space로 투영하기 위해 세 개의 독립적인 temporal convolution layer를 포함한 shallow feature extractor를 설계합니다. 따라서 뒤에서 수행될 recovery task는 모달리티의 shallow feature를 바탕으로 누락된 모달리티의 shallow feature를 추정하는 것을 목표로 합니다.

class c의 input sample이 주어진 경우, shallow feature $\mathcal{X}=\{X^{(m)}\}, X^{(m)} \in \mathbb{R}^{T\times{d}}$를 얻을 수 있습니다. 여기서 $m \in \{L,V,A\}$를 의미하고, T는 sequence length, d는 feature dimensionality를 의미합니다. 일부 모달리티가 누락된 경우, 일부 모달리티는 고정적으로 또는 무작위로 누락되어 X에서 최소한 하나의 모달리티는 가능하다고 보장합니다. 여기에는 세가지 모달리티에 대해서 총 7개의 누락된 조합을 포함합니다. 만약에 accustic modality $X^{(A)}$가 누락되었다고 했을 때, 다른 두 모달리티를 $\mathcal{X}_{obs} = \{X^{(L)},X^{(V)}\}$라고 말합니다.

2.4. Cross-Modal Distribution Transfer

$\mathcal{F}(m)$을 modality m의 normalizing flow model, $(\mathcal{F}(m))^{-1}$를 이에 역변환으로 나타냅니다. 각 normalizing flow model은 해당 모달리티의 shallow feture $X^{(m)}$을 각각 받고 동일한 가우시한 분포를 가지는 cross-modal latent space를 출력합니다. 이는 $Z^{(m)} = \mathcal{F}^{(m)}(X^{(m)})$과 같이 표현될 수 있습니다. 이와 동시에, $Z^{(m)}$은 $(\mathcal{F}(m))^{-1}$에 입력되어 실제 분포를 가진 sample $\tilde{X}^{(m)}$를 생성할 수 있습니다. 즉, 아래의 식을 의미한다고 말할 수 있습니다.

2.4. Cross-Modal Distribution Transfer

$\mathcal{F}(m)$을 modality m의 normalizing flow model, $(\mathcal{F}(m))^{-1}$를 이에 역변환으로 나타냅니다. 각 normalizing flow model은 해당 모달리티의 shallow feture $X^{(m)}$을 각각 받고 동일한 가우시한 분포를 가지는 cross-modal latent space를 출력합니다. 이는 $Z^{(m)} = \mathcal{F}^{(m)}(X^{(m)})$과 같이 표현될 수 있습니다. 이와 동시에, $Z^{(m)}$은 $(\mathcal{F}(m))^{-1}$에 입력되어 실제 분포를 가진 sample $\tilde{X}^{(m)}$를 생성할 수 있습니다. 즉, 아래의 식을 의미한다고 말할 수 있습니다.

language, visual 모달리티가 사용 가능하고, acoustic 모달리티가 누락된 경우를 살펴보면, Figure 2에서 볼수 있듯이 $X^{(L)}, X^{(V)}$는 각각 $\mathcal{F}^{(L)}, \mathcal{F}^{(V)}$에 입력되어 $Z^{(L)}, Z^{(V)}$를 얻습니다.

위의 두 식으로, 두 모달리티에 대해서 다음과 같이 평균 연산을 수행하여 latent acoustic state를 sampling합니다.

$$ \tilde{Z}^{(A)} \leftarrow \frac{(Z^{(L)} + Z^{(V)})}{2} \sim N (\mu_c, \Sigma_c) $$

그런 다음 $(\mathcal{F}^{(A)})^{-1}$에 입력하여 accoustic 모달리티의 분포를 가진 sample $\tilde{X}^{(A)}$를 생성합니다. 공식적으로 다음과 같이 정리할 수 있습니다.

이후에, $\tilde{X}^{(A)}$는 acoustic 모달리티의 reconstruction module로 공급되어 최종 recovered feature를 다음과 같이 얻습니다.

여기서 $\mathcal{D}^{(A)}$는 acoustic 모달리티의 feature reconstruciton module을 나타냅니다. 각 모달리티에 대한 reconstruction module을 구축하기 위해 여려 개의 residual channel attention block을 쌓습니다. 이때, 2D conv layer는 temporal feature에 맞게 1D conv로 대체됩니다. missing된 패천에 대해, reconvered feature는 다음과 같이 나타날 수 있습니다.

따라서, reconstruction loss는 다음과 같이 명시될 수 있습니다.

3. Experiments

본 논문에서 사용된 데이터셋은 CMU-MOSEI, CMU-MOSI를 사용하였습니다. 이 두 데이터셋은 CMU 동일한 연구실에서 구축한 데이터셋으로 두 데이터셋 모두 유튜브 영샹을 샘플링하여 구축되었습니다. MOSI의 보완된 버전이 MOSEI라고 생각하시면 될 것 같습니다. 그런데 아쉬운 점은 IEMOCAP을 사용하지 않은 건데… 이 부분은 조금 아쉬운 것 같습니다.

Table 1을 통해서 모든 방법의 예측 성능이 language modality를 사용할 수 있을 떄 더 좋은 경향이 있는 것을 확인할 수 있습니다. 본 논문에서 말하길, 이전 연구에서도 이러한 경향성이 나타났어왔고, language 모달티가 더 많은 변별적 정보를 포함하는 높은 수준의 semantic abstraction 때문이라 말합니다. 따라서 language modality 없이 missing이 된 상황일 때 성능을 향상시키는 것이 중요합니다. SOTA와 비교했을 때 language 모달리티 없이 missing된 상황에서 DiCMoR은 일관되게 더 나은 결과를 얻은 것을 볼 수 있습니다. 이는 약한 모달리티에서 변환된 분포가 성능을 향상 시킬 수 있음을 보입니다.

Table 2는 Table 1과 다르게 random missin protocol 상황에서의 성능을 나타냅니다. MR이 증가함에 따라 다른 복구 방법보다 DiCMoR의 성능 저하가 더 작아지는 경향이 있음을 보입니다. CMU-MOSI 데이터셋의 결과를 예로 들면, MR이 0.0에서 0.7로 증가함에 따라 다른 복구 방법의 ACC2 성능은 19.5% ∼ 21.8% 감소하는 반면, DiCMoR은 14.6% 감소합니다.

Figure 3은 CMU-MOSEI 데이터셋을 사용하여, 모달리티가 하나만 존재할 때의 데이터 복원 방법들을 비교한 것입니다. t-SNE 기법으로 선택된 샘플의 feature를 2D space로 투영한 것인데, DiCMoR을 사용했을 때 복원된 데이터의 분포가 실제 값에 더 가까운 것을 확인할 수 있습니다. 이를 통해서 본 논문에서 제안한 방법이 제대로 워킹하고 있음을 확인할 수 있습니다.

Table 3를 통해서 본 논문에서 제안한 key component의 ablation study를 확인할 수 있습니다. $\mathcal{D}^{(m)}$을 사용한 feaure reconstruction 또는 $\mathcal{F}^{(m)}$를 사용한 distribution transfer은 두 모듈 모두 유용한 recover data를 제공할 수 있는 data를 명시적으로 복구할 수 있으므로 성능 향상을 시킬 수 있습니다. 또한, distirubiton transfer와 feature reconstruction을 결합하면 추가적인 이점을 얻을 수 있으므로 일관된 분포를 유지하면서 데이터를 복구하는 것이 가능하고 효과적이라는 것을 증명합니다.


MER 분야지만 이렇게 missing 모달리티를 복구, 복원하는 종류의 논문은 익숙하지 않기 때문에 읽으면서 매우매우 어려웠던거 같습니다. 그런데 생각해보니 계속 멀티모달 분야를 다루게 된다면 실제 real-world 상황에서는 이렇게 missing인 상황이 매우 많을 것으로 예상되어 중요한 task 이기도 한 것 같습니다. 그럼 지금까지 읽여주셔서 감사합니다.

Author: 김 주연

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다