[CVPR 2024] Enhancing Multimodal Cooperation via Sample-level Modality Valuation

[2024.07.31 2.2 파트 설명 추가]

저는 현재 multimodal imbalance, multimodal bias와 관련하여 이를 해결하는 방법론을 제안하는 논문을 작성 중에 있습니다. 그런데 이제까지 분석하는 방법에 대해서 그렇게까지 비중있게 보지 않았고, 다른 논문에서 multimodal imbalance가 존재한다고 증명할 때도 주로 ‘성능’으로만 언급하고 넘어간다는 것을 발견하였습니다. 그러던 중 이번에 CVPR 2024에 나온 본 논문의 경우, modality가 얼마나 기여하는지 정량적으로 평가할 수 있는 metric을 만들었다고 하여 흥미가 들어 리뷰를 작성하게 되었습니다. 그럼 리뷰 시작하겠습니다!

<1. Introduction>

사람은 시각, 청각, 촉각 등의 다양한 정보를 통합하여 주변 환경을 종합적으로 이해합니다. 그래서 최근에는 정말 많이 multimodal 관련 연구가 진행되고 있고 논문 또한 쏟아진다고 할 정도로 많이 나오고 있습니다. multimodal learning의 주요 목표는 서로 다른 modality에서 온 이질적인 정보를 효과적으로 결합하는 것입니다.

딥러닝을 사용하면서 multimodal learning이 많이 발전하였으나, 여전히 multimodal간 heterogeneous한 information이 잘 융합되지 않으며, 이로 인해서 학습이 불균형하게 이뤄지는 문제가 있습니다.

딥러닝 모델이 복잡한 여러 layer를 구성되고, 블랙박스 특성 때문에 각 modality가 최종 예측에서 어떤 역할을 하는지 관찰하기 어렵고 그에 따라 단일 modality 학습을 조정하는 것도 어렵습니다. 이에 어떤 연구에서는 model logits이나 graident의 크기 등을 이용하여 성능이 저조한 modality를 식별하고 학습을 개선하고 하였습니다. 하지만 이런 방법론들은 dataset-level에서의 전반적인 modality imbalance만 고려하여 Kinetics Sounds와 같은 curated된 dataset에서만 효능을 보입니다. Figure 1을 보시면 modality imbalance를 해결하기 위해서 제안된 여러 방법론이 Kinetics Sounds 데이터셋에서는 성능 향상을 보이지만, 본 논문이 제안한 MM-Debiased에서는 오히려 성능이 하락한 것을 볼 수 있습니다. 그런데, realistic 시나리오에서는 modality 간의 imbalance가 sample마다 다를 수 있습니다.

예를 들어서, Figure 2(a)와 Figure(b)는 오토바이 category의 두 개의 auido-visual sample을 보여줍니다. sample 1에서는 오토바이를 관찰하기 어렵지만, sample 2에서는 오토바이 바퀴가 뚜렷하게 보입니다. 이는 각 sample에서 각각 audio나 visual modality가 최종 예측에 더 많이 기여하게 만들 수 있습니다. 하지만 이러한 세밀한 modality imabalance는 기존에 제안된 방법론만으로는 관찰하기 어렵습니다. 따라서 sample-level에서 multimodal cooperation을 reasonably하게 관찰하고 개선하는 방법이 필요합니다.

본 논문은 각 sample에 대한 예측 과정에서 각 modality가 기여하는 정도를 관찰하기 위해 sample-level의 modality valuation metric을 도입하였습니다. 게임 이론에서 기여도에 따라 이익을 공정하게 분배하는 것을 목표로 하는 Shapley Value를 이 metric에 이론적 기반으로 활용하였습니다. 이 metric을 이용하여 단일 modality 기여도를 평가한 결과, 각 modality가 기대한 만큼 성능에 기여하지 않는다는 것을 관찰하였습니다.

먼저, Figure2(d)에서 볼 수 있듯이, Kinetics Sounds와 UCF-101을 포함한 curated된 데이터셋의 경우, dataset-level에서 한 modality의 기여도가 전체적으로 다른 modality를 압도하는 경향이 있음을 확인할 수 있습니다. 더 중요한 것은 Figure 2(c)입니다. 여기에서 볼 수 있듯이, sample-level의 modality valuation에서 dataset-level의 global 기여도 차이를 넘어 실제로 sample 간에 modality 기여도 차이가 다를 수 있음을 확인하였습니다. 본 논문에서는 이러한 sample-level의 modality imbalance를 강조하기 위해, dataset-level modality가 더 이상 유의하지 않은 global balanced MM-Dibased 데이터셋을 제안합니다. 이럴 경우, 앞에서 언급했듯이 기존의 데이터셋에서는 성능 향상을 보인 방법론들이 MM-Debiased 데이터셋에서는 성능이 하락하는 모습을 확인할 수 있습니다.

위의 결과를 바탕으로 먼저 sample에서 기여도가 낮은 modality의 효과를 분석한 결과, 이러한 modality의 존재가 잠재적으로 multimodal model이 특정 modality로 collapse될 위험을 증가시킬 수 있음을 논문의 저자는 발견했습니다. 이러한 문제를 완화하기 위해 단일 modality 변별 능력과 기여도 간의 상관관계를 분석한 결과, 학습 중에 기여도가 낮은 modality의 변별 능력을 향상시키면 sample에서 contribution을 간접적으로 향상시킬 수 있으며. 이에 따라 multimodal cooperation을 강화할 수 있다는 사실을 발견했습니다. 이를 바탕으로 논문의 저자는 modality 간의 기여도 불일치를 기반으로 sample에서 기여도가 낮은 modality를 집중적으로 학습하는 방법을 제안합니다. 구체적으로 먼저, Shapley 기반으로 modality valuation metric을 통해 sample-level에서 단일 modality의 기여도를 평가합니다. 그런 다음, 기여도가 낮은 것으로 확인된 modality의 입력은 dynamical frequency로 re-sampling하여 변별력을 향상시킵니다.

본 논문의 contribution을 정리하면 아래와 같습니다.

  • sample-level의 modality valuation metric 도입
  • 기여도가 낮은 modality 문제 분석 및 개선
  • MM-Debiased 데이터셋 도입

<2. Method>

<2.1 Model formulation>

본 논문에서는 multimodal discriminative task에 대해서 다루고 있습니다. 구체적으로 말씀드리면, 각 sample $x=(x^1, x^2, …, x^n)$은 $n$개의 modality를 가지고 있습니다. 그리고 $y$는 sample $x$의 groud truth label을 의미합니다. 본 논문에서는 간단하게 표현하기 위해서, 특정 sample $x$의 modality $i$의 input을 $x^i$로 표현합니다. 또한, $N=\{x^1, x^2, …, x^n \}$는 모든 modality의 집합을 말합니다. multimodal model은 $H()$로 표현합니다. 여기서 $C$는 model에 input으로 들어오는 modality의 set을 의미하는데, $C\subseteq N$ 관계를 가집니다. $C$의 modality가 input으로 들어올 때, 최종 prediction은 $\hat{y_C}=H(\cup x^i, x^i \in C)$를 가집니다. 여기서 $H$는 특정 multimodal fusion 방법을 지칭하는 것은 아니고 (나이브하게 말하면 SUM이나 Concat을 의미하는 것은 아닙니다) 어떤 fusion 방법이든 자유롭게 넣어 사용할 수 있습니다.

저는 $H(\cup x^i, x^i \in C)$ 이 부분이 잘 이해가 되지 않았는데요. 조금 더 풀어서 설명해보겠습니다. 여기서 $C$는 입력 modality의 집합을 의미합니다. 예를 들면, 오디오, 비디오 등이 있겠습니다. 그리고 $C\subseteq N$는 특정 sample에서 사용되는 modality의 부분집합을 의미합니다. 여기서 modality $x^i$가 입력되는데, $x^i$는 특정 modality에 해당하는 입력 데이터를 의미합니다. 예를 들어서 $x^1$은 오디오 데이터를, $x^2$는 비디오 데이터를 의미할 수 있습니다. 여기서, $\cup x^i, x^i \in C$는 $C$에 속하는 모든 modality의 입력 데이터를 합쳐서 사용한다는 것을 의미합니다.

정리하면 다음과 같습니다. $x$가 세 가지 modality $x^1$(오디오), $x^2$(비디오), $x^3$(텍스트)로 구성된 sample이라고 합시다. 만약 $C=x^1, x^2$라면, model $H$는 오디오와 비디오 데이터를 사용하여 최종 예측값을 생성합니다. 즉, $\cup x^i, x^i \in C$는 $C=x^1, x^2$일 때, $x^1 \cup x^2$로 해석할 수 있습니다. 이러한 표기법이 자주 사용된다고하니 참고해두시면 좋을 것 같습니다.

<2.2 Fine-grained modality valuation>

대부분의 연구자들은 multimodal learning에서 서로 다른 modality가 상호 보완적인 정보로 고려되기 때문에 각 modality가 대체 불가능한 기여를 보여줄 것으로 기대합니다. realistic한 시나리오에 따라 modality 기여도 차이는 sample에 따라 달라질 수 있습니다. 따라서 multimodal model에서 단일 modality 기여도를 sample-level에서 평가하고 이에 따라 multimodal cooperation을 개선할 필요가 있습니다. 본 논문에서는 sample-level에서 multimodal prediction을 위한 단일 modality 기여도를 확인하기 위해서 Shapely 기반의 fine-grained된 modality valuation metric을 제안합니다. 여기서 낯선 단어인 ‘Shapley’가 등장하였는데, 주로 Shaplely Value이라는 용어로 사용되며, 게임 이론에서 각 참여자가 전체 게임의 성과에 얼마나 기여했는지를 공정하게 분배하는 방법을 말합니다. 본 논문에서는 이러한 방법을 이용하여 각 modality가 multimodal 모델의 prediction 성능에 얼마나 기여했는지를 정량적으로 평가할 수 있도록 합니다.

위의 언급한 metric에 대해서 구체적으로 말하면, 각 sample $x$에 대해 multimodal prediction의 benefit을 정량화하는 함수 $v$를 아래와 같이 정의합니다.

위의 식을 설명하자면, model이 올바르게 예측했다면 $(\hat{y_C}=y)$, 입력된 modality의 수를 의미하는 $|C|$를 출력하고 아니라면 0을 출력합니다. 즉, 여기서 $|C|$는 multimodal prediction의 benefit을 의미합니다.

이렇게 prediction의 benefit을 공식화 했다면, 모든 경우에 대해 각 modality의 기여도를 고려해야합니다. $Π_N$는 모든 modality $N$의 순열(permutation) 집합을 의미합니다. 모든 modality의 순열 집합이라는 것은 modality들을 다양한 순서로 배열한 모든 가능한 경우의 집합을 의미합니다. 모달리티가 $V, A, T$가 있다고 했을 때, $(V, A, T), (V, T, A), (A, V,T), …, (T,A,V)$와 같이 배열할 수 있는 모든 가능한 경우를 의미합니다. 그래서 modality의 수가 $n$이면, $|Π_N|=n!$을 의미합니다. sample $x$의 modality $i$에 대해서 순열 $π \in Π_N$이 주어졌을 때, $\pi$의 모든 선행(predecessors) 집합을 $S_{\pi}(x^i)$로 표시합니다. 즉, $S_{\pi}(x^i) = \{x^j \in N | \pi(x^j) < \pi(x^i) \}$로 설정할 수 있습니다.

자 우선, 다음 설명으로 넘어가기 전에 $S_{\pi}(x^i)$에 대한 이해를 확실히 하고 넘어가고자 합니다. 먼저 순열 $\pi$에서 $x^i$의 predecessors라는 것은, 주어진 순열 $\pi$에서 특정 modality $x^i$가 나타나기 전에 나타난 모든 modality의 집합을 의미합니다. 이 집합을 통해서 $x^i$가 추가되기 전에 modality들이 어떤 역할을 했는지, 그리고 $x^i$가 추가된 후에 어떻게 변하는 지를 평가할 수 있습니다. 예를 들어서 설명해보겠습니다. 주어진 순열 $\pi$는 $N$개의 modality의 모든 가능한 순열 중 하나 입니다. 만약 $N= \{ x^1, x^2, x^3\}$일 때, $\pi =(x^2, x^1, x^3)$와 같이 하나의 순열이 될 수 있습니다. $\pi$에서 $x^i$의 선행 집합 $S_{\pi}(x^i)$는 순열 $\pi$에서 $x^i$ 앞에 나타나는 모든 모달리티의 집합을 의미합니다. 즉, $\pi =(x^2, x^1, x^3)$에서 $x^1$의 선행 집합 $S_{\pi}(x^1)$은 $x^2$가 됩니다.

위의 이해를 바탕으로, 순열 $\pi$에 대한 sample $x$의 modality $i$의 marginal contribution은 $\Delta \pi (x^i)$로 표시되며 식[2]와 같이 구할 수 있습니다.

여기서 marginal contribution은 “한계 기여도”라고도 표현하는데, 특정 조건에서 한 요소가 추가되었을 때 전체 이익이나 성능에 미치는 영향을 측정할 때 지칭한다고 합니다. 본 논문에 적용하여 설명하면 modality가 추가되기 전과 후의 차이를 통해 구한 영향력을 marginal contribution이라 칭합니다. 본 논문에서는 marginal contribution이 modality $i$가 순열 $\pi$에 추가될 때 $\pi$에서 이전 modality의 benefit을 얼마나 증가시켰는지를 측정하는 값이라 설명하면서 modality의 조합에 따라 결과가 달라질 수 있기 때문에 단일 modality contribution을 완전히 평가하려면 가능한 모든 순열을 고려해야한다고 말합니다. $\Pi_N$이 $n!$개의 순열을 가지기 때문에 modality i의 최종 기여도는 $\phi_i$로 나타낼 수 있고 이는 식[3]과 같이 구할 수 있습니다.

자, 이렇게 설명해왔는데, marginal contribution은 뭐고, 단일 modality contribution은 뭐고 그래서 뭐가 뭐라고? 라는 생각이 드실 겁니다. 그래서 sample $x$가 ($x^{audio}, x^{video}$) 형태로 들어올 때 각 audio, video의 contribution을 구해보고자 합니다.

우선, 여기서 $N = \{audio, video\}$라고 할 수 있습니다. 그러면 $| \Pi_N |= n! = 2$가 될 것입니다. 그렇다면 발생할 수 있는 순열은 (1) $(audio, video),$ (2) $(video, audio)$라고 할 수 있습니다. 그럼 audio modality contribution에 대해서 먼저 계산하고자 합니다. 두개의 순열 중에 먼저 (1)의 순열에 대해서 marginal contribution을 구해보고자 합니다. 그러면 아래와 같이 구할 수 있습니다.

$$ \Delta_{(audio, vidion)}(x^{audio})=v(x^{audio})-v(0) $$

(2)의 순열에 대해서 marginal contribution을 구해볼까요? 아래와 같이 구할 수 있습니다.

$$ \Delta_{(vision,audio)}(x^{audio})=v(x^{vision},x^{audio})-v(x^{vision}) $$

자, 모든 순열에 대해서 marginal contribution을 구했으니 audio modality contribution에 대해서 구해보고자 합니다. (1),(2) 순열을 통해 구한 marginal contribution의 합에 $n!$을 나눠줍니다. 그러면 아래와 같이 audio modality contribution을 구할 수 있습니다.

$$ \phi^{audio}=\frac{1}{2}(v(x^{audio}, x^{vision}) + v(x^{audio}) – v(x^{vision})) $$

뭔가 규칙이 있지 않나요? vision modality의 contribution은 아래와 같이 구할 수 있습니다.

$$ \phi^{vision}=\frac{1}{2}(v(x^{audio}, x^{vision}) + v(x^{vision}) – v(x^{audio})) $$

<2.3. Low-contributing modality phenomenon>

Figure 2를 보시면, sample-level과 dataset-level에서 모두 한 modality의 기여도가 다른 modality의 기여도를 압도할 수 있는 것을 확인할 수 있습니다. 이러한 sample과 dataset이 들어오게 된다면 multimodal model이 학습할 때 한 가지 modality가 주도하고 나머지 모달리티 기여도는 낮은 경우가 발생할 수 있습니다.

본 논문에서는 sample x에 대한 일반 멀티모달 모델의 benefit에 대한 기여도가 낮은 modality의 효과를 분석합니다. 본 논문에서는, 추가로 modality를 사용할 때 multimodal learning에서 modality의 marginal contribution이 non-negative라고 가정합니다. (즉, 기여도가 음수가 아니라는 것을 전제로 합니다) modality i에 대한 단일 modality 기여도의 정의에 따르면 다음과 같이 기여도가 낮은 modality의 효과를 분석할 수 있습니다

추가적으로, 식[1]을 기반으로, 모델이 정확히 예측했다면, $v(N)=n$을 가지게 됩니다. 그러면 $v(N \backslash x^i)$의 minimum이 0이라는 것을 알게 됩니다. 그럼 다음과 같이 도출할 수 있게 됩니다.

그런데 식[8]에 따르면, 모달리티 $\phi_i$의 기여도가 1보다 작을 때 $v(N)$과 $v(N\backslash x^i)$ 사이의 차이의 상한이 줄어들게 됩니다. 이는 $n \cdot \phi_i < n$을 의미하게 됩니다. 이 말을 조금 풀어서 말하면 modality i의 기여도가 $\phi_i < 1$일 때, $v(N)$과 $v(N\backslash x^i)$ 사이의 차이가 감소함을 나타냅니다. 모든 모달리티 $N$을 입력으로 사용할 때의 이점은 그 하위 집단 $N \backslash x^i$의 benefit에 가까워집니다. 즉, modality $i$를 제외한 상태에서의 benefit이 모든 모달리티를 사용할 때의 benefit과 거의 같아지는 상황을 나타냅니다. 이러면 multimodal을 사용하는 목적을 읽게 되는 겁니다. 그래서 각 sample에 대해서 기여도가 낮은 modality의 기여도를 높이는 것이 필수적인데 이를 통해서 “Multimodal Cooperation”을 개선할 수 있습니다.

Remark 1

Suppose the marginal contribution of modality is non-negative. For the normal multimodal model with all modalities of sample $x$ as the input, with benefits $v(N ) = n$, when modality $i$ is low-contributing, i.e., $ϕ_i < 1$, the difference between $v(N)$ and $v(N \backslash x^i)$ decreases

본 논문에서 Remark를 직접적으로 제공하여 읽는 사람의 이해도를 높이고자 하였습니다. Remark 1에서의 이야기를 요약하면 사실 앞에서 말한 바를 정리해서 말한 것과 다름이 없는데, modality의 기여도는 음수가 아닌 최소 0 이상이 될 것이라 가정하고, 이 가정을 바탕으로 특정 modality의 기여도가 매우 낮은 경우, 그 modality를 제외하더라도 전체 성능이 크게 떨어지지 않는다는 것을 말합니다.

본 논문에서는 위의 문제를 완화하기 위해 단일 modality의 판별 능력과 그 기여도 간의 상관관계를 추가로 분석하여 Remark 2로 제시하였습니다. 분석 결과. 기여도가 낮은 modality의 판별 능력을 강화하면 multimodal prediction에 대한 기여도를 높일 수 있다는 것을 발견하였습니다. 이에 따라, 하나의 특정 modality로 multimodal model collapses가 발생할 risk를 줄일 수 있습니다.

Remark 2 Suppose the marginal contribution of modality is non-negative and the numerical benefits of one modality’s marginal contribution follow the discrete uniform distribution. Enhancing the discriminative ability of low-contributing modality $i$ can increase its contribution $ϕ_i$

논문에서는 이 외에 더 이상 Remark2에 대해서 설명하지 않는데 Remark2의 내용은 다음과 같습니다. modaltiy의 marginal contribution이 음수가 아니고, 이산 균등 분포(discrete uniform distribution)을 따른다고 가정했을 때 기여도가 낮은 modality $i$의 변별력을 높이면 해당 modality의 기여도 $\phi_i$를 높일 수 있다고 합니다.

<2.4 Re-Sample enhancement strategy>

Remark2에 따르면, 기여도가 낮은 modality의 판별 능력을 향상시키면 기여도를 올릴 수 있다고 하였습니다. 그래서 본 논문의 저자는 기여도가 낮은 modality의 입력을 집중적으로 re-sampling하여 학습 중에 번별력을 개선하는 방법을 제안합니다.

기본적인 번별력을 확보하기 위해 먼저 여러 epoch에 걸쳐서 multimodal model을 워밍업합니다. 그런 다음 각 epoch에서 modality valuation을 수행하여 각 sample에 대한 단일 modality 기여도를 확인합니다. 이후에는 기여도가 낮은 modality 경우, 학습할 때 해당 modality의 입력을 re-sampling하여 학습하여 기여도를 향상시킵니다.

<2.4.1 Sample-level method>

modality valuation 후에는, 각 sample에 대해 기여도가 낮은 modality $i$, 즉, $\phi_i < 1$을 통해 구분해 낼 수 있으며, 본 논문의 방식을 통해서 sample-level에서 모델 학습을 개선 시킬 수 있습니다. 특정 re-sample frequency는 학습 중 $\phi_i$ 값에 따라 동적으로 결정됩니다. 구체적으로, sample $x$에 대한 modality $i$의 re-sample frequency는 다음과 같습니다.

여기서 $s(x^i)$는 modality $i$의 re-sample frequency를 나타내고, $\mathcal{f}_s()$는 단조 증가 함수로 기여도가 낮을 수록 더 높은 빈도로 re-sampling할 수 있도록 조절합니다. 반대로 기여도가 클수록 re-sample frequency가 낮아집니다. re-sampling 중에는 기여도가 낮은 modality만 취하고 다른 modality의 input은 0으로 masking하여 기여도가 낮은 modality만 집중적으로 학습합니다. 해당 과정에 대해서 Algorithm 1에 전반적인 과정이 작성되어 있으니 참고하시면 이해하는데 더욱 도움이 될 것 같습니다.

<2.4.2. Modality-level method>

sample-level modality valuation은 fine-grained된 단일 modality 기여도를 제공할 수 있지만, 데이터셋의 규모가 큰 경우 추가 계산 비용이 많이 들 수 있습니다. 논문의 저자는 이러한 계산 비용을 낮추기 위해서 보다 효율적인 modality-level 방법을 제안합니다.

위의 그림은 Figure 2의 d를 확대해서 가져와봤습니다. 데이터셋 전체를 대상으로 한 valuation에서 modality의 기여도는 일관된 경향성을 보입니다. 예를 들어서, UCF-101 데이터셋에서는 RGB modality가 optical flow modality보다 더 높은 기여도를 보입니다. 그래서 논문의 저자는 추가로 발생하는 계산 비용을 줄이기 위해서 training sample의 하위 집합에 대해서만 modality valuation을 수행하여 modality-level의 re-sample 전략을 제안합니다.

먼저, unimodal 기여도의 평균을 대략적으로 계산하기 위해서 training set에서 랜덤으로 $Z$ sample을 랜덤으로 split합니다. 이후에 $\frac{\sum^Z_{k=1} \phi^i_k}{Z}$를 통해 각 modality $i$의 기여도를 계산하여 기여도가 낮은 modality를 확인합니다. 그런 다음 다른 modality는 고정해둔 상태에서 sample $x$의 modality $i$는 학습 중에 특정 probability $p(i)$으로 동적으로 re-sample됩니다. $p(i)$은 식[11]을 통해 구할 수 있습니다.

여기서 modality $i$의 기여도와 다른 modality 간 기여도의 차이를 나타내는 $d = \frac{1}{n-1}(\sum^n_{j=1. j\neq i}(\frac{\sum^Z_{k=1}\phi^i_k}{Z} – \frac{\sum^Z_{k=1}\phi^j_k}{Z}))$를 구합니다. 이후에 $d$를 0에서 1사이로 정규화 해줍니다. 정규화된 $d$ 값을 함수 $f_m()$에 넣어 re-sample probability $p(i)$를 결정합니다. 여기서 $f_m()$은 단조 증가함수를 의미합니다. 본 논문에서는 modality-level 방법이 더 효율적이고, sample-level 방법과 달리 추가 계산 비용이 적은 것을 강조합니다. 제가 말한 설명을 Algorithm 2를 통해 더욱 자세히 확인해볼 수 있습니다.

<4. Experiment>

<4.1 Dataset>

먼저 본 논문에서 사용한 데이터셋에 대해서 간략히 설명들고자 합니다.

  • Kinetic Sounds (KS)
    • 두 종류의 modality(오디오와 비디오)를 가진 액션 인식 데이터셋 입니다.
    • 31개의 인간 행동 클래스를 포함합니다.
    • 10초 비디오 클립 19,000개로 구성되어 있습니다.
  • UCF-101
    • RGB와 Optical Flow 두 modality로 구성된 액션 인식 데이터셋 입니다.
    • 101개의 인간 행동 클래스 포함를 포함합니다.
    • 9,537개의 학습 샘플 및 3,783개의 테스트 샘플로 구성되어 있습니다.
  • MM-Debiased
    • Dataset-level modality 기여도 imbalance가 뚜렷하지 않은 오디오-비주얼 데이터셋 입니다.
    • 10개의 클래스를 포합합니다.
    • 11,368개의 학습 샘플 및 1,472개의 테스트 샘플로 구성되어 있습니다.

<4.2 Comparison with multimodal fusion methods>

Table 1을 통해서 다양한 multimodal fusion method와 비교할 수 있습니다. 결과를 보시면 일반적인 multimodal fusion 방법과 초기 방법론은 성능이 상당히 낮은 것에 비해서 본 방법론에서 제안한 Sample-level, Modality-level의 방법론에서는 성공적으로 성능 잘 나오는 것을 보여줍니다. Sample-level 방법이 전반적으로 더 우수한 방법을 보여주지만 Modality-level 방법은 Sample-lavel 보다 효율적이면서도 때때로 이와 필적하는 성능을 볼 수 있습니다.

<4.3. Comparison with imbalanced multimodal learning methods>

Table 2에서는 multimodal imbalance를 해결하고자 하는 방법론과 비교 결과를 볼 수 있습니다. 제가 서베이한 방법론이 많이 등장하여 반가운 마음도 드네요. 본 논문에서 제안한 MM-Debiased 데이터셋과 기존의 imbalance가 많이 발생하는 일반적인 KS, UCF-101 데이터셋에서의 성능을 확인할 수 있습니다. 일반적인 데이터셋에서 모두 성능 향상을 잘 이뤄낸 것을 볼 수 있지만 본 논문의 방법론이 더욱 성능향상을 가져온 것을 볼 수 있습니다. MM-Debiased 데이터셋에서는 대부분의 방법론의 성능이 떨어지거나 유지하는 것에 비해서 본 논문의 방법론만이 가장 높은 성능을 보이면서 sample-level에서의 modality imabalance도 잘 해결한다는 것을 보여줍니다.


본 논문을 읽으면서 수학 공부가 부족한 저에게 수식들이 달려오는 경험을 한 것 같아 읽는데 굉장히 시간이 많이 걸린 논문인 것 같습니다. 그런데 이러한 metric을 제안했다는 것이 정말 대단한거 같아 계속 봐도 감탄이 나오는 것 같습니다. 이런 방법을 잘 활용해서 제 논문에서도 사용하면 좋겠다는 생각이 드네요. 그럼 읽어주셔서 감사합니다!

Author: 김 주연

6 thoughts on “[CVPR 2024] Enhancing Multimodal Cooperation via Sample-level Modality Valuation

  1. 안녕하세요 좋은 리뷰 감사합니다.

    수식이 많아 읽는 것만으로는 모두 완전히 이해하기가 어렵지만, 제안한 두 가지 레벨에 대해 궁금한 것이 있습니다.

    modality-level method는 데이터셋 크기가 큰 경우 일부 서브셋을 샘플링해 기여도를 계산하는 것으로 이해하였는데 벤치마크 실험 결과가 생각보다 sample-level과 큰 차이가 나지 않는 것으로 보입니다. 효율성과의 trade off 관계를 생각했을때 저자가 따로 언급한 것이 있는지, 아니면 주연님이 생각하시기에 이 분야의 task에서 저 정도 성능차이면 유의미한 것인지 궁금합니다.

    그리고 저자가 제안한 데이터셋은 방법론에 언급된 가치평가 방식으로 샘플링한 데이터셋이라고 이해하면 되는 것인가요?

    감사합니다.

    1. 안녕하세요. 댓글 감사합니다.

      맞습니다.. 수식이 많아서 조금더 읽는 분들이 이해하길 바래서 더 디테일하게 설명하고 싶었는데 한정된 시간 때문에 쉽게 이해드리기에는 힘든 글이 작성된 것 같아 아쉽습니다ㅜ 추후에 설명을 첨부할테니 참고해주시면 감사하겠습니다.

      1. trade off 관계를 저자는 정말 간단하게 계산 코스트가 덜하다 정도로만 언급하고 넘어갔기 때문에 이와 관련하여 정말 어느정도 차이가 있는지는 잘 모르겠으나 만약 계산 코스트 차이가 크다면 제 생각에는 성능 차이가 그렇게 차이가 많이 나지도 않기 때문에 저라면 modality-level 방법론을 사용할 것 같습니다. 그런데 사실 논문 쓰는 입장에서 성능이 높게 나오면 나올 수록 좋지 나쁘지는 않아서 같이 리포팅한 것은 아닌가 싶습니다. (제 생각에는 처음에 sample-level로 초점을 잡아서 논문을 작성한 것 같은데 modality-level 방식으로 하니 cost도 더 들고 성능도 괜찮게 나오니 contribution 중에 하나로 어필한 것은 아닌가 싶습니다)

      2. 네 맞습니다. 기존의 데이터셋이 sample-level적으로 imbalance하지 않은 데이터셋이였기 때문에 sample간의 modality imbalance가 큰 데이터셋을 만들어 정말 저 방법론들이 잘 워키하는지 확인하기 위해서 제안한 데어터셋이라 이해하시면 될 것 같습니다.

      감사합니다.

  2. 안녕하세요 김주연 연구원님

    Introduction 에 등장하는 그림 2 (c), (d)에 대한 질문 먼저 드립니다.
    그림 2의 (a), (b)는 동일 modality 여도 상황에 따라 기여하는 정도가 다르다는 걸 정성적으로 보이려는 것 같습니다.
    여기서 착안하여 저자는 Shapley value 라는 지표를 사용하여 기여도 정량화 메트릭을 제안한 것으로 보입니다.

    혹시 그림 (c)가 저자가 제안한 메트릭으로 기여도를 측정한 결과인가요?
    그리고 그림 (d)는 “dataset-level에서 한 modality의 기여도가 전체적으로 다른 modality를 압도하는 경향이 있음” 라고 하셨지만, 테이블의 legend 및 x, y축 값이 잘 안보여서 어떻게 해석해야할지 이해가 잘 안가는데, 다시 한번 설명해주실 수 있을까요?
    (그림이 작아서 더 이해가 안되는 부분도 있는 것 같으니, 다음엔 글씨가 다 보이도록 (a)(b) 만 잘라서 캡처하고, (c), (d) 만 잘라서 캡처해서 리뷰에 올려주시는 건 어떨까요?)
    아, 리뷰를 읽다보니 본문 아래에 나오네요! 해당 파트가 나오는 부분에도 그림을 크게 첨부해주시면 이해해 도움이 더욱 잘 될 것 같습니다!
    —-

    제가 이해한 내용을 요약하면…
    기여도가 낮은 모달리티가 존재하면, 멀티모달 모델이 특정 모달리티로만 학습이 집중되는 위험이 있으니
    이를 해결하고자, 단일 모달리티의 변별 능력과 기여도 간의 상관관계를 분석한 결과, 학습 중에 기여도가 낮은 모달리티의 변별 능력을 향상시키면 샘플에서의 기여도를 간접적으로 향상시킬 수 있었다라는 내용이 맞나요..?

    또 한 가지 궁금한게, 수식(1)에 따르면 기여도를 계산될 때는 정답일 경우의 모달의 개수가 반환되는 것 같습니다. 이를 활용한 수식(3) 역시 모달리티 수의 변화량을 기반으로 기여도가 측정되는 것이 맞나요?
    Shapley value 라는 컨셉을 사용하는 것까지는 충분히 납득이 되는데, 자세한 내용을 이해하는 데는 리뷰만으로는 이해하기 어렵긴 하네요..


    마지막으로, 해당 기여도를 주연님 방법론에 적용해서 측정할 수 있다고 보시나요?

    1. 안녕하세요. 댓글 감사합니다!

      이에 관련해서 구두로 답변을 드렸지만, 리뷰에 그 예시를 추가하면 좋을 것 같아 월요일 안으로 내용을 추가해 업데이트 해두겠습니다. (댓글로 답변을 드리기에는 수식을 알아보기 힘들것 같아 차라리 글을 업데이트 하는 것이 좋을 것 같아 이렇게 답변드리고자 합니다)

      그리고 해당 기여도를 제 방법론에는 적용할지는 사실 아직은 시기상조하다고 생각이 들지만 적어도 이 데이터셋이 multimodal imbalance를 일으킬 수 있는 데이터셋인지 아닌지에 대해서 파악할 수 있다는 생각이 들어 좋은 분석 방법이라 생각하여 활용해보고자 합니다.

      감사합니다.

  3. 안녕하세요 김주연 연구원님. 좋은 리뷰 감사합니다.

    본 리뷰의 contribution 중 MM-Debiased 데이터셋을 제안한 부분이 있는데 해당 데이터셋의 구축 방식이 언급되지 않은 것 같습니다. 혹시 간단히 설명해 주실 수 있을까요?
    그리고 주연님이 메인으로 사용하시는 데이터는 tav의 세 가지 모달리티를 활용하는 것으로 알고 있는데 해당 방법론을 어떻게 적용할 수 있는지도 궁긍합니다.

    감사합니다.

    1. 안녕하세요. 댓글 감사합니다.

      본 논문에서는 KS 데이터셋의 일부분을 샘플링하여 구축하였다고 하였으니 자세하게 이렇게 구축하였음은 언급하지는 않았고 중요한 점은 이 데이터셋의 경우 multimodal contribution이 balance있게 구축되었다는 점인 것 같습니다.

      위에 홍주영 연구원님의 댓글에 작성한 바와 같이, 해당 기여도를 제 방법론에는 적용할지는 사실 아직은 시기상조하다고 생각이 들지만 적어도 이 데이터셋이 multimodal imbalance를 일으킬 수 있는 데이터셋인지 아닌지에 대해서 파악할 수 있다는 생각이 들어 좋은 분석 방법이라 생각하여 활용해보고자 합니다.

      감사합니다

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다