안녕하세요. 이번에는 MER 논문을 읽어 봤습니다. 요즘 감정인식 trend가 contrastive learning 쪽으로 가고 있다고 느끼고 있는데요. 이번에는 contrastive learning을 적극 이용한 감정 인식 논문이 있어 가져와봤습니다. 그럼 리뷰 시작하겠습니다.

<Introduction>

Multi-modal Multi-label Emotion Recognition (MMER)은 여러 heterogeneous modality(예를 들어, text, audio)에서 여러 감정(예를 들어 happy, sad)를 식별하는 것을 목표로 합니다.

단일 modality task와는 달리 multimodal 학습은 다양한 source와 heterogeneous한 정보를 처리하기 때문에 여러 modality에서 변별력 있는 representation을 포착하는 것이 어려운데요. 과거의 연구 같은 경우 여러 modality의 representation을 fusion하여 하나로 통합하는 식으로 representation을 가져갔는데, 이렇게 여러 modality를 하나의 동일한 representation으로 통합하면 각 모달리티의 specificity를 무시할 수밖에 없어 변별력 있는 representation을 가져갈 수 없다는 단점이 있습니다. 그래서 최근에는 modality별 representation을 학습하려고 시도하지만 여전히 attention을 활용하여 이러한 representation을 하나로 융합합니다. 따라서 MMER에서는 modality specificity를 유지하고 상호보완적인 정보를 통합하면서 multi modal data를 효과적으로 표현하는 것이 주요한 과제입니다.

또한, Multi-label task인 MMER은 label 간의 복잡한 의존성을 처리해야 하는데요. 일반적으로 서로 다른 modality는 일관되지 않은 감정 표현을 가지고 있고, 반대로 서로 다른 감정은 서로 다른 modality에 초점을 맞추기 때문에 각 잠재적 label을 추론하는 것은 서로 다른 modality의 서로 다른 기여도에 크게 의존하는데요. Figure 1에서 볼 수 있듯이 sad는 visual modality에서 더 쉽게 추론할 수 있는 반면, disgust 같은 감정은 text, visual modality 모두에서 예측할 수 있습니다. 따라서 MMER에서는 이러한 점을 고려하여 label-to-label과 modality-to-label 의존성을 효과적으로 모델링하는 것 또한 주요한 과제입니다.

본 논문의 저자는 이러한 문제를 해결하기 위해 일반되고 시너지 효과를 내는 framework에서 representation 학습과 dependency 모델링을 조정하는 ContrAstive feature Reconstruction and AggregaTion for MMER (CARAT)를 제안합니다. CARAT는 3가지 구성요소로 구성되어 있는데요. 첫 번째, 각 modality 내에서 label별 representation을 개별적으로 추출하는 label별 attention mechanism을 사용하여 modality별 specificity를 유지하면서, 각 label와 관련하여 변별력 있는 representation을 포착합니다. 두 번째, multi modality information의 상호보완성과 specificity를 조화시키기 위해 여러 modality의 information을 활용하여 모든 modality의 feature를 생성하는 독창적인 reconstruction 기반 fusion 전략을 제안합니다. 기존 MMER에서는 다루지 않았던 contrastive learning을 활용하여 modality와 label별 feature의 학습을 용이하게 합니다. 세 번째, reconstruction된 embedding을 기반으로 label간의 co-ocurrence dependency를 강화하기 위해 새로운 sample 및 modality별 shuffle 전략을 제안합니다. shuffle 후에는 embedding을 집계하여 강력한 discriminator를 세밀하게 조정합니다. 또한, modality와 label 간의 의존성을 모델링하기 위해 sample 별로 서로 다른 감정에 대해 가장 관련성이 높은 modality를 찾은 다음, 해당 representation을 더욱 번별력 있게 만들 수 있도록 합니다.

위의 내용을 정리하여 본 논문의 contribution을 정리하면 아래와 같습니다.

새로운 framwork인 CARAT를 제안함. 처음으로 feature reconstruction에 기반한 muti-modal fusion mechanism을 촉진하기 위해 contrastive learning을 활용한 방법론임.
modality specificity를 유지하기 위해 label별 attention을 사용하여 여러 modality으로부터 label별 representaion을 추출함. 그런 다음 Max pooling과 유사한 network를 사용하여 관련성이 높은 modality representation을 선택하여 modality간 label간의 종속성을 탐색함
SOTA 달성..!

<Method>

본 논문에서 제안한 CARAT framework에 대해서 설명드리고자 합니다. 그 전에 MMER에서 사용하는 notation에 대해서 정리하고자 합니다. 먼저 각각 text(t), visual(v), acoustic (a) modality에 대한 heerogeneous feature space인 $X^t \in \mathbb{R}^{n_t \times{d_t}}, X^v \in \mathbb{R}^{n_v \times{d_v}}, X^a \in \mathbb{R}^{n_a \times{d_a}}$라고 하고, 여기서 $n_m, d_m$은 각각 sequence length와 modality dimension을 나타냅니다. 아 그리고 본 논문에서는 $ m \in \{ t,v,a\}$은 모든 modality를 나타나는데 사용됩니다. 그리고 Y는 C label에 대한 label space를 의미합니다. 학습 데이터셋 $D=\{(X_i^{\{t,a,v\}}, y_i)\}_{i=1}^N$이 주어지면, MMER은 각 video에서 감정을 예측하기 위한 함수 $F:X^t \times{X^v} \times{X^a} → Y$를 학습하는 것을 목표로 합니다. 구체적으로 말씀드리면, $X^m_i \in X^m$은 비동기적으로 조정된 utterance sequence를 의미하고, $y_i = \{0,1\}^C$는 multi-hot label vector를 의미합니다. 여기서 부호 $y_{i,j}=1$은 sample i가 class j에 속함을 나타내고, 그렇지 않으면 $y_{i,j}=0$ 입니다. 또한 추가로 비동기적으로 조정된 utterance sequence에 대해 잘 이해가 되지 않으실것 같아 설명을 덧붙이면, 비동기적으로 조정됐다는 말은 utterance가 동시에 발생하지 않도로 조정됐다고 이해하시면 쉬울 것 같습니다. 즉, 사람 A가 말하고 있을 때 사람 B가 동시에 말하지 않도록 조정했다고 보시면 됩니다.

<Uni-modal Label-Specific Feature Extraction>

본 방법론에서는 먼저, 각 modality의 각 label에 대한 관련 feature를 추출하는 것을 목표로 합니다.

<Transformer-based Extractor>

각 modality m에 대해 독립적인 Transformer Encoder를 사용하여 raw feature sequence $X^m \in \mathbb{R}^{n_m \times{d_m}}$을 high-level embedding space $H^m \in \mathbb{R}^{n_m \times{d}}$로 매핑합니다. 각 encoder는 $l_m$개의 동일한 layer로 구성되며, 각 layer는 multi-head self-attention sub-layer와 position-wise feed-forward sub-layer로 구성된 두 개의 sub-layer로 구성됩니다. 기존의 저희가 알고있는 순정 transformer encoder에서처럼 residual connection이 두개의 sub-layer에 사용된 후 layer normalization을 수행합니다.

<Multi-label Attention>

본 논문의 저자는 각 감정은 일반적으로 utterance에서 가장 관련성이 높은 부분으로 표현된다는 점을 고려하여 가장 중요한 정보를 포착하기 위해 각 감정에 대한 label별 representation을 생성합니다. embedding sequence $H^m$을 얻은 후, 각 label j에 대한 이러한 embedding의 combination을 계산합니다. 각 embedding의 hidden state는 $h_i^m \in \mathbb{R}^d (i \in [n_m])$로 표현할 수 있습니다. attention representation $u_j^m$은 다음과 같이 구할 수 있습니다.

<Contrastive Reconstruction-based Fusion>

이렇게 feature를 추출했으면, 그 다음은 여러 modality의 정보를 활용하여 모든 modality의 feature를 복구하는 것을 목표로 합니다.

<Multi-modal Feature Reconstruction>

multi-modal information을 동일한 representation으로 융합하면 modality의 특이성을 무시할 수 있는데요. 논문의 저자는 이러한 것을 고려하여 현재 modality의 feature distribution과 다른 modality의 semantic information을 사용하여 모든 modality의 feature를 복원하는 것을 reconstruction-based fusion mechanism을 제안합니다. 먼저 세 가지 modality별 encoder $En^m()$을 사용하여 $U_o^m$를 latent space $S^z$에 latent vector $Z_o^m \in \mathbb{R}^{C\times{d_z}}$로 투영합니다. space $S^z$에서 intrinsic vector $D^m = \{d^m_j \in \mathbb{R}^{d_z} \}^C_{j=1}$를 계산하여 각 label j의 feature distribution을 다른 modality에 반영합니다. 그런 다음 세 개의 modality별 decoder $De^m()$이 vector $Z_o^m, D^m$을 각각 decoding된 vector $\tilde{U_o^m}, \tilde{D^m} \in \mathbb{R}^{C\times{d}}$로 다시 변환합니다.

cross-modal feature fusion을 실현하기 위해서 본 논문의 저자는 3개의 network $f^{va2t}(), f^{ta2v}(), f^{tv2a}()$를 사용하는 two-level reconstruction process를 사용합니다. modality t를 예를 들어서 설명해보겠습니다. 먼저 intrinsic feature $\tilde{D^t}$와 semantic feature $\tilde{U_o^{\{v,a\}}}$를 특정 modality 순서로 연결하는데, 전자는 현재 modality(t)의 feature distribution을 반영하고, 후자는 다른 modality(v,a)의 semantic modality를 제공합니다. concat된 vector는 $f^{va2t}()$에 입력되어 first-level reconstrction representation (FRR) $U_{\alpha}^t \in \mathbb{R}^{C\times{d}}$를 얻습니다. 그런 다음 모든 modality의 $U_{\alpha}^m$이 concat되고, $f^{va2t}()$에 입력되어 second-level reconstruction representation (SRR) $U^t_{\beta} \in \mathbb{R}^{C\tiems{d}}$를 생성합니다. 모든 modality의 reconstruction기반 fusion process는 다음과 같습니다.

재구성된 feature vector가 원래 정보를 복원할 수 있도록 하기 위해 mean square error를 사용하여 reconstruction loss를 다음과 같이 구합니다.

여기서 $||-||_F$는 행렬의 Frobenius norm를 반환합니다. 여기서 처음으로 Frobenius norm에 대해서 접했는데 찾아보니 vector L2 norm을 행렬로 확장한 버전이라고 합니다.

본 논문의 저자는 modality의 heterogeneity로 인해 각 modality는 서로 다른 기여도로 각 감정을 표현한다는 것을 언급하는데요. 따라서 각 label이 가장 관련성이 높은 modality에 집중하도록 유도하기 위해 Max Pooling과 유사한 network를 도입했습니다. 구체적으로 설명드리겠습니다. $U_o^m, U^m_{\alpha}, U^m_{\beta}$에서 각각 t,v,a modality에 대한 label prediction을 계산하기 위해 세 가지 modality별 classifier $h_{\{t,v,a\}}()$를 사용합니다. 그런 다음 이러한 prediction에 Maxx Pooling을 연결하여 각 label의 가장 관련성이 높은 modality를 필터링 합니다. $U^m_o$를 예로 들면, 위의 network를 통한 최종 output은 다음과 같이 계산됩니다.

같은 방법으로, $s^{\alpha}, s^{\beta}$를 구할 수 있습니다. 마지막으로 binary cross entropy (BCE) loss를 아래의 식을 이용하여 계산합니다.

여기서 $l$은 BCE loss를 의미하고, loss앞에 곱해지는 변수는 trade-off parameter를 의미합니다.

<Contrastive Representation Learning>

본 논문의 저자는 intrinsic vector $D^m$이 각 label의 feature distribution을 다양한 modality에 반영할 수 있도록 하기 위해, contrastive learning을 활용하여 구별 가능한 latent embedding space $S^z$를 학습합니다. B size의 batch에 있는 sample의 경우, $U^m_o, U^m_{\alpha}, U^m_{\beta}$를 얻은 후 해당 encoder $En^m()$에 입력으로 줘 각각 L2-normalized된 latent embedding $Z^m_o, Z^m_{\alpha}, Z^m_{\beta} \in \mathbb{R}^{C\times{d_Z}}$를 생성합니다. 본 논문의 저자는 SCL (Khosla et al. 2022) 방식을 따르며 최신 latent embedding을 저장하는 queue를 추가로 유지합니다. 또한, queue의 경우 시간순으로 업데이트합니다. 이를 기반으로 contrastive embedding pool은 $E = \{Z^{\{t,v,a\}}_{\{o,\alpha, \beta \}} \}_{i=1}^B$로 나타냅니다. anchor embedding $e \in E$가 주여지면, contrastive loss는 positive set과 나머지 pool E의 나머지 set을 대조하여 구합니다. 식으로 표현하면 다음과 같이 표현할 수 있습니다.

여기서 $P(e)$는 positive set을 의미하고, $E(e) = E\ \{e\}$를 의미합니다. 타우는 temperature를 의미하고, batch의 contrastive loss는 아래와 같습니다.

또한, positive set을 구성하기 위해 각 label의 modality별 feature distribution을 학습하려는 목적을 고려하여 각 e에 대한 label을 재정의합니다. modality m, label categoy j, label polarity k에 따라 새로운 label은 $\tilde{y}=l_{j,k}^m, m \in \{t,v,a\}, j \in [C], k \in \{pos, neg\}$로 정의됩니다. 따라서 positive example은 $P(e) = \{e’|e’ \in E(e), \tilde{y’} = \tilde{y} \}$로 선택되며, 여기서 $\tilde{y}$는 e’에 대한 label입니다. 다시 말해서, positive set은 동일한 label category와 polarity을 가진 동일한 modality의 embedding입니다. 여기서 중요한 것은 각 class $l^m_{j,k}$에 해당하는 prototype embedding $µ^m_{j,k} \in \mathbb{R}^{d_z}$를 유지한다는 점이며, 이는 대표적인 embedding vector의 set으로 간주할 수 있습니다. 논문의 저자는 계산 횟수와 training latency를 줄이기 위해 class 조건부 prototype vector를 다음과 같이 moving-average style로 업데이트 합니다.

여기서 momentum prototype $µ^m_{j,k}$는 정의된 class가 $l^m_{j.k}$를 따르는 정규화된 embedding의 moving average로 정의됩니다. ϕ는 하이퍼파라미터 입니다. 학습 중에는 prototype을 활용하여 다음과 같이 soft-max pattern을 통해 intrinsic vector $D^m = [d^_1, …, d^m_C]$를 얻습니다.

예측 중에는 hard-max patter이 다음과 같이 사용됩니다.

여기서 $I_{[-]}$는 indicator function을 의미합니다.

<Shuffle-based Feature Aggregation>

가장 관련성이 높은 modality를 활용하는 것만으로도 차별적인 feature를 찾을 수 있지만, mult-modal fusion은 상호 보완적인 정보를 사용하여 보다 강력한 representation을 얻을 수 있습니다. 따라서 논문 저자는 sample 및 modality-wise shuffle processes를 포함하는 cross-modal information을 활용하기 위해 shuffle 기반 aggregation을 설계하였습니다. sample 및 modality-wise shuffle의 모티베이션은 각각 label의 co-occurrence relation을 풍부하게 하고 random cross-modal aggregation을 실현하는 것에서 시작했는데요. Figure 3에서 볼 수 있듯이, sample의 batch의 SRR을 얻은 후 두 가지 shuffle processes가 순차적으로 독립적으로 수행됩니다. 구체적으로, batch의 vector $U^m_{\beta}$를 $V=Stack(\{[U^t_{\beta};U^v_{\beta};U^a_{\beta}]\}^B_{i=1}) \in \mathbb{R}^{B\times{M} \times{C} \times{d}}$로 쌓습니다. 여기서 M은 modality의 수를 의미합니다. 먼저 각 modality m에 대해 다음과 같이 sample-wise shuffle (sws)를 수행합니다.

여기서 $\{r_i\}^B_1$은 sample의 새로운 indices를 의미합니다. 그런 다음, 각 sample에 대해, modality-wise shuffle (mws)는 다음과 같이 수행됩니다.

여기서 $\{r_i\}^M_1$은 modality의 새로운 indices를 의미합니다. 그런 다음 V와 $\tilde{V}$는 label dimension에 대해 다음과 같이 concat합니다.

여기서 주목해야 할 점은 단일 modality와 단일 sample의 feature로 concat된 $q^m_i$와는 달리, $\tilde{q}^m_i$를 구성하는 feature들은 1에서 M modality, 1에서 C sample에서 랜덤으로 샘플링된다는 점입니다. 마지막으로 Q와 $\tilde{Q}$는 classifier $h_c()$를 fine-tune하는데 사용되며 BCE loss는 다음과 같습니다.

최종적으로 식3,5,7,14를 조합하여 다음과 같은 최종 loss를 구합니다.

예측하는 동안 가장 관련성이 높은 modality와 cross-modal fusion을 모두 활용하여 test sample i’의 prediction은 다음과 같이 얻을 수 있습니다.

<Experiments>

휴, 길고 긴 방법론이 드디어 끝났습니다. 본 논문의 실험파트에서는 두개의 benchmark를 사용하여 MMER을 평가합니다. 바로, CMU-MOSEI와 M3ED라고 불리는 데이터셋인데, CMU-MOSEi의 경우, 감정인식 논문을 보셨다면 정말 많이 등장하는 데이터셋인데, 아마 M3ED는 처음 보셨을 것이라 생각됩니다. M3ED는 유명한 학회인 ACL에서 2022년에 발표된 따끈따끈한 데이터셋인데 중국어 데이터셋이라는 특징이 있습니다. 본 논문에서는 4가지 평가 metric을 사용하여 평가하는데 Accuracy(ACC), Micro-F1, Precision (P), Recall (R)을 이용하여 평가합니다.

Table1과 Table2를 통해 각 데이터셋에서의 모델 간 성능을 비교할 수 있습니다. 표를 통해 본 논문의 저자가 제안한 CARAT가 SOTA급의 성능을 보이고 특히나 M3ED에서는 SOTA를 달성한 것을 확인할 수 있습니다. CMU-MOSEI 같은 경우 modality간 align된 값과 unalign된 값을 동시에 제공하여 이 둘의 성능 차이를 같이 확인할 수 있는데요. CARAT 같은 경우, unaligned된 상황에서도 여전히 상당한 성능 향상을 보였고 이를 통해서 CARAT가 다른 모델에 비해서 modality간의 gap을 더 잘 극복하는 것을 확인할 수 있습니다.

<Ablation Study>

Table 3을 통해 논문에서 제안한 각 요소가 얼만큼의 영향을 미치는지 확인할 수 있습니다. 먼저 specificity와 complementarity을 보두 활용했을 때의 효과를 확인해보고자 합니다. 가장 관련성이 높은 modality (MRM)과 aggregated된 features (AGG)의 feature를 모두 활용하면 (1)이 (2)와 (3) 보다 우수하다는 것을 확인할 수 있고, 이는 modality specificity와 complementarity를 결합하는 것이 중요하다는 것을 나타냅니다.

다음으로는 contrastive representation learning의 효과를 확인해보고자 합니다. loss $L_{scl}$을 수행하지 않으면 (4)가 CARAT 보다 더 나빠지며, 이는 contrastive learning을 활용하여 구별 가능한 representation을 학습하는 것이 중요하다는 것을 보여줍니다. 또한 encoding과 decoding 과정을 제거하면 (5)가 (4) 보다 나빠지는 것을 보아, latent sapce에 intrinsic embedding을 탐색하는 것이 합리적인 과정이라는 것을 입증할 수 있습니다.

다음으로는 two-level feature reconstructino의 효과를 확인해보고자 합니다. 우선 첫 번째로, (6)은 CARAT에서 loss $L_{rec}$를 사용하지 않았을 때의 성능을 보이는데 CARAT보다 낮은 성능을 보이는 것을 통해 loss $L_{rec}$를 사용하여 feature reconstruction을 제한하는 것이 효과적이라는 것을 보여줍니다. 또한, fist-level과 second-level reconstruction process를 제거했을 때, (7)과 (8)은 CARAT과 비교하여 성능 저하의 정도가 다르다는 것을 확인할 수 있습니다. 또한, (9)의 성능이 (7)과 (8)보다 더 감소한 것을 봤을 때 cross-modal fusion을 달성하기 위한 multi-level feature reconstruction이 효과가 있음을 확인할 수 있습니다.

마지막으로, shuffling operation의 효과를 확인해보고자 합니다. shuffing 과정의 일부를 제외한 (10), (11)의 성능을 보면 CARAT 보다 성능이 낮게 나오는 것을 확인할 수 있으며, 두 shuffling 과정을 모두 제거한 (12)를 보면 더 성능이 낮게 나오는 것을 확인할 수 있는데 이를 통해 sample과 modality demension 모두에서 shuffling하는 것이 효과적임을 확인할 수 있습니다.

본 논문에서 흥미롭게 본 부분이 바로 Figure 4(a)인데요. label과 가장 관련성이 높은 modality의 상관관계를 시각화 한 것입니다. Figure4(a)를 보면, 각 label은 서로 다른 modality에 불균등하게 초점을 맞추고 있고 일반정으로 고유한 modality에 집중하는 경향이 있는 것을 확인할 수 있습니다. 예를 들어 surprise와 sad는 각각 visual modality와 text modality과 높은 상관관계가 있는 등 modality와 modality 간의 상관관계는 label마다 다릅니다. 이러한 figure를 보여준 이유는 본 논문의 방법론이 이러한 점을 고려하여서 학습하기 때문에 높은 성능을 보여 줄 수 있다는 것을 어필하기 위해서 인것 같네요.

Figure 4(b)에서는 두 가지 상황을 볼 수 있는데요. 그 중 인상적인 Case 2에 대해서 살펴 보겠습니다. Case 2는 서로 다른 modality로 표현되는 감정이 일관적이지 않은 경우를 가져온 것인데요. 더 쉽게 말하면, Case 2에서 angry라는 감정은 visual과 acoustic modality에서는 직관적으로 추출할 수 있지만, text에서는 그러지 못합니다. 그렇기 때문에 modality 별로, label 별로 contrastive learning을 수행하는 CARAT를 보면 다른 두 모델에 비해서 정확히 정답을 예측한 것을 확인할 수 있습니다.

이렇게 리뷰를 작성해봤습니다. Multi-label Multi-modal이라는 상황에서 contrastive learning을 효과적으로 가져가기 위해서 본 논문의 저자가 많이 시도를 해본것 같습니다. 논문의 방법론을 읽으면서 이거는 코드로 어떻게 구현할까 싶은 부분이 많았는데 감사하게도 저자가 코드를 공개하여서 참고할 수 있을 것 같습니다. 사실 논문을 읽으면서 어렵기도 하고 수식이 너무 많아서 리뷰를 작성하면서 진지하게 논문을 바꿀까 고민하였지만 읽고 나니 뿌듯함이 느껴지는 논문인 것 같습니다. 읽어주셔서 감사합니다.

6 thoughts on “[AAAI 2024] CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition”

홍 주영 says:

05/20/2024 at 00:18

안녕하세요 김주연 연구원님 좋은 리뷰 감사합니다.

지난번 미팅에서 읽어본다고 하신 논문이군요!

1. 약간 마이너한 질문인데요, Introduction 두번째 문단 첫번째 줄에 “단일 modality task와는 달리 multimodal 학습은 다양한 source와 heterogeneous한 정보를 처리하기 때문에 ~” 라고 표현해주셨는데, source와 heterogeneous 는 어떤 차이가 있나요..? heterogeneous는 서로 다른 modal 로 이해했는데 source는 그럼 무엇인가 궁금해져서 약간 사소한데 질문 하나 남깁니다
2. 모달 별 예측에 대해 max pooling 을 적용해서 레이블마다 관련성이 높은 modal 에 집중하고자 하는 방식이 제법 직관적이면서도 심플하네요. 이에 대한 성능 향상을 확인하고 싶은데, ablation study에서 MRM이 이에 해당하는 것 맞나요? 그렇다면 굉장히 강력한 방법이네요ㅋㅋ 그거 하나만 붙혀도 MulT 보다 성능이 뛰어난거로 보이네요..ㅋㅋ
3. 에서 모달 별로 encoder En은 동일한 걸 사용하나요??? 해당 인코더의 구조는 어떻게 되나요?

1. 김 주연 says:
  
  05/20/2024 at 11:34
  
  안녕하세요. 댓글 감사합니다!
  
  1) 다양한 source와 heterogeneous한 정보 관련해서는 저는 하나의 input이 들어오는 것이 아닌 여러 input이 들어오는 것으로 이해했고, 여기에 추가적으로 mult-modal 이기 때문에 modality간의 이질적인 부분을 heterogeneous하다고 이해했습니다
  
  2) MRM이 Max Pool을 사용하는 것과 관련하여 성능 리포팅한 것이 맞는데 사실 MaxPool로만 이렇게 성능 향상을 이룬다고 말하기는 어려울것 같습니다. 본 논문에서 제안한 방법론을 통해 Label-Specific Feature를 추출하고 거기에 Max Pool 등을 이용한 것이기 때문에 단순히 MulT에서 MRM을 사용했다고 해서 효과적으로 작동하지는 않을 것 같습니다.
  
  3) 리뷰를 다시 읽어보니 제가 모달별로 encoder를 어떻게 가져갔는지에 대해서 작성해두지 않았네요ㅜ 본 논문에서는 모든 encoder와 decoder를 2-layer MLP로 가져갑니다!
  
  감사합니다.
  
정 의철 says:

05/20/2024 at 00:29

안녕하세요 주연님 좋은 리뷰감사합니다.
positive set을 구성하는 방식에 질문이 있는데 label polarity가 무엇인가요?
그리고 Shuffle-based Feature Aggregation의 그림에서도 질문이 positive pair와 negative pair는 같은 label의 범주 안에서만 정의가 되는건가요? 본문에서는 ‘positive set은 동일한 label category와 polarity을 가진 동일한 modality의 embedding입니다’ 라고 하셨는데 첫 번째 행에서 가장 왼쪽에 있는 sample과 가장 오른쪽에 있는 sample이 positive로 나와있는데 정확히 어떻게 positive pair와 negative pair가 구성되는지 궁금합니다.
감사합니다.

1. 김 주연 says:
  
  05/20/2024 at 11:43
  
  안녕하세요. 댓글 감사합니다!
  
  1) label polarity는 감정의 긍정적, 부정적, 또는 중립적 성격을 나타내는 용어를 말하는데요. 예를 들어서 happy라는 감정에 대해서 label polarity는 positve로 나타낼 수 있습니다. 본 논문에서는 label polarity를 positive 혹은 negative로 가져가서 사용하였습니다.
  
  2) 저는 positive pair와 negative pair를 구축하는 방법에 대해서 이렇게 이해했는데요. 같은 modality, 같은 label, 같은 polarity로 구성된 임베딩에 대해서는 positive, 이 외에는 negative로 이해하였습니다.
  
  감사합니다.
  
천 혜원 says:

05/20/2024 at 01:58

안녕하세요 김주연 연구원님 좋은 리뷰 감사합니다.

지금까지는 ‘모달리티마다 감정 인식에 기여하는 정도가 다르다. 즉, 특정 모달리티에 편향되어 감정 인식을 수행한다는 것으로 알고 있었는데 감정마다 관련성이 높은 모달리티가 있다는 관점이 새로웠습니다.
리뷰를 읽고 궁금한 점이 있는데요, [Figure 4(a)]가 감정 label과 modality를 시각화 한 것이라고 하셨는데, 구체적으로 어떤 데이터셋에서 구한 것인지 궁금합니다. 만일 CMU-MOSEI의 6 label에 대한 결과라면 동일 label일 때 CARAT에 대한 결과가 있는지, 있다면 비슷한 경향을 보이는지도 궁금합니다.

1. 김 주연 says:
  
  05/20/2024 at 11:51
  
  안녕하세요. 댓글 감사합니다!
  
  저도 ‘감정마다 관련성이 높은 모달리티가 있다’라는 부분이 흥미로웠습니다.
  
  1) appendix를 찾아봐도 따로 이 figure가 어떤 데이터셋의 sample을 시각화 한 것이다 라는 말은 나오지 않았으나 제가 생각했을 때 CMU-MOSEI를 6감정, M3ED를 7감정으로 가져간것으로 보아 6감정인 CMU-MOSEI의 label을 시각화 한 것이 아닌가 싶습니다.
  
  2) 동일 label일때 CARAT에 대한 결과가 있는지에 대해서 찾아봤으나 논문에서 찾을 수 없었습니다. 그런데 대신해서 Figure4(b)의 Case2를 통해서 연구원님이 궁금하신 부분에 대해서 확인할 수 있을 거 같은데 Case 2를 봤을 때 text에는 sad가 visual에는 sad, disgust, angry가, audio에는 disgust, angry가 나온 것을 봤을 때 이를 시각과 했을 때 sad에서는 text 부분이 상관관계가 높게 나올것 같고 다른 부분도 이와 같이 생각했을 때 audio는 disgust, angry가 높게 나올거 같네요.
  
  감사합니다.

[AAAI 2024] CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition