[NeurIPS 2024] Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

안녕하세요. 이번에는 새로운 Benchmarking Dataset을 제안하는 MC-EIU 논문을 가져와봤습니다. 최근에 EMER이라는 task를 알게 되면서 해당 task를 제안한 교수님의 사이트를 계속해서 팔로업하고 있는데 교수님께서 ICASSP에 MC-EIU task로 challenge를 열게 되었다는 것을 알게 되었고, 사용하는 데이터셋이 해당 데이터셋 논문에서 제안한 데이터셋이여서, 팔로업 해보고자 읽게 되었습니다. 과제가 잘 마무리되고, 논문도 잘 마무리되어서 해당 challenge를 참여할 수 있으면 참 좋겠네요☺️ 그럼, 리뷰 시작하겠습니다!

<1. Introduction>

multimodal conversation에서 감정과 의도를 공동으로 이해하는 것(Emotion and Intent Joint Understanding in Multimodal Conversation; MC-EIU)은 multimodal conversation 간의 semantic dependency를 모델링하여 감정 상태와 의도 정보를 동시에 추론하는 것을 목표로 합니다. 감정이나 의도를 개별적으로 인식하는 task와는 달리, MC-EIU task는 기계가 인간의 요구를 더 잘 이해하고 인간과 기계 간의 대회에서 공감을 향상시키는 데 도움이 되는 풍부한 정보를 제공합니다. 그래서 콜센터와 같은 곳에서 해당 task가 굉장히 도움이 될 가능성이 높습니다.

그런데 MC-EIU task는 두 가지의 challenge를 가지고 있습니다.

  1. modeling multimodal contextual information
  2. modeling the interaction between emotion and intent

그래서 이전 연구자들은 데이터셋과 방법론 측면에서 이러한 challenge를 해결하기 위해서 노력해왔습니다.

먼저, 데이터셋 측면에서는, 대화 video clip에 대한 감정과 의도 label을 annotation하는 여러 데이터셋이 제안되었습니다. 그런데, annotation, modality, language diversity, accessibility 측면에서 사용 가능한 데이터셋이 부족하다고 논문의 저자는 말합니다.

감정 인식 task를 다뤄본 연구자라면 다 아는 IEMOCAP 데이터셋을 대표로, MEISD, MELD, M3ED 데이터셋은 각각 여러 감정의 category를 나눠 감정을 labeling하였습니다. 그런데 감정 label만 제공하고 intent label이 부족하여 annotation 다양성이 제한적입니다. OSED 데이터셋의 경우 32개 emotion과 9개의 intent가 포함된 opensource 데이터셋입니다. 하지만, english text 데이터로만 제공하기 때문에 modality와 language diversity 측면에서 제한적입니다. Emotion-MD 데이터셋의 경우, multimodal 데이터셋이고 emotion과 intent 모두 labeling 되어 있지만 english data만 제공하여 language diversity가 부족합니다. 또한 opensource가 아니라 사용하지 못합니다. 이에 대해서 좀더 정리된 버전을 보고 싶으시면 아래의 Table 1을 참고하시면 됩니다.

두 번째로, 방법론 측면에서, 일부 연구에서는 emotion과 intent를 joint하게 인식하기 위한 multi-task framework를 구축하기 위해서 sota 아키텍처를 활용하고 있는데, 구체적으로 EmoInt-Trans 방법론을 예를 들 수 있습니다. 이 방법론은 인근 발화의 embedding을 활용하여 현재 발화의 representation을 증강하고, 이 후 두 개의 projection head를 통해 emotion과 intent label을 예측합니다. 그런데, 이렇게 예측하는 경우 multimodal conversation history 내에서 복잡한 의존 관계와 emotion 과 intent 정보 간의 깊은 상호작용을 무시하는 하게 됩니다. 하지만 emotion과 intent 간의 깊은 상호작용은 multimodal conversation 이해에 중요하다는 것이 입증된만큼 emotion과 intent를 예측할 때 고려되여야 합니다.

논문의 저자는 위의 문제를 해결하고자 MC-EIU 데이터셋을 제안합니다. 해당 데이터셋은 4가지 요소, 즉, annotation, modality, language diversity, accessibility을 동시에 충족하며, MC-EIU task에 대한 연구를 수행할 수 있도록 합니다.

MC-EIU 데이터셋은 3개의 English TV 시리즈와 4개의 Chinese TV 시리즈에서 4,970개의 conversation video clip으로 구성되어 있으며, real-world와 밀접하게 관련된 conversation senario를 제공합니다. 또한 7개의 emotion과 9개의 intent에 대한 annotation이 포함되어 있으며, 총 45,009개의 english utterance와 11,003개의 chinese utterance가 포함된 text, audio, visual modality를 포함합니다.

또한 이 데이터셋은 완전히 opensource이기 때문에 accessibility를 제공합니다. 논문의 저자가 말하길 해당 데이터셋인 multimodal conversation에 대한 emotion과 intent의 joint undersatnding을 위한 첫 번째 포괄적이고 풍부한 데이터셋이라고 합니다.

데이터셋을 제공하는 것 뿐만 아니라, multimodal conversation의 context를 고려하면서 emotion과 intent간의 중요한 심층 상관관계를 모델링하는 Emotion and Intent Interaction($\text{EI}^2$) framework를 제안합니다. 구체적으로 conversation history를 적절히 모델링하기 위해 multimodal history encoder를 설계합니다. 그런 다음 conversation history feature를 이용하여 현재 utterance의 emotion 및 intent feature를 통합합니다. 마지막으로 emotion과 intent 간의 복잡한 상호작용 상관관계를 학습하기 위해 emotion-intent encoder를 제안합니다.

본 논문의 contribution을 정리하면 다음과 같습니다.

  • 처음으로 포괄적이고 풍부한 multimodal conversation emotion, intent joint understandin dataset (MC-EIU)를 제안함.
  • Emotion and Intent Interaction($\text{EI}^2$) framework를 제안함
  • $\text{EI}^2$의 효과를 제안된 benchmarking dataset에서 입증함.

<2. MC-EIU Dataset Construction>

<2.1 Data Collection and Pre-processing>

먼저, real-world 상황에서의 감정 대화 시나리오를 시뮬레이션 하기 위해서 family, romance, crime 등의 다양한 장르의 3개 English TV 시리즈 (716개 에피소드)와 4개의 Chinese TV 시리즈 (119개 에피소드)에서 emotional video clip을 선택합니다. 모든 video는 해당 자막 파일과 함께 제공 되었다고 합니다. 이후에 low-quality 데이터를 필터링하기 위해서 데이터를 전처리 합니다. 구체적으로 말하면 아래와 같습니다.

  1. 먼저, 정규 표현식 스크립트를 설계하여서 자막에서 text transcription과 timestamp를 추출합니다
  2. 그런 다음, VideoFileClip을 활용하여 timestamp를 기반으로 비디오를 여러 clip으로 분할합니다.
  3. 마지막으로, 많은 작업자들을 참여시켜서 동일한 대화 장면에서 high-quality의 대화 구간을 선택하도록 하였습니다. 물론 다른 논문을 참고하여 이를 바탕으로 구체적인 가이드라인을 제공하였다고 하는데 이는 아래와 같습니다.
    1. 대화 장면은 두 화자 간의 상호작용만 포함해야 한다.
    2. 선정된 대화 장면은 소음이나 특수 효과 소리가 없어야 하며, 이를 통해 비디오 품질에 영향을 받지 않아야 한다
    3. 각 대회 구간은 화자 간의 상호작용이 두번 이상 이뤄저야 한다. (풍부한 context 정보를 제공하기 위해서 이렇게 정했다고 합니다.)
    4. 텍스트 내용은 정확해야하고 video clip과 일치해야 한다.

데이터를 수집하는 가이드를 보니 갑자기 생각나는 부분이 있는데요. 최근에 수행하고 있는 과제에서 연구한 모델을 이용하여 실제로 사람들 앞에서 시연을 통해 제대로 워킹하는 것을 보여야 하는데, 그러기 위해서는 모델이 real-world에 동작할 수 있도록 학습 시킬 뿐만 아니라 이를 위한 데이터셋이 필요했습니다. 왜냐면 시연 상황에서는 아주 아주 다양한 상황이 발생할 수 있기 때문입니다. 그런데 이 데이터셋을 수집 가이드를 보면 통제하는 상황이 많아 실제로 real-world에 적용하기에는 조금 힘들 수도 있는 데이터셋일 수도 있다는 생각이 드네요. 쨌든 다시 논문으로 다시 돌아가서 설명드리겠습니다.

<2.2 Data Annotation>

<Annotation Scheme>

annotation scheme는 emotion, intent, speaker annotation으로 구성됩니다. emotion을 annotation하기 위해서 Ekman의 기본 emotion 6가지(happy, surprise, sad, disgust, anger, and fear)와 여기에 neutral label을 선택하여 emotion을 구성하였습니다. 참고로 이런 7 emotion 체계는 다른 데이터셋도 많이 가져가는 annotation scheme 입니다.

intent annotation에 대해서는 이전 논문(1,2)을 따라 9가지 intent를 기준으로 각 발화를 annotation하였습니다. 여기서 9가지 intent는 *questioning(질문하기), agreeing(동의하기), acknowledging(인정하기), sympathizing(공감하기), encouraging(격려하기), consoling(위로하기), suggesting(제안하기), wishing(소망하기), neutral(중립)*을 의미합니다.

화자 annotation에서는 대화에서 누가 말을 하고 있는지를 나타내는데, 각 대화에서 화자를 구별하기 위해서 두가지 label(0과 1)을 사용합니다.

여기서 특이한 점은 English와 Chinese를 모두 annotation 하는 것이기 때문에 annotator의 외국어 skill을 평가하였고, annotation을 하기 위한 교육과 시험을 만들어 시험을 통과하지 못하면 재교육 받도록 하였다고 합니다. annotator를 매우 철저하게 교육 시켰다는 것에 대해서 이 데이터셋의 신뢰성이 올라가는 것 같습니다.

<Annotatioin Process>

Annotation Scheme에서 전반적으로 어떻게 annnotation을 시키지에 대해서 말했다면 여기는 그 과정이 어떻게 이뤄졌는지인데, 간략하게만 짚고 넘어가면 총 21명의 annotator를 7개 그룹으로 나눠 annotation을 진행하였다고 하고, 너무 annotation이 어려운 발화의 경우, other이라는 카테고리를 만들어 선택할 수 있도록 하였다고 합니다.

<2.3 Data Annotation Finalization>

모든 발화에 대한 annotation은 다수결 투표 전략을 사용하여서 최종 emotion과 intent label을 도출합니다. 흥미로운 부분은 최소 두 명의 annotator가 동일한 annotation을 했을 경우 이를 최종 label로 가져가는데, 세 명의 annotator가 모두 다른 annotation을 하는 경우 추가로 감정 전문가와 상담하여서 최종 label을 가져갑니다. 아주 유명한 감정 데이터셋인 IEMOCAP도 이렇게 꼼꼼하게 라벨링하지 않은 것 같은데 annotation을 정확하게 가져가기 위해서 논문의 저자가 많은 노력을 한 것이 보입니다.

Table 2를 통해서 MC-EIU 데이터셋의 통계를 볼 수 있습니다. 총 56,012개의 발화로 구성되어 있으며, 여기에는 4,013개의 English conversation, 957개의 Madarin conversation으로 구성되어 있습니다. 시간으로 계산으로 총 54.06 시간 분량을 가진다고 합니다. 당연하게도 train, valid, test set을 구성하여서 제공하고 있고, 비율은 7:1:2라고 합니다.

또한, 논문의 저자는 데이터 annotation을 평가하기 위해서 Table 3에 제시된 바와 같이 emotion, intent anntation에 대해 독립적으로 Fleiss의 kappa(k)를 계산합니다. 여기서 데이터셋 k를 보면 이전 연구보다 높거나 비슷한 수치를 보이는 것을 볼 수 있고 이는 annotation의 신뢰성과 정확성이 높음을 말합니다.

여기서 Fleiss의 kappa(k)가 무엇인지 궁금하실 것 같아 조금 더 찾아봤습니다. Fleiss의 kappa(k)는 여러 annotator 간의 동의도를 측정하는 통계적 지표로, 주로 데이터 annotator의 일관성을 평가하는데 사용된다고 합니다.

논문의 저자는 좀더 emotion과 intent간의 상관관계를 보기 위해서 7X9의 2차원 행렬을 만들었습니다. 해당 행렬의 element는 데이터샛 내의 “emotion-intent” pair에 해당하는 샘플 수를 나타냅니다. 샘플 수를 반지름으로 사용하여 해당 행렬 위치에 원으로 시각화하였는데, Figure 1을 보시면 이를 확인할 수 있습니다. 여기서 원이 클 수록 상관관계가 높은 것을 나타냅니다. 해당 행렬을 통해서 관찰할 수 있는 것은, emotion과 intent가 일대일 대응하지 않는다는 것이고 서로 다른 intent가 특정 emotion에 미치는 영향이 다양하고 그 반대의 경우도 마찬가지다 라는 것입니다.

Figure 1(a)를 예를 들면, “Hap-Sym”에 비해서 “Hap-Agr”가 더 높은 빈도로 발생하여 “Agreeing”이 “Happy”의 표현을 이끌 가능성이 더 높다는 것을 나타냅니다. 비슷하게, “Dis-Que”와 비교했을 때, “Sad-Que”는 더 높은 발생률을 보이고 “Questioning”이 “Disgust”에 비해 “Sad”와 더 밀접하게 연관되어 있음을 나타냅니다. 또한, English 데이터셋의 emotion과 intent의 상관관계가 Mandarin 데이터셋에 비해 더 복잡하다는 것을 확인할 수 있는데요. 논문의 저자는 이러한 복잡한 관계가 MC-EIU task에 challenge를 부여한다고 말합니다.

<3. Emotion-Intent Interaction($\text{EI}^2$ Network>

<3.1 Overall Architecture>

논문의 저자는 multimodal dialog history와 emotion과 intent 간의 deep-level의 interaction을 모델링하기 위해서, Figure 2와 같이 $\text{EI}^2$ network를 설계하였습니다. 제안된 network는 다음의 4가지로 구성되어 있습니다.

  1. Emotion & Intent Encoder
    • Emotion & Intent Encoder를 이용해 현재 utterance에 대해서 multimodal emotion, intent representation을 생성할 수 있습니다.
  2. Multimodal History Encoder
    • Multimodal History Encoder는 multimodal history에서 multimodal context semantic information을 포착하는 역할을 합니다.
  3. Emotion-Intent Interaction Encoder
    • Emotion-Intent Interaction Encoder는 대화에서 emotion과 intent간의 깊은 상호작용을 학습합니다.
  4. Emotion&Intent Classifier
    • Emotion&Intent Classifier를 통해 emotion-intent 상호작용 정보를 기반으로 예측을 수행합니다.

그러면, 각 요소에 대해서 구체적으로 설명해보겠습니다.

<3.1.1 Emotion & Intent Encoders>

논문의 저자는 발화에서 일반적인 semantic representation을 추출하는 것과 달리, emotion과 intent 이해를 위해 별도의 feature encoder를 추가하여 더 명시적으로 emotion 및 intent feature를 추출하였습니다.

emotion 및 intent encoder는 비슷한 구조로 구성되어 있는데, Visual encoder, Textual encoder, Acoustic Encoder, Transformer fusion network로 구성되어 있습니다. $u^n_a, u^n_t, u^n_v$는 각각 n번째 발화 $u_n$의 acoustic, textual, visual feature를 나타냅니다. multimodal emotion representation $f_e^*$와 intent representation $f^*_i$는 다음과 같이 표현될 수 있습니다.

여기서 $s \in \{e, i\}$, $F^a_s$는 LSTM과 max-pooling을 기반으로한 Acoustic Encoder를 의미하고, $F_s^v$는 $F_s^a$와 동일한 구조를 한 Visual Encoder를 의미합니다. $F^t_s$는 TextCNN을 기반으로 한 Text Encoder를, $F^*_s$는 Transformer fusion network를 의미합니다.

참고로 위의 그림은 Figure 2의 앞단 부분을 가져온 것인데요. Encoder에 불 모양의 심볼이 있는 것을 볼 수 있습니다. 이는 pre-training을 필요로 한다는 것을 의미합니다.

<3.1.2 Multimodal History Encoder>

논문의 저자는 인접 발화의 context 정보만 모델링하는 이전 연구와는 달리, Multimodal History Encoder를 통해서 더 넓은 범위의 history 정보를 고려하였습니다. 현재 발화 $u_n$에 대해서, multimodal conversation history information $f_h$는 다음과 같이 표현됩니다.

여기서 $m \in \{v,a,t\}, F^m_h$는 GRU 기반인 History Encoder를 의미하며, $f_h$는 multimodal history information feature를 의미합니다. 논문의 저자는 robust한 emotion feature $f_e$와 intent feature $f_i$를 얻기 위해 이 두개의 feature를 개별적으로 fusion합니다 : $f_s = f^*_s + f_h$, 여기서 $f_s$는 최종적으로 융합된 feature를 의미하며, $f^*_s$는 transformer network를 타고 나온 emotioin 또는 intent feature를, $f_h$는 conversation history로 얻은 feature를 의미합니다. 위의 Figure2의 앞단 부분을 참고하면 이해가 더욱 빠를 것 같습니다.

<3.1.3 Emotion-Intent Interaction Encoder>

논문의 저자는 단순히 hidden state를 공유하는 것만으로는 두 task간의 명시적인 information을 전달하기에 충분하지 않다고 합니다. 그래서 복잡한 상관관계를 고려하여 두 task간의 상호작용 정보를 학습하기 위해 Emotion-Intent Interaction Encoder를 제안합니다. 위의 Figure 2의 그림 일부분을 통해, Emotion-Intent Interaction Encoder가 emotion과 intent 예측을 위한 두개의 branch로 구성되어 있고, 각 branch가 Binary Correlation Attention, Triple Interaction Attention, Gate Regulator로 구성되어 있음을 확인할 수 있습니다. 그럼 각각의 구성요소가 무슨 역할을 하는지 설명드리고자 합니다.

<3.1.3.1 Binary Correlation Attention>

Binary Correlation Attention는 먼저 cross attention을 적용하여 emotion과 intent 간의 상호 영향을 학습하며, 이는 두 task 간의 binary correlation이라고 할 수 있습니다. 이 때문에 논문의 저자는 이를 Binary Correlation Attention이라고 이름 지었나 봅니다. 위의 과정을 구체적으로 말씀드리면, 먼저 linear projection을 사용하여 $f_e, f_i$를 매핑하여 $Q,K,V$를 생성합니다. 그런 다음, attention mechanism을 사용하여 $f_e, f_i$간의 상관관계를 추출합니다.

여기서 $\gamma, \beta \in \{e,f\}$, $\gamma$가 e를 나타내면 $\beta$는 i를 나타냅니다.

<3.1.3.2 Triple Interaction Attention>

Triple Interaction Attention은 두 task 간의 깊이 있는 상호작용 정보를 탐색합니다. 두 task의 전반적인 상호작용 feature를 얻기 위해 각 branch에서 binary correlation와 task별 정보를 통합합니다. 논문의 저자는 이 과정에서 계단식 상호작용 feature representation을 계산하는 triple interaction attention을 제안합니다. triple interaction attention을 통해 binary correlation attnetion의 output을 $f_e, f_i$와 함께 input으로 받습니다. 두 task의 depp interactive information $f_{\gamma-\beta-\gamma}$는 다음과 같이 얻을 수 있습니다.

<3.1.3.3 Gate Regulator>

Gate Regulator 파트에서는 binary correlation feature와 triple interaction feautre의 weight를 자동으로 학습하기 위해서 gating mechanism을 활용합니다. 앞에서 Figure 1을 통해서 확인한 서로 다른 emotion-intent pair간의 상관관계가 interaction feature에 미치는 잠재적 영향을 모델링하기 위해서 사용합니다. 이를 통해 binary correlation의 기여도를 emotion이나 intent의 최종 인식에 조정할 수 있습니다. 구체적으로 말씀드리면, gate regulator는 먼저 $f_{\gamma-\beta-\gamma}$와 $f_{\gamma-\beta}$를 더합니다. 이후 sigmoid 함수를 적용하여 두 값 사이의 gate regulator 값을 얻습니다. 마지막으로 $f_{\gamma-\beta}$는 gate regulator 값과 곱해져 correlation 정보의 가중치를 조정합니다.

여기서 $g^*_{\gamma}$는 Emotion-Intent Interaction Encoder의 마지막 output을 나타냅니다. 위의 내용을 통해 $\text{EI}^2$ 모델은 emotion과 intent 간의 깊은 상호작용을 포착할 수 있습니다.

<3.1.4 Emotion & Intent Classifiers>

emotion 및 intent representation의 구제적인 정보를 유지하면서 깊은 상호작용 정보를 합치기 위해, 논문의 저자는 최종 예측 전에 $g^*$를 emotion feature $f_e$와 intent feature $f_i$와 각각 결합하여 residual connection을 수행합니다. 마지막으로, emotion&intent classifier는 residual connection의 결과를 이용하여 최종 emotion 및 intent category를 예측합니다.

<3.2 Training Strategy>

먼저, emotion 및 intent encoder를 pre-training하여서 emotion과 intent 정보를 효과적으로 추출할 수 있도록 합니다. 데이터셋에 category imbalance가 존재하기 때문에 사전학습 단계에서 loss function $L_{pre}$로 Focal Loss(FL)을 사용하여 emotion과 intent의 예측이 emotion과 intent의 실제 값 $\hat{P}_e, \hat{P}_i$에 가깝도록 제한하고, 모델이 소수 sample의 category에 집중할 수 있도록 합니다.

여기서 ${CLS}_e$와 $CLS_i$는 사전 학습 단계의 emotion 및 intent classifier를 나타냅니다.

$\text{EI}^2$의 학습 단계에서는 미리 학습된 weight로 emotion 및 intent encoder를 초기화합니다. 그런 다음 이러한 encoder는 학습 중에 추가로 업데이트 되는데요. 마지막으로 FL loss를 MC-EIU task의 최종 loss function $L_{total}$로 활용합니다.

<4. Experiment and Analysis>

Table 4를 통해서 해당 데이터셋에서 각 방법론의 성능을 파악할 수 있습니다. 성능 측정을 위해 사용된 evaluation metric은 Weighted Average F-Score (WAF)를 사용하였습니다.

Table 4를 통해서 본 논문에서 제안된 방법론인 $\text{EI}^2$의 성능을 보시면 다른 방법론의 비해서 Emotion, Intent 모두 성능이 뛰어난 것을 볼 수 있습니다. English 데이터셋에서는 매우 큰 성능 차이가 보이지 않을 수도 있는데, Mandarin 데이터셋에서는 무려 이전 방법론과 4% 이상의 Emotion 성능이 나는 것을 파악할 수 있습니다. 해당 방법론이 본 논문의 저자가 지적한 문제 상황을 잘 해결했다는 것을 성능으로 볼 수 있는 부분인 것 같습니다.

논문의 저자는 제안한 multimodal history encoder, emotion-intent interaction encoder, gate regulator, pretraining strategy for emotion&intent encoders에 대해서 ablation 실험을 수행하였습니다.

먼저, ‘w/o History’는 $\text{EI}^2$에서 multimodal history encoder를 없앤 버전,

‘w/o Interaction’은 emotion&intent encoder가 output으로 가진 feature를 최종 예측에 직접 사용한 것을 의미합니다. ‘w/o Gating’은 gate regulator를 의미합니다. ‘w/o FL’은 Focal Loss를 Cross-Entropy Loss로 바꾼 것을 말합니다. ‘w/o Pre-training’은 $\text{EI}^2$ 학습 중에 emotion&intent encoder 매개변수를 random하게 초기화 한 것을 말합니다.

위의 Table에서 볼 수 있듯이, $\text{EI}^2$는 두 데이터셋 모두에서 모든 ablation model보다 우수한 성능을 보입니다. 이러한 결과를 통해서 아래의 주장에 강력한 증거를 제공하는데요. 먼저, conversation history를 포함함으로써 현재 화자의 emotion과 intent를 분석하는데 도움을 줍니다. 다음으로 깊은 상호작용 정보를 모델링하고 통합함으로써, joint understanding task의 성능이 향상되고, 이는 intent와 emotion 간의 상호작용 정보를 모델링하는 것이 중요함을 더욱 입증합니다. 또한, gating mecahnism을 없앤 뒤에 성능이 크게 감조하는 것을 통해서 최종적으로 emotion이나 intent를 인식하기 위한 binary correlation의 weight를 조정하는데 있어 gate regulator가 중요한 역할을 하고 있음을 볼 수 있습니다. 마지막으로 pretraining을 통해서 높은 성능 향상을 가져온 것을 볼 수 있고 이는 사전 학습을 통해서 emotion과 intent를 위한 상당한 semantic한 정보와 독특한 특성을 학습할 수 있다는 것을 암시합니다.

본 논문에서는 다하게 ablation study를 수행하였는데요. Table 5를 통해서 task ablation의 실험 결과를 볼 수 있습니다. Table 5를 통해서 single task로 학습했을 때의 성능과 joint task로 학습했을 때의 성능을 보면 joint task의 성능이 모두 높은 것을 볼 수 있습니다. 이를 통해서 emotion과 intent 간에 강한 상관관계가 있음을 확인할 수 있습니다.

module ablation, task ablation에 이어서 modality ablation 또한 실험하였는데, 이는 Table 6을 통해서 확인할 수 있습니다. 정말 놀라운 점은 어쩜 결과가 이리 예술적으로 나왔는지, 사용하는 modality 수가 늘어날 수록 성능이 오르는 것을 확인할 수 있고, Text, Audio, Video에 상관하지 않고 하나 추가할 때마다 성능이 오르는 것을 확인할 수 있습니다. 물론 많은 감정 관련 task에서 그랬다싶이 Text modliaty의 성능이 가장 높은 것 또한 확인할 수 있습니다.


해당 논문을 읽으면서 논문의 저자가 MC-EIU라는 task의 포문을 열고 싶은 것이 굉장히 잘 느껴졌고 제안된 데이터셋, 제안된 방법론을 통해 성능을 증명하면서 시작을 잘 끊은 것 같다는 생각이 들었습니다. 요즘따라 새로운 task가 정말 쏟아지듯이 생기는 듯 합니다. EMER부터 MIC-EIU 등등 아직 제가 팔로업하지 못한 분야가 더 있을 거라는 생각이 들어서 두근두근 합니다. 리뷰 읽어주셔서 감사합니다.

Author: 김 주연

4 thoughts on “[NeurIPS 2024] Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset

  1. 안녕하세요 김주연 연구원님. 좋은 리뷰 감사합니다.

    데이터셋 구축 관련 내용 중 실제 감정 label을 annotation하는 부분이 인상적이었습니다. 비전문가인 annotator들의 주관적인 평가 + 다수결을 기반으로 하되, 라벨링이 어려운 데이터에 한해 감정 전문가가 annotation을 하는 것을 보고 결국 감정이라는 데이터 자체가 상당히 주관적일 수 밖에 없다는 것을 다시금 생각하게 되었네요…

    방법론에 관해 간단한 질문이 있는데요, training strategy 부분에서 emotion/intent encoder를 사전 학습할 때 두 encoder가 동시에 업데이트 되는 것으로 이해하였습니다. 그런데 intro 부분에서 intent와 emotion 라벨을 동시에 가지는 멀티모달 데이터셋이 부족하다고 언급하셨는데, 그렇다면 사전 학습은 어떤 데이터로, 어떤 task를 수행하는 방식으로 진행되는지 궁금합니다.

    감사합니다.

    1. 안녕하세요. 댓글 감사합니다.

      사전 학습은 본 논문에서 제안한 benchmark를 이용하여서 학습 한것으로 알고 있습니다. task 또한 classification task로 emotion과 intent를 분류합니다.

      감사합니다.

  2. 안녕하세요, 김주연 연구원님. 좋은 리뷰 감사합니다.
    N개의 모달리티를 받아서 의도와 감정을 모두 맞춰야 하는 걸 보니 굉장히 난해한 task네요.. 어려워 보입니다.
    간단한 질문 남기도록 하겠습니다.
    기존에 제안된 데이터셋들을 보면 Modality와 감정, 의도 여부가 모두 다른데 그럼 성능 비교를 할 때 모달리티, 감정, 의도가 모두 같은 데이터셋으로만 해야 하나요? 세 여부가 모두 같은 데이터셋이 제한적인 것 같아 질문 드립니다.
    또, 성능 평가에 있어 감정과 의도에 대한 classification 성능으로 이해했는데, 이들을 따로 나타내는것이 아니라 함께 고려하여 산출하는 지표는 따로 없나요? 해당 task가 감정과 의도를 모두 예측하는것으로 이해해서 질문드립니다.
    마지막으로 의도.. 가 무엇인지 잘 감이 오지 않는데, 예시를 몇 개 더 들어주실 수 있을까요?

    감사합니다.

    1. 안녕하세요. 댓글 감사합니다.

      1. 세 여부(모달리티, 감정, 의도)가 모두 같은 데이터셋으로만 보지 않아도 됩니다. 감정 인식 데이터셋에서도 감정 라벨이 다른 경우가 많기 때문에 각 데이터셋 별로 성능을 리포팅하는 식으로 리포팅합니다. (table을 달리 가져가는 거죠)

      2. 함께 고려하여서 산출하는 지표는 본 논문에서 언급하지는 않았습니다. 하지만 나중에는 이런 emotion-intent pair를 고려하는 task가 나오게 된다면 나올 수도 있을 것 같네요.

      3. intent는 간단하게 해당 문장이 어떤 의도로 발화되었는지에 대해서 라벨링 된 것입니다. 예를 들어서 ‘식사 하셨나요?’는 intent가 questioning이 되겠죠.

      감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다