[arXiv 2024] UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause

안녕하세요. 오늘 가져온 논문은 MER(Multimodal Emotion Recognition)을 팔로업 하는 사람들이면 알법한 논문인 UniMSE의 저자의 후속 논문입니다. UniMSE가 2022년도 논문인데 최근 논문을 보니 계속해서 affecting computing에 대해서 관심이 가지고 연구 수행하는 것이 보여 집중 마크해서 팔로업 해볼까 합니다. (혹시 궁금하신 분들은 저자 홈페이지가 있으니 참고하면 좋을 것 같습니다)

최근에 감정 인식 + 멀티모달 논문 관련하여 뭘 연구할 수 있을까에 대해서 조금씩 고민해보고 있는데, 마침 익숙한 저자의 논문에 새로운 키워드(Emotion Cause)가 나와 읽게 되었습니다. 그럼 리뷰 시작하겠습니다.

<Introduction>

최근에 주어진 대화에서 감정을 인식하는 MERC(Multimodal Emotion Recognition in Conversation)와 감정과 감정의 원인을 동시에 인식하는 MECPE(Multimodal emotion-cause pair extraction)의 관심이 높아지고 있습니다. 일반적으로 MERC와 MECPE는 dialog system에서 중요한 역할을 담당하고 있으며, 특히나 공감적인 응답 생성에 있어서는 필수라고 합니다.

MERC는 대화에서 각 발화에 나타난 감정 category를 인식하는 반면에, MECPE는 특정 감정을 유발하는 원인 을 찾아내어 감정과 원일을 동시에 매칭하는 것을 목표로 합니다. 두 연구 모두 multimodal fusion, context modeling, external knowledge로 요약할 수 있지만, 대부분의 기존 연구에서는 MERC와 MECPE를 별도의 task로 취급합니다. 하지만, 많은 연관성이 있는 두 task를 개별적으로 학습하면 실제 application senario에서 두 가지 task를 원활하게 통합한는데 어려움이 발생할 수도 있습니다. 그렇다면 어떻게 두 task의 output을 실제 application에서 align이 맞도록 할 수 있을까요?

위의 질문을 상기시킨채로 계속해서 설명하도록 하겠습니다. 감정은 특정 사건, 생각 또는 상황에 대한 반응인 경우가 많은데, 이를 emotion cause(감정 원인)이라고 합니다. 예를 들어, 좋은 소식을 들으면(⇒원인) 행복한 감정(⇒결과)을 느낍니다. 이와 반면에 어려운 상황에 직면하면(⇒원인) 좌절감(⇒결과)을 느낄 수 있습니다. 감정 구성의 맥락에서 인과 관계는 원인과 감정 상태(emotion state) 사이의 연결에 의해 성립됩니다. (즉, 원인(감정 원인)→결과(감정 상태)를 말합니다.) 반면에 감정과 감정 원인은 동면의 양면과 같아서 상호 의존적이며 상호 영향을 미칩니다. 이 두 가지는 서로 정보를 보완하는 보조 역할을 하며 감정뿐만 아니라 감정을 유발하는 근본적인 요인도 인식할 수 있는 보다 복잡한 시스템으로 이어집니다. Figure 1은 감정과 감정 원인이 언어적 또는 비언어적 맥락에서 어떻게 인과적 맥락을 구성하고 mask prediction 문제로 공식화할 수 있는지를 보여줍니다.

위를 기반으로, 논문의 저자는 감정과 감정 원인 간의 상호 보완적인 지식을 충분히 활용하는 Unified Multimodal Emotion Recognition and Emotion-Cause pair extraction framework (UniMEEC)를 제안 합니다. MERC와 MECPE를 통합하기 위해 MERC와 MECPE를 두개의 mask prediction task로 재구성하고 modality-specific한 prompt를 기반으로 UniMEEC를 학습합니다. modality-specific prompt는 unimodality와 사전 학습된 모델 간의 상호 작용을 통해 slot의 표현을 encoding하는 것을 목표로 각 modality에 대한 prompt templet을 구성합니다.

또한, 논문의 저자가 말하길 기존의 MERC 및 MECPE가 주로 multidmoal fusion, modal alignment, external knowledge에 초점을 맞추고 있지만, 오랫동안 간과되어 온 사실이 바로 대화에서 발화 간 의존성과 문맥이라는 것이라고 언급하는데요. 이에 특정 task에 초점을 맞춘 context를 포착하기 위해 task별 계층적 context 집계 모듈을 제안합니다. 이 모듈은 3개 level의 graph attention network를 backbone으로 삼아 감정별, 원인별, 발화별 node 간의 정보 흐름을 제어하여 context information을 집계합니다.

본 논문의 contribution을 정리하면 아래와 같습니다.

We propose a Unified Multimodal Emotion recognition and Emotion Cause pair extraction framework (UniMEEC), which reformulates MERC and MECPE as two mask pre- diction problem to exploit the causality and complementarity between them
UniMEEC contains modality-specific (i.e., text, video and audio modalities) prompt learning (MPL) and task-specific context aggregation (THC), where MPL probes the modality- specific knowledge from pre-trained language model (PLM) and shares prompt learning among modalities, and THC orderly capture the contexts oriented to specific tasks.
SOTA..!!

<2. Methodology>

<2.1 Overall Architecture>

Figure 2를 통해서 UniMEEC가 modality-specific prompt learning (MPL), task-specific context aggregation (THC)로 구성되어 있는 것을 볼 수 있습니다. modality-specific prompt template는 modality information $[X]$, auxiliary prompt tokens $P_{(\cdot)}$, mask tokens $[M]_1, [M]_2$를 가집니다. $[X], [M]_1, [M]_2$의 text, audio, video modality에 대한 reperesentation을 바탕으로, 이를 concat한 다음 THC를 구성합니다. THC는 emotion-specific, cause-specific, utterance-specific representation을 node로 사용하고 context window 내에서 이들의 의존성을 모델링합니다. 이후에 각각 $[M]_1,[M]_2$의 representation을 바탕으로 emotion category와 대화에서 cause utterance의 위치를 예측합니다.

<2.2 Task Formalization>

여러 개의 발화로 구성된 multi-turn convetsation $U=\{ u_1, u_2, \cdot \cdot \cdot, u_{|U|} \}$이 주어진 경우, $U$는 $|U|$개의 utterance를 가집니다. 여기서 utterance $u_i = \{ I^t_i, I^a_i, I^v_i \}$는 3개의 modality로 구성되어 있습니다. video fragment $i$에서 추출한 uni-modal raw sequence를 나타내기 위해 $I^m_i, m \in \{t,a,v\}$를 사용하며 여기서 $\{t,a,v\}$는 text, acoustic, visual modality를 나타냅니다. MERC는 $u_i$의 emotion category를 예측하고, MECPE는 MERC 결과에 기반하여 non-neutral utterance $u_i$의 해당 원인 발화 index를 예측합니다. 즉 $\{1,2, …, |U|\}$를 말합니다. MERC와 MEPCE를 통합하기 위해서 논문의 저자는 MERC와 MECPE를 mask prediction 문제로 형식화하고, language model을 사용하여 비어 있는 slot을 확률적으로 채워 MERC 및 MECPE task의 prediction 결과를 얻습니다.

<2.3 Modality-specific Prompt Learning(MPL)>

Figure 2를 통해서 UniMEEC가 modality-specific prompt learning (MPL), task-specific context aggregation (THC)로 구성되어 있음을 이전에 말씀드렸습니다. 먼저, MPL에 대해서 설명드리고자 합니다.

modality-specific prompt는 modality-specific한 feature를 찾을 수 있도록 보장함과 동시에 prompt template에서 auxiliary prompt token을 공유하여 modality 간 및 task 간 semeantic한 상호작용을 가능하게 합니다.

<2.3.1 Modality-specific Prompt Construction>

논문의 저자가 직접 text-specific prompt template를 직접 설계하였으며, 이 template는 text input $[X]$, emotion category slot $[M]_1$, cause index slot $[M]_2$, auxiliary prompt 부분으로 구성됩니다. $[X]$는 prompt template를 얻기 위해서 원본 text sequence로 채워진 slot입니다. $[M]_1$는 utterance의 emotion category를 나타내는데, 예를 들어서 말하면 “happy”와 “sad”와 같습니다. $[M]_2$는 대화에서 cause utterance의 위치를 나타내며 “1”, “2”와 같습니다. 두 slot 모두 채워지지 않은 answer slot이며 UniMEEC에 의해서 예측됩니다. 예를 들어서, 텍스트 sequence $I_i^t$가 주어지면 text-specific prompt template는 “the emotion category of $I^t_i$ is $[M]_1$, and its corresponding cause utterance index is $[M]_2$” 와 같이 구성됩니다. 여기서 “the emotion cagetory of”, “is”, “and its corresponding cause utterance index is”는 auxiliary prompt 부분을 말합니다. audio-specific, vision-specific prompt의 경우, prompt의 $[X]$ 부분을 acoustic, visual representation으로 대체하여 각각 audio-specific, vision-specific prompt를 구성합니다.

$X_{i,m} \in R^{l_m \times{d_m}}$를 사용하여 $I^m_i$의 modality representation을 나타냅니다. 여기서 $m\in\{t,a,v\}$이고, $l_m, d_m$은 각각의 modality m의 sequence length와 representation dimension을 의미합니다. 여기서 더 구체적으로 말씀드리면, 모델의 word embedding layer를 사용하여 $X_{i,t}$를 얻습니다. 또한, audio를 한번이라도 다뤄봤다면 알 수 있는 librosa 라이브러리를 이용하여 Mel-spectrogram $X_{i,a}$를 추출하고, VGGface와 AFEW 데이터셋으로 사전학습된 effecientNet을 이용하여 $X_{i,v}$를 추출합니다.

<2.3.2 Modality-specific Prompt Encoder>

modality-specific prompt encoder로서 BERT와 같이 Transformer를 여러개 쌓아서 사용합니다. text-specific prompt encoder로 첫번째 $N_t$ Transformer layer를 사용하고 그 이후에 visual, acoustic prompt encoder로 $N_a, N_v$ Transformer를 사용합니다. 첫 번째로, text-specific prompt encoder에 text-specific prompt template를 입력하여 text modality, auxilary prompt part, $[M]_1, [M]2$의 representation을 얻습니다. 이때 slot은 ground answer를 이용해서 지도학습을 합니다. 다음으로, $h{p_{1,l_1}}, X_{i,t}, h_{P_{1_2,l_3}},h_{[M]_1},h_{P_{l_4,l_5}}, h_{[M]_2}$의 hidden state를 포함하는 text-specific prompt sequence를 얻습니다. 여기서 $h(\cdot)$은 token 혹은 token sequence의 representation을 나타내고, $h_{P_{1,l_1}}, h_{P_{l_2,l_3}},h_{P_{l_4,l_5}}$ 는 auxiliary prompt part의 representation을 나타냅니다.

audio와 visual modality를 align하기 위해서, acoustic representation $X_{i,a}$와 visual representation $X_{i,v}$를 Bi-LSTM에 입력합니다. audio와 visual modality의 sequence 길이가 text modality의 dimension과 sequence 길이보다 작기 때문에, audio, vision feature를 0으로 패딩하여 text modality representation과 길이가 일치하도록 합니다. 이렇게 align 및 padding 이후에는 audio representation을 $\hat{X}_{i,a}$, visual representation을 $\hat{X}_{i,v}$로 부릅니다. prompt representation의 $[X]$ 부분을 $\hat{X}_{i,a}, \hat{X}_{i,v}$로 바꾸고, 이를 각각 $N_a, N_v$ Transformer layer에 입력합니다. 그래서 정리하면 (n-1)번째 Transformer layer에서 modality-specific prompt learning은 다음과 같이 주어집니다.

여기서 $P^{n-1}_{i,m}$은 modality $m$이 주어진 상황에서 utterance $u_i$의 prompt representation을 의미합니다. $P^{n-1}_{i,m}$은 $[X], [M]_1, [M]2$의 hidden state와 auxiliary prompt string으로 구성되어 있습니다. $X^0{i,t}=X_{i,t}, X^0_{i,a}=\hat{X}_{i,a}, X^0_{i,v}=\hat{X}_{i,v}$를 의미합니다, 여기서 $[\cdot, \cdot]$은 concat 연산을 의미합니다.

modality-specific prompt encoder 이후에 각각 concat을 통해 mask tokens $[M]_1, [M]2$의 modal fusion representation을 얻습니다. 비슷하게 $X^{N_t}{i,t}, X^{N_a}_{i,a}, X^{N_v}_{i,v}$를 concat하여 $u_i$의 fusion representation을 얻습니다.

여기서 $X^{N_t}_{i,t}, X^{N_a}_{i,a}, X^{N_v}_{i,v}$는 $N_t, N_a, N_v$ Transformer layer에 의해 encoding된 $u_i$의 text, audio, video representation 입니다.

<2.4 Task-specific Hierarchical Context(THC)>

$[M]1$ 즉, $h^f{[M]_1}$과 $[M]_2$ 즉, $h^f_{[M]_2}$의 representation은 대화에서 context information을 포착하지 못합니다. 이를 해결하고자 논문의 저자는 hierarchical context aggregation structure를 구축하고자 하였습니다. 이를 통해 대화에서 context 집합의 방향을 조절할 수 있도록 합니다. 게다가, 각 utterance에 대해서 context window를 설정하여 representation learning에서 noise한 정보를 포함시키지 않도록 하였습니다. 여기서 context window에 대해서 조금 더 설명드리자면, 특정 발화나 문장과 관련된 주변 정보를 포착하기 위해 설정된 범위를 말하는데, 한 utterance를 이해하기 위해서 얼마큼의 이전 혹은 이후의 발화나 단어를 볼 것인가를 결정하는 것이라 보시면 되겠습니다.

<2.4.1 Hierarchical Graph Construction>

논문의 저자는 3-level의 graph attention network를 context의 encoder로 설계하였습니다. 여기서 3-level은 top, middle, bottom level로 구성되어 있습니다. 각 level은 utterance의 local context에 집중하기 위한 context window가 있습니다. 형식적으로 표현하면, 먼저, graph $G=(V,E)$를 정의합니다. 여기서 $V$와 $E$는 node와 edge set을 나타냅니다. bottom node로서 utterance level representation $h_u$를, middel node로서 token representation $h^f_{[M]_2}$를, top node로서 emotion-specific token representation $h^f_{[M]_1}$를 취합니다. graph에서 같은 level의 node 간에 대해서는, 같은 level의 context window 내에서 인접한 node들 사이에 비방향 edge를 설정합니다. 다른 level의 node r간에 대해서는 top node와 middle node 간에 비방향 edge를 설정합니다. 또한, context window 내에서 bottom에서 middle note로 향하는 방향 edge를 설정하여 node간 정보 흐름의 방향을 제어하는 것을 목표로 합니다.

여기서 graph $G$는 여러개의 다양한 type의 node representation을 가지는 것을 고려하여, 논문에서는 서로 다른 node간의 의존 관계를 모델링하기 위해 각각 다섯 가지 edge type을 설정하였습니다. 앞의 세 개의 edge는 solot node to slot node로 구성됩니다. 즉, $h_{[M]_1} \leftrightarrow h_{[M]_1}, h_{[M]_1} \leftrightarrow h_{[M]_2},h_{[M]_2} \leftrightarrow h_{[M]_2}$로, 각각 $t_{ee}, t_{ec}, t_{cc}$로 나타냅니다. 4번째 edge type은 utterance node to solot node로, 즉, $h_u \leftrightarrow h_{[M]_2}$로 $t_{uc}$로 나타냅니다. 마지막 edge type은 utterance node to utterance node로, 즉, $h_u \leftrightarrow h_u$로, $t_{uu}$로 나타냅니다. edge type의 첨자 “e”와 “c”는 각각 $[M]_1, [M]2$를 나타내고, “u”는 utterance를 나타냅니다. 하나의 edge type $t \in \{ t{ee}, t_{ec}, t_{cc}, t_{uc}, t_{uu} \}$의 경우 인접 행렬은 다음과 같습니다.

여기서 $a^t_{i,j} \in A, A \in R^{V*{V}}$이며, $V$는 대화에서 utterance의 수를 나타냅니다. 또한, $|w|$는 context window의 size를 나타내고, $i, j$는 대화에서 utterance의 index를 나타내며 동일하거나 인접한 THC의 level에 위치합니다.

<2.4.2 Task-specific Context Aggregation>

각 level의 각 node에 대해 context window를 설정하여 모델이 해당 contect window가 있는 node representation만 집계하도록 합니다. 이를 통해서 computation cost를 줄이고 representation learning에 nosie가 들어오는 것을 막습니다. utterance $u_i$가 주어졌을 때, emotion과 emotion cause의 prediction slot은 각각 $[M]_{i,1}, [M]_{i,2}$ 입니다. graph에서 bottom부터 top level까지 representation을 집계하는데, bottom node의 representation은 top 또는 middle note의 representation을 집계하여 업데이트되지 않습니다. 즉, bottom node $u_i$의 경우, 해당 representation은 context window에서 bottom node에 의해서 집계됩니다.

여기서 $\mathcal{N}_{u_i}$는 utterance $u_i$의 이웃 node들을 말하고, $h^0_{u_j} = h^f_{u_j}$를 의미합니다. 모델이 middle node $[M]_{i,2}$에 도달하면, context window에서 top node와 middle node에 의해서 representation이 다음과 같이 집계됩니다.

여기서 $\{ \mathcal{N}_{[M]_{i,1}}, \mathcal{N}_{[M]_{i,2}} \}$은 tokens $[M]_1, [M]2$의 이웃 node들을 말하고, $h^0{[M]_{j,1}} = h^f_{[M]_{j,1}}, h^0_{[M]_{j,2}} = h^f_{[M]_{j,2}}$를 말합니다. 모델이 top node $[M]_{i,1}$에 도달하면, context window에서 top node와 middle node에 의해서 representation이 다음과 같이 집계됩니다.

본 논문에서는 task-specific context aggregation module을 N개 쌓은 다음, 각각 slot $[M]_{i,1}, [M]_{i,2}$의 최종 representation으로 $h^N_{[M]_{i,1}}, h^N_{[M]_{i,2}}$를 사용했습니다.

<2.5 Grounding Mask Prediction to MERC and MECPE>

$h^N_{[M]_{i,1}}$를 사용하여 slot $[M]1$에 대한 answer을 예측하고, $h^N{[M]_{i,2}}$를 사용하여 slot $[M]_2$에 대한 answer를 답변합니다. $[M]_1$의 예측값(즉, $\hat{y}_i^e$), $[M]_2$의 예측값(즉, $\hat{y_i^c}$)은 다음과 같이 주어집니다.

여기서 $\{\hat{y}^e_i, \hat{y}^c_i\}$는 MERC, MECPE task의 예측 결과를 나타냅니다. 각 결과를 기반으로, UniMEEC의 objective loss로서 MERC와 MECPE의 cross-entropy loss의 sum을 사용합니다.

<3. Experiments>

<3.1 Datasets>

먼저, MERC 데이터셋의 경우 감정인식 논문을 한번이라도 읽은 사람이면 알 법한 IEMOCAP, MELD를 사용하였습니다.

IEMOCAP은 구축된지 조금 오래된 데이터셋으로 연기자의 즉흥 연기를 통해서 구성된 데이터셋 입니다. 여러개의 감정 라벨로 라벨링 되어있습니다.
MELD는 유명한 드라마 Friends를 기반으로 가공하여 만들어진 데이터셋입니다. 마찬가지로 여러개의 감정 라벨로 라벨링 되어있습니다.

MECPE task의 경우, 저도 처음보는 benchmark를 사용하기 때문에 MERC 보다는 더 디테일하게 설명해보고자 합니다. 본 논문에서 사용한 MECPE 데이터셋은 ConvECPE와 emotion -cause-in-friends (ECF) 입니다.

ConvECPE는 IEMOCAP을 기반으로 구축된 데이터셋으로 모든 비중립 발화(즉, neutral 감정이 아닌 감정으로 라벨링된 발화)에 대해서 감정 원인이 라벨링 되었습니다. 총 151개의 대화를 가지고, 7,4333개의 발화가 라벨링 되었다고 합니다.
ECF 또한 ConvECPE와 비슷하게 라벨링 되었는데 MELD를 기반으로 구축된 데이터셋으로 모든 비중립 발화에 대해서 감정 원인이 라벨링 되었습니다.

디테일한 데이터셋의 통계는 Table 1을 통해서 볼 수 있으며, 이전 연구에 따라 MERC task인 IEMOCAP과 MELD는 accuracy (ACC), weighted F1 (WF1)으로 evaluation metric을 사용하며, MECPE task인 ECF와 ConvECPE는 precision(P), recall(R), F1을 evlaution metric으로 사용하였다고 합니다.

<3.2 Results of Emotion Recognition>

Table 2를 통해서 EMRC task인 IEMOCAP, MELD에서의 성능을 확인해볼 수 있습니다. 저자게 제안한 UniMEEC는 IEMOCAP과 MELD 데이터셋 모두 높은 성능을 달성한 것을 볼 수 있습니다. 최근에 논문을 쓰면서 성능 올리는 것이 얼마나 어려운지에 대해서 알기 때문에 이렇게 IEMOCAP, MELD 모두에서 성능을 올리는 것이 너무나도 대단합니다.

초기 방법론인 BC-LSTM이나 DiagogueRNN과 같은 초기 방법론들은 잘 작동하지 않는 것을 보이고, 최근 방법론인 MMGCN과 GA2MF는 IEMOCAP 데이터셋에서는 happy label을, MELD 데이터셋에서는 Disgust label을 인식하는데 낮은 성능을 보였는데, 논문의 저자는 이러한 이유가 emotion category의 불균형으로 인해 성능 저하가 발생하였다고 추측하였습니다.

UniMEEC는 IEMOCAP에서 1.99%, MELD에서 1.85%의 개선된 WF1을 기록하였습니다. 이러한 개선은 MERC와 MEPE의 통합된 framework가 더 많은 보조 정보를 제공하고, 감정과 감정 원인 간의 상호작용을 강화했기 때문이라 보고 있습니다.

<3.3. Results of Emotion-Cause Pair Extraction>

Emotion-cause pair extraction은 크게 cause recognition과 pair extraction 이렇게 두개로 나눠집니다. cause recognition(원인 인식)은 원인 발화를 예측하는 과정이고, pair extraction은 감정 발화와 원인 발화를 연결하는 과정을 말합니다. Table 3와 Table 4에서 제안된 UniMEEC의 성능을 확인할 수 있습니다. 이전 SOTA 모델들에 비해서 확연히 성능이 오른 것을 확인할 수 있는데, 이는 통합된 framework가 emotion-cause pair extraction에서 효과적임을 보여주고, MERC와 MECPE task가 공동으로 학습하는 것이 가능하다는 것을 보여줍니다.

<3.4 Ablation Study>

Table 5를 통해서 각 요소를 제거했을 때 성능이 얼마나 하락하는지를 통해서 해당 요소가 효과적임을 볼 수 있습니다. 중요하게 봐야할 부분은 w/o MECPE, w/o MPL, w/o THC라고 생각이 드는데요. 그 중에 놀라운 점은 MECPE와 공동으로 학습하지 않았을 때 IEMOCAP 데이터셋에서의 성능이 5% 이상 하락한다는 것입니다. 논문에서는 w/o MECPE 했을 때 성능이 이렇게나 많이 하락하는 것에 대해서 따로 언급하는 것이 아쉽지만, 그만큼 UniMEEC라는 제안된 모델이 두 task가 함께 학습될 수 있고 두 task를 합침으로써 서로 상호보완적인 역할을 하여 성능 향상을 보였다고 충분히 말할 수 있을 것 같습니다.

이번에는 UniMEEC라는 emotion이라는 큰 카테고리에서 따로 분리된 것처럼 보이는 두 task를 합쳐 감정 인식을 더욱 잘할 수 있는 모델을 리뷰해봤습니다. 읽으면서 들은 생각이 모델의 구조 보다는 어떻게 데이터를 잘 넣을 것인지(prompt를 어떻게 구성할 것인지), 그리고 이 정보들을 어떻게 합쳐서 서로 상호보완적으로 잘 작동시킬 것인지가 중요한 포인트가 아니었나 싶습니다. ablation study가 조금 아쉽지만 두 task에서 모두 SOTA를 달성함으로써 모델이 좋음을 잘 어필하지 않았나 생각합니다. 그럼 리뷰 마무리하겠습니다!

6 thoughts on “[arXiv 2024] UniMEEC: Towards Unified Multimodal Emotion Recognition and Emotion Cause”

천 혜원 says:

08/25/2024 at 23:03

안녕하세요 김주연 연구원님. 좋은 리뷰 감사합니다.

MECPE의 cause-pair extraction의 metric이 precision, recall, f1이라고 설명해 주셨는데요, 그렇다면 MECPE에서 emotion label의 cause는 어떤 식으로 구성되어있는 지 궁금합니다. 이전에 리뷰해 주신 EMER은 emotion의 원인에 대한 discription으로 구성된 듯 하였는데, 논문을 읽다보니 detection 관점의 metric이라면 conversation을 구성하는 utterance 중 감정의 직접적 원인이 되는 문장을 cause라고 mapping하는 것으로 이해하였는데 맞을까요?

1. 김 주연 says:
  
  08/25/2024 at 23:08
  
  안녕하세요. 댓글 감사합니다.
  
  MECPE에서 감정 원인이 어떻게 labeling이 되어있는지 궁금하신 듯 합니다. (제가 질문을 잘못 이해했다면 말씀주시면 감사하겠습니다.) cause의 경우 발화의 index로 이 부분이 감정의 원인이 되는 부분이다를 말해줍니다. (또한, 저번에 리뷰한 description으로 구성된 데이터셋은 MMER이 아니라 EMER(Explainable multimodal emotion recognition 입니다)
  
  감사합니다.
  
정 의철 says:

08/26/2024 at 11:01

안녕하세요 주연님 좋은 리뷰 감사합니다
논문에서 제안된 3-level Hierarchical Graph Construction 방식에서 질문이 있는데 본 방식은 다양한 edge 타입과 노드들 간의 의존 관계를 모델링해서 자칫하면 데이터에 과적합 될 가능성이 높아보이는데 학습 데이터는 이런 관계를 학습하기에 충분한 데이터인가요??

1. 김 주연 says:
  
  08/26/2024 at 11:41
  
  안녕하세요. 댓글 감사합니다.
  
  질문 의도를 제가 제대로 이해한 것인지는 잘 모르겠으나, 사실 IEMOCAP의 경우, 그렇게까지 큰 데이터셋은 아닙니다. 하지만 3-level hierarchical graph construction 방식은 utterance에서 emotion과 cause를 모두 모델링하기 위해서 사용된 것이기 때문에 작은 데이터셋으로 인한 과적합과는 별개로 보시는 것이 좋을 것 같습니다.
  
  감사합니다.
  
정 윤서 says:

09/02/2024 at 04:39

안녕하세요. 좋은 리뷰 감사합니다. cause index slot [M2]는 cause utterance의 위치를 나타낸다고 했는데,, 예시로 들어주신 1, 2가 cause utternace의 위치인가요 ? 또 graph를 construction하는 과정에서 bottom node, middle node, top node를 각각 utterance level representation, token representation, emotion-specific token representation으로 취한 이유가 있나요 ?

감사합니다 !

1. 김 주연 says:
  
  09/08/2024 at 23:00
  
  안녕하세요. 댓글 감사합니다.
  
  1. 네, 맞습니다.
  
  2. 논문의 저자가 정확하게 이 순서로 가져가는 이유를 딱 잘라 이야기 한 것은 아니지만, 가장 큰 덩어리 순서에서 작은 덩어리로 쪼개질 수 있는 것으로 내려오면서 node를 구성한 것은 아닌가 싶습니다. 예를 들어서 utterance는 token representation, emotion에 비해서 매우 긴 덩어리이기 때문에 bottom node로 배정된 것이라 생각합니다.
  
  감사합니다.