[ICASSP 2024] Improving Multi-Modal Emotion Recognition Using Entropy-Based Fusion and Pruning-Based Network Architecture Optimization

안녕하세요. 이번 논문도 감정인식 논문인데 제가 읽어왔던 논문과는 조금 다른 결을 가집니다. Entropy-based Fusion이라는 것이 흥미를 끌어 읽게 되었습니다. Pruning도 사용하니 최적화 관련하여 관심이 있으신 분들이 흥미롭게 읽으실 수 있을 것 같습니다. 그럼 리뷰 시작하겠습니다.

또한, 본 논문은 MER 2023 (멀티모달 감정인식 챌리지)의 후속 논문 느낌으로 논문을 작성하여서 MER 2023 챌린지에 대해서 많이 언급 됩니다. 혹시 궁금하신 분은 http://merchallenge.cn/ 여기를 참고해주시면 좋을 것 같습니다.

<Introduction>

최근 연구는 wav2vec2.0과 같이 사전 학습된 feature에서 영감을 받아 연구가 되고 있고, 연구진들은 이러한 deep feature가 low-resource multi-modal data condition에서 robust representation을 capture한다는 사실을 발견하였는데요. 이를 바탕으로 사전 학습된 모델의 여러 layer에서 나온 deep feature의 성능 차이를 연구하여 hierachical information fusion apporach가 제안되었습니다. 그런데 현재 decision-level fusion은 주로 통계적 가중치를 사용하여 서로 다른 시스템의 decision에 가중치를 부여하는데 중점을 두고 있으며, sample의 변화를 상대적으로 무시하여 모호한 특정 sample을 처리하는 model의 ability를 제한하고 있습니다.

또한, purning은 network에서 중복성을 제거하는 방법으로, 구조화된 pruning과 구조화되지 않은 pruning으로 나눌 수 있습니다. 최근 purning 연구로는 channel-level pruning과 learning-rate rewinding을 통합한 CRLR이 제안되어서 multi-modal system에서 좋은 성능을 얻었다고 합니다. 그런데 최근의 purning에 대한 대부분의 연구는 주로 더 높은 compression ratio를 얻는 방법에 초점을 맞춰 연구되고 있으며, 구조화된 purning을 통해 network 구조를 최적화하고 성능을 향상시키는 방법으로는 거의 연구되지 않고 있다고 합니다.

본 논문에서는 MER 2023이라고 불리는 멀티모달 감정인식 챌린지를 위한 최근의 MER system을 효율성과 성능 면에서 개선하고자 합니다. 먼저 사전 학습된 모델에서 다양한 level의 acoustic feature를 추출하고 이를 visual feature와 개별적으로 합칩니다. 그런 다음 서로 다른 fusion된 feature에서 도출된 multi label prediction을 합쳐 confusion issues에 대해 보다 신뢰할 수 있는 결정을 내릴 수 있는 entropy 기반 fusion method를 제안합니다. 여기에 추가로 low-resource multimodal data condition에서 네트워크 중복성을 줄이고 모델 일반화를 개선하기 위해 구조적 purning을 기반으로 network를 점진적으로 최적화하는 방식을 제안합니다.

<Method>

방법론 파트에서는 entropy-based decision fusion을 먼저 설명한 뒤에 network architecture optimization에 대해서 설명드리고자 합니다. 그 전에 먼저 Figure1을 통해서 두 방법이 어떻게 동작하는지 확인할 수 있습니다.

<Entropy-based Decision Fusion>

본 논문에서 제안한 architecture에서는 먼저 원래의 feature space에서 사전 학습된 모델을 통해 robust utterance-level acoustic과 visual representation을 추출합니다. 특히 최근 연구에 따라서 low-level, mid-level, high-level acoustic representation은 사전학습 모델로 많이 쓰이는 HuBERT-large에서 추출하였습니다. visual 부분은 사전 학습된 MANet과 ResNet을 사용하였다고 합니다.

그런 다음 Figure 1과 같이 세 가지 다른 acoustic representation을 AFG(Attention-based Feature Enocde and Decode)에서 개별적으로 visual representation과 통합하여 서로 다른 level의 acoustic-visual fusion representation을 얻습니다. 이후, joint decoder에서 서로 다른 fusion representation으로 emotion과 valance의 multi-label을 예측하는데 다음과 같이 공식화하여 표현할 수 있습니다.

여기서 $\hat{e}_i \in \mathbb{R}^C$(총 C개 emotion category를 가집니다) 및 $\hat{v}_i \in \mathbb{R}$은 single fusion representation $\hat{h}_i \in \mathbb{R}^D$를 기반으로 한 emotion, valance의 예측값 입니다. W,b는 학습 가능한 parameter로, fusion state $\hat{h}_i$와 emotion hidden state $\hat{e}_i$에 추정된 valance possibilities는 다음과 같이 계산됩니다.

실제로, 다양한 level의 fusion representation에는 다양한 acoustic information이 포함되어 있다고 하는데요. 따라서 서로 다른 level의 fusion된 feature를 활용하는 emotion classifier마다 판단에 대한 신뢰도 수준이 달라질 수 있습니다. 일부 분류기는 높은 신뢰도의 예측을 제공하는 반면, 다른 분류기를 사용하는 acoustic information을 기반으로 유사한 감정을 효과적으로 구별하지 못해 낮은 신뢰도로 판단할 수도 있습니다. 이 때문에 보다 신뢰도 높은 판단을 얻기 위해서 본 논문에서는 Figure 1과 같이 서로 다른 감정 분류기의 예측을 기반으로 joint prediction을 얻는 신뢰도 중심 접근 방식을 제안했습니다. emotion label에 대한 posterior probability prediction의 information entropy를 기반으로 서로 다른 예측의 신뢰도 점수를 계산하는데, 그 원리는 다음과 같습니다.

여기서 $H_i$는 가 emotion prediction의 information entropy이고 $w_i$는 entropy를 기준으로 한 confidience-level score 입니다. entropy가 높을 수록 confidence-level score가 낮아지게 됩니다. M은 prediction의 양을 나타냅니다. (본 방법론에서는 M=3입니다) 그런 다음 다음과 같이 confidnece-level score에 따라 emotion과 valance prediction의 posterior probability에 가중치를 부여하여 joint decision을 할 수 있도록 합니다.

$\hat{e} \in \mathbb{R}^C, \hat{v} \in \mathbb{R}$은 emotion과 valance의 joint prediction을 의미합니다. fusion할 때 더 확실한 예측에 대해서 더 높은 가중치를 부여하도록 설계되었습니다.

<Pruning-based Network Architecture Optimization (PNAO)>

논문의 저자는 처음에 설계된 multimodal emotion recognition system의 redundancy는 성능 저하로 이어질 수 있다는 것을 바탕으로 low-resource multimodal data 조건에서 network redundancy를 줄이고 모델 일반화를 개선하기 위해 세분화된 network 구조를 점진적으로 최적화하는 새로운 방식을 제안하였습니다. 이에 대해서 더 디테일하게 확인하고 싶다면 Algorithm 1을 확인하면 됩니다.

찬찬히 설명해보겠습니다. 먼저, sparse-training을 통해 초기 network를 early-stop point까지 학습합니다. 학습 중에는 $L_e$로 표시되는 emotion classification loss로 cross-entropy (CE) loss를 사용하고, valance prediction에는 $L_v$로 표시되는 mean squared error (MSE) loss를 사용합니다. 또한 multi-task learning process에서 더 나은 성능을 위해 $L_e, L_v$에 uncertainty loss weighting을 사용하였고 이를 AWL로 표기하였습니다. 특정 round의 총 loss function은 다음과 같습니다.

loss function에 p-norm에 기반한 sparse term(여기서 p=1)이 추가되었고, 논문 저자는 sparse training은 dynamic pruning network에 효과적인 것으로 입증되었다고 합니다. 이에 학습 과정에서 중요하지 않은 가중치는 점점 작아지고 덜 중요한 node는 점점 더 변별력을 갖게 됩니다.

그런 다음 network architecture를 기반으로 mask를 학습하고, 다음과 같이 parameter matrics의 column dimension에 대한 L1 norm을 node importance를 나타내는 요소로 사용합니다.

여기서 l은 현재 layer의 index를 나타내고 j와 r은 l번째 layer에 있는 node와 column의 index를 나타냅니다. γ는 전체 node의 importance matrix를 나타냅니다. global mask matrix m은 network architecture optimization rate (NAOR) k와 importance matrix γ를 기반으로 생성되며 다음과 같이 계산됩니다.

$U()$는 unit step function을 의미합니다. 다음으로 mask m을 matrices에 적용하고 가중치가 0인 node를 제거합니다. 그런 다음 learning-rate rewinding strategy를 사용하여 보다 간결한 network를 fine-tuning합니다. 최적의 network를 찾을 때까지 다음 단께를 여러번 반복합니다. 작은 NAOR를 사용하면 중요한 node는 유지하면서 일부 중복된 note를 제거할 수 있습니다.

<Experiments>

본 논문에서는 MER 2023 데이터셋을 사용하여 실험을 수행하였는데요. 간단히 설명드리면, 이 데이터셋에서 학습 데이터셋으로 사용되는 3373개의 label이 지정된 single-speaker video segment가 사용되었습니다. MER-MULTI sub-challenge에서 사용된 테스트 셋으로는 411, 412개의 labeling되지 않은 video segment가 주어졌습니다. emotion classification (Dis)와 valance regression (Dim)의 combined metric (Com)을 이용하여 전반적인 성능을 측정합니다.

hierarchical information fusion system에서 제안된 entropy-based fusion strategy의 효과를 평가하기 위해서 개선된 MER system의 6-class emotion classification confusion matrix와 MER-MULTI에서 3위를 차지한 이전 MER system의 우수한 성능의 attention-based fusion strategy를 plot 해 봤습니다. Figure 2를 통해서 이를 확인할 수 있는데, 결과는 entropy-based fusion이 이전의 attention based fusion보다 더 나은 성능을 보이는 것을 확인할 수 있고 감정 간의 confusion을 낮추는 것을 확인할 수 있습니다.

이후에는 PANO의 효과를 확인해보고자 하였습니다. Figure 3에서 볼 수 잇듯이, 파라미터가 감소하면서 처음 몇 round의 PANO에서 지속적인 성능 향상이 이루어졌음을 알 수 있습니다. 이러한 부분을 통해 원래 network의 redundant connection이 system 성능의 한계였고, PANO가 이러한 connection을 단계적으로 제거함으로써 network 구조를 성공적으로 최적화하고 모델 일반화를 개선했음을 시사합니다.

마지막으로 본 논문에서 제안한 방법론을 MER-MULTI 리더보드의 모델들과 비교해보고자 합니다. Table 1을 통해서 이를 확인할 수 있습니다. Table 1을 통해서 MER-MULTI의 상위 3개 fusion system인 sense-dl-lab, ALPL-SEU, USTC-qw를 확인할 수 있습니다. 본 논문에서 제안된 eontropy-based fusion과 PANO 방법을 융합함으로써 성능이 오른 것을 확인할 수 있고, 마지막으로 선형 가중치를 사용하여 PANO로 최적화된 단일 system의 decision을 결합하여 Ours(Final)이 가장 높은 성능을 달성한 것을 확인할 수 있습니다.


이렇게 리뷰를 마쳐봅니다. 각 layer의 feature마다 도움이 되는 정도가 다르기 때문에 entropy를 기반으로 fusion해야한다는 생각이 이전에는 보지 못했던 방식이라 흥미로웠던 것 같습니다. 이런 방법을 사용하는 다른 논문은 없는지 궁금하네요. 지금까지 읽어주셔서 감사합니다.

Author: 김 주연

2 thoughts on “[ICASSP 2024] Improving Multi-Modal Emotion Recognition Using Entropy-Based Fusion and Pruning-Based Network Architecture Optimization

  1. 안녕하세요, 김주연 연구원님. 좋은 리뷰 감사합니다.

    MER challenge는 처음 들어보았는데 앞으로 많은 도움이 될 것 같습니다.

    결국 이 논문은 성능 향상을 위해 사전학습 speech 모델에서 서로 다른 level의 feature를 추출하여 visual feature와 entropy 기반 fusion을 수행하고, 실행 효율성을 위해 pruning 기법을 적용한 것으로 이해하였습니다.

    feature extraction 부분에서 질문이 있습니다. speech feature의 경우 speech encoder인 hubert의 서로 다른 세 transformer 계층에서 추출한 것으로 이해하였고, visual feature의 경우 서로 다른 두 encoder를 각각 사용하여 독립된 feature 두 개를 추출한 것으로 이해하였습니다. 이때 visual feature는 서로 다른 level에 대한 feature를 사용하지 않은 이유가 있을까요?

    1. 안녕하세요. 댓글 감사합니다.

      우선 가장 큰 이유는 wav2vec2의 후속 연구에서 서로 다른 level의 feature를 사용하는 것과 관련한 연구가 존재하여 이를 바탕으로 연구를 진행했기 때문이라 말할 수 있습니다. 그 다음으로 개인적인 생각으로는 이렇게 진행했을 경우 fusion 관련하여 많은 경우의 수가 생겨 다루기 힘들어 그런걸 수도 있을 것이라 생각이 듭니다.

      감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다