안녕하세요. 이번 논문도 emotion recognition 논문입니다. 이 논문은 2021년 논문으로 완전 최신 논문은 아닌데요. 그런데 제목을 보자마자 ‘아 이거는 감정인식 3차년도 베이스라인이 될 수 있겠군!’이라는 생각이 스쳐 지나갔기 때문에 리뷰 할 수 밖에 없었습니다. 이 논문이 uncertain missing modality에 대해서 감정 인식을 진행한 최초의 논문이라고 합니다. 그럼 리뷰 시작하겠습니다.
<method>
<problem statement>
- S : a set of video segments
- s : video segment
- x = (x^a, x^v, x^t) : raw multimodal features for a video segment s \in S
- x^a, x^v, x^t : raw features acoustic, visual, textual modalities
- |S| : set S에 있는 video segment의 수
- Y = {y_i}^{|S|}_{i=1}, y_i \in {0, 1, ..., C} : target set
- y_i : video segment s_i의 target emotion category
- |C| : emotion categories의 수
<Missing Modality Imagination Network>
강인한 joint multimodal representaion을 학습하기 위해서 Missing Modality Imagination Network (MMIN)을 제안하였습니다. MMIN은 실제 application 시나리오에서 다른 uncertain missing-modality condition을 다룰 수 있습니다.
[그림 1]을 통해서 MMIN 모델의 framework를 확인할 수 있습니다. 3개의 main module로 구성되어 있는데 이는 아래와 같습니다.
- Modality Encoder Network
- Imagination Module
- Emotion classifier
1번 Modality Encoder Network는 modality-specific embedding을 추출합니다. 2번 Imagination Module은 Cascade Residual Autoencoder (CRA)와 Cycle Consistency Learning을 기반으로 합니다. 이를 통해서 available 해당 modality의 representation이 주어지면 missing modality의 representation을 imagining 합니다. 3번 emotion classifier는 joint multimodal representation을 기반으로 emotion category를 예측합니다.
<1. Modality Encoder Network>
Modality Encoder Network는 raw feature를 기반한 modality 특정한 utterance level embedding을 추출합니다.
[그림 2]에서 구조를 더 자세히 확인할 수 있습니다. 먼저 multimodal emotion recognition model에서 Modality Encoder Network를 사전 학습 합니다. 사전 학습 한 후에 MMIN 모델 내에서 추가 학습을 진행합니다.
각 modality의 modality-specific embedding은 아래와 같이 정의하였습니다.
- h^a = EncA(x^a)
- h^v = EncV(x^v)
- h^t = EncT(x^t)
- EncA, EncV, EncT는 acoustic, visual, textual encoder를 의미합니다.
- h^a, h^v, h^t는 modality-specific embedding을 의미합니다.
<2. Missing Modality Condition Creation>
모든 모달리티 (x^a, x^v, x^t)가 training sample로 주어졌을 때 누락될 수 있는 상황은 6가지로 표현할 수 있습니다. 논문의 저자는 이를 cross-modality pair (available, missing)으로 표현하였습니다. 위의 표를 통해서 확인할 수 있습니다. available은 available modality를 의미하고, missing은 누락된 modality를 의미합니다.
다양한 누락 modality 조건을 처리할 수 있는 unified model을 보장하기 위해서 (x^a, x^v, x^t)로 modality encoder network에 unified triplet input format을 사용합니다. 누락 modality 조건이 적용된 상태에서 해당 누락 modality의 raw feature는 zero vector로 들어갑니다.
예를 들어서, 위의 그림의 1번 case라고 에시를 들자면 (x^a, x^v_{miss}, x^t)에서 x^v_{miss}는 zero vector로 표현 됩니다.
missing-modality training conditions에서는 입력으로 unified triplet format에서 available modality와 missing modality를 참조하는 cross-modality pair가 포함됩니다. corss-modality pairs의 multimodal embedding은 아래와 같이 표현됩니다.
- h = concat(h^a, h^v_{miss}, h^t)
- \hat{h} = concat(h^a_{miss}, h^v, h^t_{miss})
- 앞으로 위의 2개의 식은 [식 (1)]으로 불립니다.
modality가 누락된 경우, 입력 벡터가 0인 modality에 대응하는 modality encoder에 의해서 embedding이 생성됩니다. h^a_{miss}, h^v_{miss}, h^t_{miss}는 입력 벡터가 0인 modality에 대응하는 modality encoder에 의해서 생성된 embedding이라고 생각하시면 됩니다.
<3. Imagination Module>
논문의 저자는 available modality의 multimodal embedding이 주어졌을 때 missing modality의 embedding을 예측하기 위해서 autoencoder 기반 Imagination module을 제안했습니다. Imagination Module은 cross-modality imagination을 통해서 강인한 joint multimodal reprentation을 예측합니다.
위의 그림을 통해 Imagination Module이 전체적으로 어떻게 구성되어 있는지 파악할 수 있습니다. Imagination Module에는 standard autoencoder보다 충분한 학습 용량과 안정적인 convergence를 제공하는 CRA 구조를 적용했습니다. CRA 구조는 일련의 Residual Autoencoders (RAs)를 연결하여 구성됩니다. 또한 논문의 저자는 cycle consistency learning을 적용하였는데요. cycle consistency learning은 두개의 독립적인 네트워크가 있는 결합된 네트워크 아키텍쳐를 적용하여 Forward (available -> missing) 및 Backward (missing -> available)을 포함한 두 방향으로 imagination을 수행합니다. 구체적으로 말하자면, B개의 RAs로 구성된 CRA model을 사용합니다. 각 RA는 \phi_k로 표현될 수 있습니다. 이때, k는 1, 2, ... , B이고, RA 계산은 아래의 [식 2]와 같이 계산됩니다.
여기서 h는 추출된 multimodal embedding을 의미합니다. 그리고 \Delta{z_k}는 k번째 RA의 output을 의미합니다.
visual modality의 missing을 예를 들면, forward imagination은 available acoustic, text modality를 기반으로 missing visual modality의 multimodal embedding을 예측하는 것을 목표로 합니다. forward imagined multimodal embedding은 [식 3]과 같이 표현될 수 있습니다.
imagination()은 Imagination Module을 나타냅니다. backward imagination은 forward imagined multimodal embedding h\prim을 기반으로 available modality의 multimodal embedding을 예측하도록 목표합니다. backward imagined multimodal embedding은 [식 (4)]로 표현될 수 있습니다.
<4. Classifier>
forward imagination module에서 각 autoencoder의 latent vector를 모으고 joint multimodal representation을 만들기 위해서 concat 합니다. 이를 R = concat(c_1, c_2, ..., c_B)로 표현할 수 있습니다. 여기서 c_k은 k번째 RA의 autoencoder의 latent vector를 의미합니다. joint multimodal representation R을 기반으로하여 확률분포 q를 계산할 수 있습니다. [식 5]를 통해 확인할 수 있습니다.
f_{cls}()는 여러 fc layer로 구성된 emotion classifier입니다.
<Joint Optimization>
MMIN training의 loss function은 3가지 파트로 구성되어 있습니다.
- emotion recognition loss \mathcal{L}_{cls}
- forward imagination loss \mathcal{L}_{forward}
- backward imagination loss \mathcal{L}_{backward}
p는 one-hot label의 true distribution이고 q는 [식 5]로 계산된 prediction distribution을 의미합니다. H(p, q)는 p와 q의 cross-entropy를 의미합니다. h_i와 \hat{h_i}는 modality network encoder로 추출된 ground-truth representation을 의미합니다.
세 가지 손실함수는 아래와 같이 joint objective function으로 결합되어 모델 매개변수를 jointly하게 최적화합니다.
\lambda_1, \lambda_2는 weighting hyper parameter를 의미합니다.
<Experiment>
<Dataset>
이 논문에 사용한 데이터셋은 IEMOCAP, MSP-IMPROV 입니다. 각 데이터셋의 감정 분포는 Table 2에 확인할 수 있습니다.
<Missing-Modality Training Set>
먼저 3가지 modality를 모두 포함하는 원래 training set을 전체 modality training set으로 정의합니다. 전체 modality training set을 기반으로 cross-modality pairs를 포함하는 또 다른 training set을 구성하여 가능한 missing-modality conditions를 시뮬레이션하고, 이를 missing modality training set으로 정의하여 MMIN을 훈련하는데 사용합니다.
각 training sample에 대해서 Table1에서 본 것처럼 6개의 다른 cross-modality pairs가 생성됩니다. 그렇기때문에, 생성된 cross-modality pairs의 수는 전체 modality training sample 수의 6배에 달합니다.
<Missing-Modality Testing Set>
먼저 세 가지 modality를 모두 포함하는 원래 testing set을 전체 modality testing set으로 정의합니다.그 다음에 불확실한 missing modality conditions에서 MMIN의 성능을 측정하기 위해서, 각각 여섯 가지 가능한 missing modality condition에 해당하는 여섯 가지 missing modality testing subset을 구성합니다.
예를 들어서, 추론 단계에서 위의 그림과 같이 visual modality가 누락된 조건에서 unified format의 missing modality testing sample의 raw feature는 (x^a, x^v_{miss}, x^t)와 같습니다. missing modality testing subset의 6개를 모두 결합하여 missing modality testing set으로 표현가능합니다.
<Detail>
method에서 구체적으로 언급하지 않은 디테일한 것은 Table3을 참고해주시면 감사하겠습니다.
<Result>
Table 4를 통해 모든 modality를 사용했을 때의 성능을 확인할 수 있는데요. 저는 분명 이 논문의 contribution이 missing modality에 대처 가능한 것이기 때문에 모든 modality에서의 성능은 다른 모델에 비해서 낮을 수 있다고 생각했는데, 표를 보면 알 수 있듯이 성능이 높은 것을 확인할 수 있습니다.
표5에서는 다양한 missing modality testing condition과 전체 modality testing condition에서 MMIN 모델의 실험 결과를 확인할 수 있습니다.
IEMOCAP에서, 표 4의 결과와 비교하면 불확실한 missing modality testing condition에서 성능이 크게 떨어지는 것을 볼 수 있는데, 이는 전체 modality condition에서 모델이 missing modality problem에 매우 민감하다는 것을 나타냅니다.
missing modality training set와 전체 modality training set를 결합하여 baseline 모델을 훈련하는 직관적인 솔루션 ‘augmented baseline’은 missing testing conditiond에서 full-modality baseline보다 크게 성능이 향상되었으며, 이는 데이터 증강이 training과 testing 간의 데이터 mismatch를 완화하는데 도움이 된다는 것을 나타냅니다.
보면서 집중했던 부분은 어떻게 학습을 하였는지, loss는 어떻게 되는지도 있었지만 데이터셋을 어떻게 만들었는지도 유심히 봤던 것 같습니다. 리뷰를 하면서 제가 이 논문의 이해도가 부족하다는 것을 느낍니다… 특히 인용된 부분이 많아 이 부분은 이해가 부족했던 것 같습니다. 인용된 논문과 이 논문을 더욱 읽어보고 더 자세히 이해해보도록 하겠습니다. 이상 리뷰 마치겠습니다. 읽어주셔서 감사합니다.
좋은 리뷰 감사합니다.
제가 해당 task에 대해 잘 몰라서 그런데, uncertain missing modality가 어떤 태스크인지, 감정인식의 3차년도 목표가 무엇인지 설명해주실 수 았나요?? 제가 리뷰를 읽으며 생각하기로 일부 모달리티가 누락된 경우에 감정인식을 수행하는 것인가요??해당 논문의 방식은 누락된 모달리티를 0으로 표현하였는데, 모델이 누락여부를 판단하는 것인지도 궁금합니다.
또한, Imagination Module을 통해 누락된 모달리티의 embedding을 예측한다고 하셨는데, 누락된 모달리티를 예측하여 감정을 예측하는 것을 제안하였다면 누락된 모달리티는 제외하고 나머지 모달리티의 feature를 이용하여 감정을 예측하는 경우와 비교한 실험이 있을 것 같은데, 혹시 어떤 실험 결과가 이에 해당하는 지 설명해주실 수 있나요??
댓글 감사합니다.
감정인식 3차년도는 멀티 모달리티 입력 중에 한 모달리티에서 누락이 발생했을 때 성능을 내는 것을 목표로하고 있습니다. 딱 이 논문이 하는 것과 비슷하다고 생각하시면 됩니다. 모델이 누락여부를 판단하는 것에 대해서는 입력이 0으로 들어오면 누락이구나 라고 판단하는 것일거라고 간단하게 생각하였습니다.
table5에 testing condition을 보시면 되는데, {a}라면 {a, v, t}에서 {v, t}가 누락된 상황이라고 생각하시면 됩니다.
감사합니다.
안녕하세요 김주연 연구원님, 좋은 리뷰 감사합니다.
우선 모달 별 Missing이 발생한 다양한 경우에 대해 우선 고려하였다는 점이 제법 인상적이네요. 결국 missing인 모달은 zero-vector로 들어가나 보네요.
1) 그렇다면 해당 논문에는 올해 목표인 정합에 대한 언급은 없나요?
2) 그리고 missing이 없는 상황에 대한 실험 결과 중 2차년도 베이스라인 과의 비교는 없나요? 해당 실험 결과에 대해 김주연 연구원은 “다른 모델에 비해 성능이 낮을 것 같다고 생각하였는데, 성능이 높았다” 라고 하셨는데요, 왜 해당 논문이 성능이 좋을 수 있었다고 생각하시나요?
댓글 감사합니다.
1) 올해 목표인 정합에 대해서는 언급이 되어 있지는 않은데요. 근데 최근에 정합과 관련하여 좋은 논문을 발견하여 리뷰할 예정이니 나중에 참고하주시면 감사하겠습니다.
2) 2차년도 베이스라인과의 비교는 없는데요. 제 생각에는 이 논문이 나온것도 2021년도이고 베이스라인 논문이 나온것도 2021년도여서 동일한 학회는 아니지만 시기상 참고하지 못한 것은 아닌가 생각합니다.
3) 성능이 높은 이유는 다른 방법론에서 볼 수 없었던 imagination module때문이 아닌가 합니다. forward와 backward loss를 사용한 것도 이유가 된다고 생각합니다.
감사합니다.
안녕하세요 김주연 연구원님 좋은 리뷰 감사합니다. 감정인식 3차년도의 missing 문제를 다루는 논문이라 흥미롭게 읽었던 것 같습니다.
리뷰를 읽고 의문점이 있는데 연구원님께서 본문에 ‘missing-modality training conditions에서는 입력으로 unified triplet format에서 available modality와 missing modality를 참조하는 cross-modality pair가 포함됩니다.’라고 언급하셨는데, 모델에 cross-modality pair가 입력으로 들어가게 되면 결국 특정 모달리티가 누락된 h와 missing된 부분을 보완하는 h^을 동시에 사용하는 것과 같아지지 않나요? 그럼 결국 missing이 아니라 a, v, t 세 모달리티의 정보가 다 들어가는 것으로 보이는데 forward module과 backward module의 동작 과정을 설명해 주실 수 있으실까요?
댓글 감사합니다.
‘그럼 결국 missing이 아니라 a, v, t 세 모달리티의 정보가 다 들어가는 것으로 보이는데’ –> 사실 이 부분이 생각하기 나름인 것이 결국 입력이 3가지로 들어가는 것은 맞습니다. 그런데 누락된 모달리티인 경우 zero vector로 들어가기 때문에 세 모달리티의 정보가 들어가지 않는 것처럼 보이지 않을 수도 있습니다. backward에서 나온 format은 저는 pretrained model에서 나온 pair라고 생각하였기 때문에 모델이 진짜 missing된 모달리티의 정보를 알고 있는 것이 아니기 때문에 missing이라고 생각하였습니다.
감사합니다
안녕하세요 김주연 연구원님
좋은 리뷰 감사합니다
해당 논문의 평가지표인 WA, UA가 익숙하지 않네요.. weighted accuracy와 uni~ accuracy의 줄임 표현일듯 한데
해당 데이터셋은 두가지 지표를 모두 사용할 수 있는지요..?
감사합니다
댓글 감사합니다.
네 맞습니다. WA가 weighted accuracy를 의미하는 것이고, UA는 unweighted accuracy입니다. 제가 설명을 깜빡했네요. 추가로 더 말씀드리자면 제가 여러 논문을 쭉 봤을 때 이 분야에서는 평가 매트릭으로 주로 wa를 사용하고 더 사용한다면 wa, ua, f1-socre를 사용하는 것으로 보입니다.
감사합니다.