안녕하세요. 이번에도 감정인식 논문인데요. 하지만 약간 특이한 논문을 가져와봤습니다. VQA에 biasing과 비슷한 논문이라고 할 수 있는데요. 실제로 rubi(이전에 리뷰한 글 참고)를 reference하기도 한 논문이었습니다. 그러면 리뷰 시작합니다.
<Introduction>
multimodal fusion은 우리가 말하는 내용, 말하는 방식, 시각적으로 자신을 표현하는 방식에서 얻은 정보를 통합합니다. multimodal 모델은 성능향상을 가져왔지만 해석하기 어렵다는 단점이 있는데요. 두 가지 모달리티(bimodal) 또는 세 가지 모달리티(trimodal) 간의 상호작용을 학습하는지 아니면 모달리티들이 서로 독립적으로 처리되는지 또는 이러한 모델이 하나의 모달리티에만 집중하는지 불분명하기 때문입니다.
multimodal interaction을 정량화하는 것은 모델을 더 잘 이해하고 성능을 개선하기 위한 단계인 모델 디버깅과 해석 가능성을 높이기 위한 단계인 AI applications에서 향후 연구를 위한 필수 구성 요소 입니다.
Hessel and Lee 연구에 따르면 많은 multimodal 모델이 unimodal 모델의 합과 같은 기능을 하는 것으로 나타났습니다. 즉, 이러한 모델은 예상만큼 많은 non-additive interaction을 학습하지 못할 수 있습니다. Figure 1의 non-additive interaction 예시는 인간이 전체 multimoal example을 두 가지 모달리티의 합보다 더 많은 것으로 인식하고 있는 것을 예시로 보여줍니다. additive interaction과 nonadditive interaction을 분리하는 현재의 접근 방식은 모델이 주로 주로 additive contribution을 학습하는 문제를 강조했지만, non-additive interaction을 명시적으로 학습하는 솔루션을 제공하지는 못했습니다. 그러나 visual question answering과 같은 많은 multimodal task에서는 unimodal, bimodal, trimodal interaction 학습을 요구합니다.
본 논문에서는 명확하게 predcition을 학습하고, unimoal, bimodal, trimodal interaction의 합으로 분해하는 multimodal Residual Optimization(MRO)을 소개합니다. 더 간단한 솔루션을 선호한다는 Occam의 면도날에서 영감을 얻은 MRO의 주요 직관은 (더 복잡한) bimodal, trimodal interaction을 학습하기 전에 (더 간단한) unimodal 기여도를 학습해야 한다는 것입니다. 예를 들어, bimodal prediction은 unimodal prediction의 오류(residual)를 수정하는 방법을 학습하여 bimodal prediction이 나머지 bimodal interaction에 집중할 수 있도록 해야 합니다. 마찬가지로 trimodal prediction으 unimoal, bimodal prediction에서 모델링되지 않은 것을 학습해야 합니다.
논문의 저자는 intent, sentiment, emotion recognition을 포함한 6가지 multimodal language dataset에 대해 MRO를 평가하였습니다. MRO는 예측 성능을 저하시기지 않으면서 multimoadal interaction (unimodal, bimodal, trimodal)을 분리하는 것을 목표로 합니다. MRO를 평가하기 위한 일환으로, 본 논문에서는 이전의 연구를 세가지 모달리티로 확장하는 새로운 평가 지표를 제안합니다. 또한 인간의 지각 연구를 통해 MRO가 인간의 판단에 부합하는 non-additive interaction을 학습하는지 평가하여 경험적 결과를 보완합니다.
<Quantifying Multimodal Interactions>
unimodal, bimodal, trimodal interaction을 구분하는 multimodal 모델을 학습하기 위해 먼저 이 세 가지 유형의 multimodal interaction을 정량화하는 방법을 정의합니다. 본 논문에서는 3가지 모달리티를 사용하는데 T(text), V(vision), A (acoustic)로 나타내고, 각 모달리티에 해당하는 feature는 $x_T, x_V, x_A$ 입니다. bimodal funcion f는 두 개의 unimodal function의 합으로 인수분해 할 수 있을 때 additive (덧셈) 입니다. $∀x_T , x_V : f(x_T , x_V ) = g(x_T )+h(x_V )$. 또한 prediction의 일부가 하나의 모달리티에만 의존할 때 f는 unimodal contribution을 포함합니다. : $∃x_T : \mathbb{E}_v f(x_T , v) = ̸= 0.$ 이 방정식은 language modality뿐만 아니라 vision modality에도 동일한 공식이 적용됩니다. 선행 연구(Hessel and Lee, 2020)에서는 두 가지 모달리티의 context에서 unimodal contributions (UC)를 정량화하기 위해 EMAP를 제안하였습니다. 이 논문에서는 UC를 세 가지 모달리티로 일반화합니다.
- 정리1 : trimodal function f는 다음과 같이 $UC(f, x_T, x_V, x_A) =/= 0$일 때 unimodal contribution을 포함합니다.
UC의 아이디어는 모델이 모달리티 간의 non-additive interaction을 사용할 수 없도록 가능한 모든 unimodal feature combination(데이터셋에 없는 feature conbination도 포함)으로 모델을 평가하는 것입니다. 마찬가지로 bimodal interaction을 정량화하기 위해 function BI를 공식화할 수 있습니다.
- 정리2 : $BI(f, x_T, x_V, x_A) =/= 0 $일 때 bimodal function f는 다음과 같이 bimodal interaction (BI)을 포함합니다.
나머지 trimodal interaction (TI)은 unimodal contribution 및 bimodal interaction에 포함되지 않는 부분입니다
<Multimodal Residual Optimization>
이 논문의 main contribution은 prediction을 학습하고, unimodal, bimodal, trimodal interaction으로 분해하여 정화하는 것을 목표로하는 multimodal residual optimization(MRO) 입니다. Occam의 면도날에서 영감을 얻은 MRO의 intuition은 (더 복잡한) bimodal, trimodal interaction을 학습하기 전에 (더 간단한) unimodal interaction을 우선적으로 학습해야 한다는 것입니다. MRO에는 multimodal interaction을 구분하는 두 가지 구성요소, 즉, architecture와 loss-function compoenet가 있습니다.
<MRO Architecture>
하나의 trimodal function을 이용하여 predcition $\hat{y}=f(x_T, x_V, x_A)$를 만드는 대신, MRO의 목표는 UC, BI, TI를 계산할 필요 없이 $\hat{y}=UC(f, x_T, x_V, x_A) + BI(f, x_T, x_V, x_A) + TI(f, x_T, x_V, x_A)$로 예측하는 것입니다. 따라서 MRO는 세 가지 요소를 기반으로 $\hat{y}$를 예측합니다.
여기서 $\hat{y}_{uni}, \hat{y}_{bi}, \hat{y}_{tri}$는 각각 unimodal, bimodal, trimodal interaction을 모델링합니다. $\hat{y}_{bi}, \hat{y}_{tri}$는 non-additive interaction만 모델링하도록 디자인된 반면에, $\hat{y}_{uni}$는 additive interaction만 모델링하도록 디자인되었다는 점에 유의해야 합니다. $\hat{y}_{uni}$는 아래와 같이 정의할 수 있습니다.
여기서 $f_{θT}, f_{θV}, f_{θA}$는 모델을 의미하는 데요. 논문에서 예시를 들기를 하나의 모달리티만 입력으로 하는 신경망이라고 생각하면 됩니다. 각 모델에는 고유한 메개변수 set($θ_T, θ_V, θ_A$)가 있습니다. bimodal, trimodal 모델도 비슷한 방식으로 파라미터화합니다.
여기서 $f_{θ_{TV}}, f_{θ_{AV}}, f_{θ_{TA}}$는 두 가지 모달만 입력으로 사용하는 bimodal 모델이고, f_{θ_{TVA}}는 세 가지 모달을 모두 입력으로 사용하는 모델입니다. 전체 MRO 모델은 $Θ = (θ_T , θ_V , θ_A, θ_{TV} , θ_{TA}, θ_{AV} , θ_{TVA})$로 파라미터화 됩니다.
이러한 구조는 이미 $\hat{y}_{uni}$가 unimodal contribution만 포함할 수 있도록 강제하고 있다고 말할 수 있습니다.
<MRO Loss Function>
먼저 두 가지 모달리티(language, vision)에 대한 MRO를 설명한 다음 세 가지 이상의 모달리티에 대한 공식을 설명드리고자 합니다.
- Bimodal case: $\hat{y}_{bi}$에 unimodal contribution이 포함되지 않도록 유도하기 위해 MRO는 $\hat{y}_{uni}$를 우선시 하도록 합니다. MRO의 loss function은 다음과 같이 정의할 수 있습니다.
여기서 sg는 stop-gradient를 나타냅니다(Razavi et al., 2019). 이는 sg의 인수를 통한 역전파를 방지하는 것이라 간단히 설명할 수 있습니다. [식 8]의 첫 번째 부분은 unimodal contribution만 사용하여 y를 예측하기 위해 $θ_T, θ_V$를 업데이트 합니다 $\hat{y}_{uni} = f_{θ_T}(x_T)+f_{θ_V}(x_V).$ [식 8]의 두 번째 부분은 $θ_{TV}$를 업데이트하여 $L(y, \hat{y}_{uni}, \hat{y}_{bi})$가 더 작아지도록, 즉 $\hat{y}_{bi}$가 $\hat{y}_{uni}$의 실수를 수정하도록 합니다. 다시 $θ_T, θ_V$로 역전파하지 않으므로 $\hat{y}_{bi}$가 $\hat{y}_{uni}$에 영향을 미치지 않습니다. 즉, $\hat{y}_{uni}$는 $\hat{y}_{bi}$와 독립적으로 최적화 됩니다.
Figure 2는 bimodal case에서 MRO를 요약한 것인데요. 좀더 자세한 설명은 다음과 같습니다.
- m-modal cade: m 모달의 경우, m개의 type에 대해서 interaction이 있습니다 : unimodal, bimodal, trimodal, …, m-modal. additive interaction과 non-additive interaction을 모두 분리하는 대신, 이러한 m개의 interaction type을 분리하고자 합니다. loss function은 아래와 같이 정의할 수 있습니다.
여기서 \hat{y}_i는 i-모달 prediction을 의미합니다. 즉, $\hat{y}_1 = \hat{y}_{uni}, \hat{y}_2 = \hat{y}_{bi}, \hat{y}_3 = \hat{y}_{tri}$를 의미합니다. trimodal의 경우 앞에서 이미 $\hat{y}_{uni}, \hat{y}_{bi}, \hat{y}_{tri}$를 정의했습니다. m이 3보다 큰 경우, 동일한 접근법에 따라 모델을 정의할 수 있습니다. bimodal의 경우와 유사하게$ \hat{y}_{bi}$는 $\hat{y}_{tri}$를 최적화 할 때, $\hat{y}_{bi}$의 gradient가 sg에 의해 멈추기 때문에 $\hat{y}_{tri}$와 독립적으로 최적화 됩니다.
<Sequential MRO>
본 논문에서는 모든 prediction components $(\hat{y}_{uni}, \hat{y}_{bi}, \hat{y}_{tri})$를 동시에 최적화 하는 MRO의 접근 방식에 대한 대안으로 sequential MRO (sMRO)를 제안하는데요. 동시에 최적화 하는 것이 아닌 순차적으로 최적화 하는 것을 제안합니다.
먼저, sMRO는 수렴할 때까지 Loss $L(y, \hat{y}_{uni})$을 사용하여 $\hat{y}_{uni}$의 파라미터를 최적화 한다음, 그 파라미터 $θ_L, θ_V , θ_A$를 freeze한 뒤 $\hat{y}_{bi}, \hat{y}_{tri}$를 최적화 합니다. 다음으로, sMRO는 수렴할 때까지 Loss $L(y, \hat{y}_{uni} + \hat{y}_{bi})$를 사용하여 $\hat{y}_{bi}$의 파라미터를 최적화 한 다음 bimodal 파라미터 $θ_{LA}, θ_{LV} , θ_{VA}$를 freeze합니다. 그런 다음 loss $L(y, \hat{y}_{uni} + \hat{y}_{bi} + \hat{y}_{tri})$를 사용하여 trimodal \hat{y}_{tri}를 최적화 합니다. 세 가지 이상의 모달리티가 있는 경우, sMRO는 수렴할 때까지 $L(y, \sum_{i=1}^m \hat{y}_i)$에 대해 $\hat{y}_m$의 파라미터를 최적화 한 다음 freeze합니다.
<Experimental Methodology>
- Datasets : 데이터셋은 Table 1과 같은 데이터셋을 사용하였습니다.
- Evaluation : 본 논문에서는 prediction component $\hat{y}_{uni}, \hat{y}_{bi}, \hat{y}_{trii}가 UC(\hat{y}}, BI(\hat{y}), TI(\hat{y})$에 대응하여 prediction component가 unimodal, bimodal, trimodal interaction만을 나타내기를 원했습니다. 그래서 이를 테스트하기 위해서 $|UC(\hat(y}_{bi} + \hat(y}_{tri} |$를 사용하여 bimodal, trimodal prediction에 unimodal contribution이 포함되어 있는지, 그리고 trimodal prediction에 bimodal contribution이 포함되어 있는지 $|BI(\hat(y}_{tri}|$를 평가합니다. MRO architecture를 고려할 때 $\hat(y}_{uni}$는 bimodal 및 trimodal interaction을 포함할 수 없고, $\hat(y}_{bi}$는 trimodal interaction을 포함할 수 없습니다. 즉, $|UC(\hat(y}_{bi}+\hat(y}_{tri}| + |BI(\hat(y}_{tri}|$가 0이면 모델은 unidmoal, bidmoal, trimodal interaction을 완벽하게 분리합니다. 즉, $\hat(y}_{uni} = UC(\hat{y}), \hat(y}_{bi} = BI(\hat{y}), \hat(y}_{tri} = TI(\hat{y})$ 가 되는 것입니다.
- Models : 본 논문에서는 서도 다른 방식으로 최적화 되었을 때의 MRO-architecture를 비교하는데요. $L(y, \hat{y}_{uni} + \hat{y}_{bi} + \hat{y}_{tri})$(Joint라고 부릅니다), sMRO, MRO를 사용합니다. 성능 비교를 위해 Routing 모델도 포함하였다고 합니다(Tsai et al., 2020). 마지막으로 단일 trimodal model $\hat{y} = f_{θ_{TVA}(x_T, x_V, x_A)$(Tri라고 부릅니다)에 대한 성능을 비교하였습니다.
<Results>
- Sanity Check : 더 복잡한 데이터셋에 대해서 MRO를 평가하기 전에 unimodal contribution만 필요한 $x_T + x_V + x_A$ (이를 Sanity Check Unimodal이라고 부릅니다)와 bimodal interaction만 필요한 $x_T x_V + x_T x_A + x_V x_A$ (이를 Santiy Check Bimodal이라고 부릅니다)라는 두가지 간단한 데이터셋에 대해서 건전성 검사를 수행합니다. Figure 3은 joint와 routing 모델이 unimodal, bimodal, trimodal interaction을 잘 구분하지 못하며, $|UC(\hat{y}_{bi} + \hat{y}_{trii})| + BI(\hat{y}_{tri})|$가 높다는 것을 보여줍니다. 예상대로 sMRO와 MRO는 $|UC(\hat{y}_{bi} + \hat{y}_{trii})| + BI(\hat{y}_{tri})|$가 0에 매우 가까운 것을 보여주는 데 interaction을 거의 완벽하게 분리하고 있음을 의미합니다.
Table 3에는 각 모델의 성능이 나와있습니다. MRO로 최적화된 모델은 어떤 겨웅에도 다른 모델보다 성능이 현저히 떨어지지 않은 것을 확인할 수 있습니다. 하지만 SEWA에서 valence와 MOSEI의 happiness에 대해서는 joint 모델보다 통계적으로 유의미하게 우수한 것을 확인할 수 있습니다.
이렇게 리뷰를 마쳐봅니다. 글 안에 수식이 너무 많아 역대급으로 쓰기 힘든 글이 아니었나 싶습니다. 읽어주셔서 감사합니다.
안녕하세요 김주연 연구원님 좋은 리뷰 감사합니다.
결국 이 논문의 주요한 contribution은 multimodal interaction을 모달리티의 개수에 따라 분리한다는 것로 이해하였습니다.
리뷰를 읽고 질문이 있는데요, intro에서 인간이 multimodal example을 각 모달리티의 합보다 많은 것으로 인식한다고 설명해 주셨는데요, [그림1]을 예로 들자면 language가 negative, vision이 positive일 때 실제 해당 상황의 감정은 very positive인 반면 멀티모달 모델들은 neutral로 추론한다는 의미인가요?
그리고 수식 부분에서 f()의 의미는 입력된 모달리티간의 합을 의미하나요? 그렇다면 f(x_T, v, a)에서 x_T가 text의 feature map이라고 하셨는데 이때의 v, a는 무엇을 의미하는 것인지도 궁금합니다. 맥락상 UC는 하나의 feature map, BI는 두 개의 feature, TI는 모든 모달리티의 feature map을 결합한다는 것으로 이해하였으나 좀 더 자세히 설명해 주실 수 있나요?
감사합니다.
안녕하세요. 댓글 감사합니다,
1. 네 맞습니다. 그렇기 때문에 멀티모달을 분리하여서 제대로 멀티모달이 학습되는지 확인하자가 이 논문의 취지입니다.
2. 네 맞습니다. v, a는 unimodal contribution으로 이해하시면 될 듯합니다. 또한 결합한다는 것에 대해서 의문을 가지시는 거 같은데 논문에서는 bimodal function f는 additive로 표현한다라고 하였으니 더하기로 결합한다고 생각하시면 될듯합니다.
감사합니다.