안녕하세요. 오늘은 CVPR 2024 논문을 가져와봤습니다. 제가 counterfactual inference 방법론으로 논문 작업하고 있어 이와 관련된 방법론을 계속 일게 되는 것 같습니다. 저번 리뷰를 읽으셨다면 이번 리뷰는 수월하게 따라오실 것이라 예상됩니다. 그럼 리뷰 시작하겠습니다.
<Introduction>
인간의 삶에서 감정은 굉장히 중요한 역할을 합니다. 그렇기 때문에 리소스 효율성이 높은 시각 콘텐츠에서 subject의 감정 상태를 정확하게 인식하는 것은 중요하고, 이에 대한 연구가 지속적으로 진행되어 왔는데요. 하지만, Figure 1(a)를 보면 알 수 있듯이, wild에서 수집된 image에서 subject의 physical representation (여기서는 얼굴 표현, 신체 자세 등을 표현하는 representation이라 생각하시면 될 것 같습니다)은 일반적으로 emotion signal을 제공하지 못하는 자연스러운 occlusion으로 인해 구분할 수 없습니다.
이를 해결하기 위해서 situation context에서 추가적인 affective semantic을 찾기 위해 context-aware emotion recognition (CAER)이 제안되었습니다. context는 일반적으로 배경 사물, 장소, 장면 등 subject의 외부 요인을 포함하는 것으로 간주됩니다. 이러한 context는 정확한 인식을 위한 상호 보완적인 emotion 단서를 제공할 수 있는데요. 하지만 그럼에도 불구하고 최근 연구에 따르면 CAER 모델은 유익한 ensemble representation 보다는 context bias로 인한 spurious correlation에 의존하는 경향성이 있는 것으로 나타났습니다.
Figure1을 통해서 이를 직관적으로 확인할 수 있는데요. 먼저 EMOTIC 데이터셋에서 일부 training sampel을 무작위로 선택하고 clustering을 합니다. Figure1(a)에서 해변과 관련된 context를 포함하는 sample은 feature space에서 의미적 유사성을 확인하면서 조밀한 feature clustering을 형성하는데요. 이 sample들은 긍정적인 emotion category를 가지고 있는 반면, 부정적인 감정은 유사한 context에서 존재하지 않습니다. 이 경우, 모델은 context별 semenatic과 emotion label 사이의 가짜 의존성을 포착하기 쉽습니다. Figure 1(b)의 test 단계에서는 context는 비슷하지만 부정적인 감정 category를 가지는 sample을 대상으로 context bias로 인해서 잘못된 감정을 추론하는 것을 확인할 수 있습니다.
본 논문의 저자는 이러한 context bias를 debiasing하기 위해서 unified counterfactual emotion inference (CLEF) framework를 제안합니다. CLEF는 기본 CAER 방법을 대체하기 보다는 모델에 구애받지 않는 방식으로 context bias를 완화하는데 중점을 둡니다. 구체적으로 먼저 일반화된 causal graph를 공식화하여 CAER에서 변수 간의 causal effect를 조사합니다. causal graph를 따라 CAEF는 training 단계에서 context branch를 통해 유해한 bias로 발생하는 direct context effect를 추정합니다. 이는 Figure2(b)의 예측 결과와 비슷할 것입니다. inference 단계에서는 bias 간섭을 배제하기 위해 counterfactual 상황을 만들어 total causal effect에서 direct context effect를 빼 debias된 예측값을 얻도록 합니다.
위의 내용을 요약해서 이 논문의 main contribution을 말하면 아래와 같습니다.
- CAER task에 counterfactual thinking을 최초 도입. 또한, context bias가 잘못된 prediction shortcut을 만들어 난다는 사실을 입증
- 모델에 구애받지 않는 CAER debiasing framework인 CLEF를 고안하여 bias를 완화. CLEF는 SOTA 방법에도 쉽게 적용할 수 있으며 상당항 성능 향상을 가져왔음
- 여러 large-scale 데이터셋에서 실험 수행하였으며, 해당 프레임워크의 광범위한 적용 가능성과 효과를 확인 할 수 있음
<Method>
<Preliminaries>
causal graph는 방향성 비순환 그래프 $\mathcal{G=\{V,E\}}$로 나타낼 수 있고, 여기서 $\mathcal{V}$는 변수 집합을 나타내고, $\mathcal{E}$는 causal effect를 나타냅니다. 세 개의 변수가 있는 causal graph는 Figure 3a를 통해서 확인할 수 있습니다. 여기서는 변수를 대문자로 나타내고 그 변수의 관찰된 값을 소문자로 표시합니다. 원인 P에서 결과 Q로의 인과 관계는 두 부분으로 나눠 반영되는데요. direct effect는 causal link P→Q를 따르고, indirect effect는 mediator M을 통해 P→M→Q를 따릅니다.
counterfactual inference는 모델에 다양한 처리 조건을 통해 사실적 관찰에서 counterfactual 결과를 묘사할 수 있는 기능을 부여합니다. factual outcome에서 Q의 값은 P가 p로 설정되고 M이 m으로 셋팅되는 조건에서 아래와 같이 공식화 할 수 있습니다.
P의 값에 다른 treatment를 가하면 사실과 반대되는 결과를 얻을 수 있는데요. Figure 3b에서와 같이 P를 p로 설정하고 M을 변경하면, $Q_{p,M_{p*}}=Q(P=p*,M_{p*}=M(P=p*))$가 됩니다. 마찬가지로 $Q_{p,M_{p*}}$는 P=p이고 M이 P=p*일때의 값으로 counterfactual situation을 반영합니다.
Causal effect는 reference variable의 값이 변경 될 때 두가지 대응하는 결과의 차이를 나타냅니다. P=p는 처리된 조건을 나타내고 P=p*는 보이지 않는 반대 조건을 나타냅니다(즉 counterfactual condition을 나타냅니다). causal theory에 따르면, 두 가지 가상의 결과를 비교하여 treatment P=p가 Q에 미치는 Total Effect(TE)는 다음과 같이 공식화 할 수 있습니다.
TE는 Natural Direct Effect(NDE)와 Total Indirect Effect(TIE)로 분리할 수 있습니다. NDE는 direct link P→Q에 따른 P=p가 Q에 미치는 영향을 반영하며, M으로 인한 link P→M→Q에 따른 indirect effect를 제외하면 P가 p였을 때의 값으로 설정 됩니다. 이는 P가 p에서 p로 변환할 떄 Q의 반응을 나타냅니다.
이 경우, TIE는 framework에서 편향되지 않은 예측 결과를 측정하는데 사용되는데, TE에서 NDE를 직접 뺴서 계산합니다.
<The Proposed CLEF Framework>
<Cause-Effect Look at CAER>
Figure 3c에서 볼 수 있듯이, 논문에서 제안된 CAER causal graph에는 input image X, subject features S, context features C, ensemble representation E, emotion predictions Y 등 5개 변수로 구성되어 있습니다.
link X→C→Y는 context feature C의 유해한 bias를 통해 원래 input X와 model prediction Y사이의 shortcut을 반영합니다. mediator C의 adverse direct effect는 context 모델링의 invasive branch를 통해 얻어지며, 이는 context 별 semantics와 emotion label 사이의 suprious correlation을 포착합니다. Figure 2b를 예를 들면, context branch는 학습 중에 희미한 context와 negative emotion 사이의 원치 않는 mapping을 학습합니다.
link C←X→S는 CAER 모델에서 해당 인코더를 통해 X에서 추출한 total context와 subject representation을 나타냅니다. 서로 다른 방법의 설계 차이에 따라 C와 S는 single feature 또는 여러 sub-feature의 집합에서 나올 수 있습니다.
link C/S→E→Y는 ensemble representation E를 통해 model prediction Y에 대한 C와 S의 indirect causal effect를 포착합니다. mediator E는 feature concat 이나 attention fusion과 같은 다양한 방법의 feature fusion mechanism에 따라 얻어집니다. 특히 C는 subjects의 characteristics이 구별되지 않을 때 potential entional state를 유리하게 추정할 수 있는 좋은 인과적 연결 고리인 C→E→Y를 따라 앞서 중요한 context를 제공합니다.
<Counterfactual Inference>
자 그럼, 본격적으로 앞의 내용에 대한 이해를 바탕으로 counterfactaul inference에 대해서 소개하려고 합니다. 우선 본 논문은 X → C → Y의 link를 따라 bias된 direct effect를 배제함으로써 모델 예측에 대한 유해한 context bias의 간섭을 안화하는 것입니다. 앞에서 설명한 표기에 따라서 facutal scenarios (counterfactual data가 들어가지 않을 때를 말합니다.)의 인과 관계는 다음과 공식화 할 수 있습니다.
$Y_{c,e}(X)$는 context bias로 인해서 잘못된 감정 예측을 반영하는 값이라고 말할 수 있습니다. 뚜렷한 인과 관계를 구하기 위해서 C=c와 S=s의 Total Effect(TE)를 계산하며, 이는 다음과 표시됩니다.
여기서 c*와 e*는 C와 E의 관찰된 값의 non-tratment condition 값을 의미합니다. 여기서 e로 이어지는 c와 s는 주어지지 않습니다. 이렇게 TE를 구했으면, 바로 bias에 대한 Natural Direct Effect (NDE)를 다음과 같이 구합니다.
$Y_{c,e*}(X)$는 C가 c로 설정되고, C가 c이고 S가 s였을 때 E가 e*가 들어오는 counterfactual 값을 나타냅니다. 사실 이 말로는 굉장히 헷갈릴 것이기 때문에 이를 causal notation으로 표기해보겠습니다.
위의 notation을 잘 보면, C는 제대로 값이 들어오고, e*을 구하기 위해서 c*, s*인 counterfactual 한 값을 넣은 것을 알 수 있습니다.
X → C/S → E → Y link에서 ensemble representation E의 indirect effec가 차단되기 때문에 모델은 허위 상관관계를 유발하는 X → C → Y link의 direct context effect에만 의존하여 bias된 예측을 수행할 수 있습니다. 최종적으로 NDE에서 명시적으로 포착된 context bias를 배제하기 위해 TE에서 NDE를 뺴서 total indirect effect(TIE)를 구합니다.
이렇게 구한 TIE는 context bias되지 않은 값이기 때문에 이를 inference합니다.
<Implementation Instantiation>
<Framework Structure>
Figure4를 통해서 본 논문에서 제안한 방법론의 framework의 구조를 확인할 수 있는데요. 본 논문의 방법론인 CLEF의 prediction은 두 부분으로 구성됩니다. 1) 추가 context branch(즉, X → C → Y)의 예측, 2) $Y_c(X)=N_c(c|x)$와 바닐라 CAER 모델(즉, X → C/S → E → Y)의 예측. 이렇게 1)과 2)로 구성됩니다. context branch는 단순 신경망 $N_c(-)$로 인스턴스화 되어 masking된 인식된 subject가 있는 context image를 입력받습니다. masking 작업은 network가 direct effect를 추정하기 위해 context semantics에 집중하도록 합니다. 주어진 입력 x에 대한 해당 context image $I_x$는 다음과 표시 할 수 있습니다.
여기서 $bbox_{subject}$는 subject의 bounding box를 의미합니다. $N_{c,s}()$는 c와 s로부터 ensembel representation e를 학습하는 모든 CAER 모델을 나타냅니다. 그 후, fusion 방법론 $ϕ(·)$을 사용하여 최종 $Y_{c,e}(X)$를 얻습니다.
여기서 σ는 sigmoid 함수를 의미합니다.
<Training Procedure>
본 논문은 classification task 방법론이기 때문에 흔히 사용하는 cross-entropy loss를 사용하여 최적화를 수행합니다. $Y_{c,e}(X), Y_{c,e*}(X)$에 대한 loss는 다음과 같습니다. (CE는 cross-entorpy loss를 의미합니다)
여기서 y는 ground truth를 의미합니다.
또한, 신경망 모델은 no-treatment condition을 처리할 수 없기 때문에, 본 논문에서는 모든 sample이 공유하는 상상된 $Y_{e*}(X)$를 나타내기 위해서 실제로 unifrom distrubition로 초기화된 trainable parameter를 사용하였습니다. uniform distribution를 통해 NDE를 안정적으로 추정할 수 있습니다. 또한, 본 논문에서는 TIE가 TE 또는 NDE에 의해 좌우되는 부적절한 $Y_{e*}(X)$를 피하기 위해서, Kullback-Leiber divergence KL()를 사용하여 $Y_{c,e*}(X)$와 $Y_{c,e}(X)$ 사이의 차이를 정규화하여 $Y_{e*}(X)$를 추정합니다.
위의 설명한 것을 다 합쳐 정리하면, 최종 loss는 아래와 같이 구할 수 있습니다
<Inference procedure>
식(9)에 따라, debias된 예측값은 아래와 같이 구할 수 있습니다.
<Experiments>
자 이제 실험 파트를 통해서 counterfactual inference가 정말 잘 작동하는지 확인하고자 합니다. 그 전에 이 task는 제가 기존에 알고있던 감정 인식과는 다른 task이기 때문에 데이터셋도 처음 보는 데이터셋을 사용하는데요. 간략하게 설명드리고자 합니다.
- EMOTIC
- real-world context에서 감정 인식을 제공하는 benchmark로, 23571개의 이미지가 있다고 합니다. 모든 sample은 풍부한 context resource를 제공하기 위해서 non-controlled 환경에서 수집되었다고 하며, 인식된 각 subject에서는 무려 26개의 감정이 라벨링 된다고 합니다.
- CAER-S
- CAER-S는 비디오 클립으로부터 추출된 70k개의 static image로 구성된다고 합니다. 이 image는 TV 프로그램의 다양한 상황 시나리오에서 다양한 subject의 7가지 감정 상태로 라벨링 되었다고 합니다.
Table 1을 통해서 본 논문에서 제안한 방법론을 baseline에 붙였을 때 얼마나 성능 향상이 됐는지를 확인할 수 있습니다. CELF를 붙였을 떄 대부분의 category에서 큰 성능 향상을 이룬 것을 확인할 수 있습니다. 또한, CELF는 서로 다른 context에서 emotion state가 고르지 않게 분포되어 좋지 않은 context bias로 인해 크게 혼라스러웠던 여러 category를 개선하였는데요. 예를 들어, “Engagement”와 “Happiness” category의 경우, 90.46%~97.39%로, 72.37%~87.06%로 큰 폭으로 성능이 개선된 것을 확인할 수 있습니다.
Table2와 3을 통해 meanAP(mAP) score에 대한 baseline 모델과 비교 결과를 확인할 수 있습니다. Table2는 EMOTIC 데이터셋에서의 결과이고, Table3은 CAER-S 데이터셋에서 결과인데, 두 데이터셋 모두에서 CLEF를 붙였을 때 성능 향상을 이룬 것을 확인할 수 있습니다.
Table2와 3을 통해 meanAP(mAP) score에 대한 baseline 모델과 비교 결과를 확인할 수 있습니다. Table2는 EMOTIC 데이터셋에서의 결과이고, Table3은 CAER-S 데이터셋에서 결과인데, 두 데이터셋 모두에서 CLEF를 붙였을 때 성능 향상을 이룬 것을 확인할 수 있습니다.
마지막으로 Figure 6을 통해 정량적 결과를 확인할 수 있습니다. vanilla method와 CLEF가 다른 예측값을 내뱉는 것을 통해서 debias된 예측값을 정상적으로 도출하는 것을 확인할 수 있습니다.
이렇게 리뷰를 마칩니다. 논문을 읽으며 정말 많은 실험을 했구나가 보였던 논문인 것 같습니다. 다른 counterfactual inference 논문을 읽었을 때 이렇게 많은 실험은 보지 못했던거 같은데 역시 CVPR이구나 라는 생각이 들었습니다. 저도 이를 본받아 열심히 실험해야겠네요. 읽어주셔서 감사합니다.
안녕하세요 김주연 연구원님 좋은 리뷰 감사합니다.
[Figure 1(a)]는 CAER데이터셋을 감정 라벨을 기준으로 clustering한 것을 의미하는 것인가요?
그렇다면 Intro에서 언급된 “Figure1(a)에서 해변과 관련된 context를 포함하는 sample은 feature space에서 의미적 유사성을 확인하면서 조밀한 feature clustering을 형성하는데요. 이 sample들은 긍정적인 emotion category를 가지고 있는 반면, 부정적인 감정은 유사한 context에서 존재하지 않습니다.”라고 언급하신 부분은 training 데이터셋에 감정과 관련없는 특징(해변 배경)이 존재하는 sample이 어떠한 특정 감정에 몰려 있어 모델이 wrong correlation을 학습한다는 것으로 이해하면 될까요?
안녕하세요. 댓글 감사합니다.
이렇게 이해하시면 될 것 같습니다. training 데이터셋에서 감정과 관련없는 특징(해변 배경)이 지속적으로 특정 감정 sample에 대해서 등장하는데 이로 인해서 모델은 이 감정과 관련 없는 특징에 대해서 wrong correlation을 학습하는 것이죠.
감사합니다.