[ACL 2023] Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection

안녕하세요. 이번에 가져온 논문은 fake news detection task에서 counterfactual inference를 어떤식으로 사용하는지 알려드리고자 가져와봤습니다. 제가 계속 counterfactual inference에 대해서 관심을 가지고 있어 감정 인식이 아닌 다른 task에서는 어떻게 사용하는지 확인하고자 가져와 봤습니다. 그럼 리뷰 시작합니다.

<Introduction>

fake news detection에 대해서 간단히 설명드리면, 말 그대로 가짜 뉴스를 탐지하는 task입니다. 여기서는 text와 image로 구성된 multimodal data를 이용하여 가짜 뉴스를 탐지합니다. 본 논문에서는 현재 대부분의 기존 방법은 fake news instance를 학습하여 뉴스의 진위 여뷰를 판단하는 라벨별 특징을 포착하는 식으로 가짜 뉴스를 탐지한다고 합니다. 하지만 이러한 라벨별 특징은 기존에 접하지 못했던 unseen fake news sample을 마주했을 때 모델이 숨겨진 data bias로 인해 의도한 바로 작동하지 않는 경우가 있다고 합니다. 이 문제를 해결하기 위해서 본 논문에서는 multi modal fake news detection data의 기저에 있는 bias를 확인하고 text의 심리 언어학적 bias와 image 특징 만으로 추론 하는 bias(즉, image-only bias)를 확인합니다.

bias를 명시적으로 설명하기 위해서 Figure2(a)와 같이 fake news detection 과정을 causal graph로 공식화하였습니다. 대부분의 multimodal fake news detectino 방법이 news label Y에 대한 fusion된 feature C의 영향 외에도, text feature T와 image feature I에 각각 시작하여 다른 두 개의 edge가 Y를 가리키고 있습니다. 이렇게 하면 text와 image가 news label에 개별적으로 영향을 미칠 수 있게 됩니다.

T→Y branch의 경우, 본 논문에서는 text의 언어적 특정세어 fake news detection에 중요한 역할을 하는 ‘crazy’, ‘amazing’ 등의 심리 언어적 단어의 사용과 같은 감성적 선호도가 뚜렷하게 나타나는 것을 관찰하였는데요. twitter 데이터셋을 예로 들면, Figure1고 같이 fake news의 단어 빈도 분포가 실제 뉴스와 상당히 다르며, 특히 불안, 부정적 감정 등을 표현하는 단어의 경우 더욱 그러하다는 것을 관찰할 수 있습니다. 이를 통해 fake news는 독자의 감정을 자극하고 더 많은 관심을 끌기 위해 자극적인 언어를 사용하는 것을 선호한다는 결론을 도출할 수 있습니다. 따라서 fake news detection 모델은 news의 진위 여부를 판단하는 shortcut으로 이러한 심리 언어적 특징에 의존하는 경향이 있을 수 있습니다.

I → Y branch의 경우, 논문의 저자는 데이터셋에서 동일한 image를 공유하는 두 개의 서로 다른 news가 서로 상반된 label을 가질 수 있음을 관찰하였는데요. 이는 image가 진짜일지라도 text가 조작되어 news가 가짜일 수 있음을 보여줍니다. image를 detection을 위한 특징으로 활용할 수 있지만 image의 특징만으로 뉴스의 진위를 유추하는 것은 신뢰하기에는 어렵다고 말할 수 있습니다. 이 경우, image에만 의존하는 편향(즉, image 특징만으로 news label에 대한 직접적인 인과관계를 추론하는 것)을 제거해야 더욱 정확하게 탐지할 수 있겠죠. 본 논문의 저자는 이를 위해 image feature I를 제외하고 text feature T와 fusion된 feature C가 모두 주어지지 않은, t와 c로 표현되는 counterfactual inference를 사용합니다. Figure2(c)를 보시면 더욱 이해가 되실 것 같습니다. 이렇게 하면 I가 Y에 미치는 direct effect를 계산하여 bias를 추정할 수 있으며, 이를 Y에 미치는 total effect에서 뺴는 방식으로 debiasing을 수행할 수 있습니다.

이를 정리하여 본 논문의 contribution을 말씀드리면 아래와 같습니다.

  • fake news detection data의 각 modality를 분석하고 text의 심리 언어적 bias와 iamge-only bias를 식별합니다. 그리고 multi modal fake news detection을 위한 새로운 Causal intervention and Counterfactual reasoning based Debiasing framework (CCD)를 제안합니다.
  • CCD framework에서는 backdoor-adjustment를 통해 심리언어학적 confounder에 의해 도입된 spurious correlation을 제거합니다. 또한, image-only bias를 해결하기 위해 counterfactual inference를 적용하여 indirect causal effect를 발휘합니다.
  • baseline에 적용했을 시, 두 가지 벤치마크에 대해서 성능 향상을 이뤘습니다.

<Method>

<Preliminaries>

<Causal Graph>

causal graph는 변수가 서로 상호 작용하는 방식을 설명하는데 사용되는 확률적 graphical model로, 변수 집합 N과 두 노드 간의 인과 상관관계 E로 구성된 directed acycle graph $\mathcal{G=\{N,E\}}$로 표현할 수 있습니다. Figure3에서 볼 수 있듯이 X→Y는 X가 결과 Y의 원인임을 나타냅니다. U는 confounder(교란 변수) 입니다.

<Causal Intervention>

causal intervention은 confounder가 있을 때 한 변수가 다른 변수에 미치는 실제 causal effect를 찾는데 사용됩니다. causal graph에서 변수에 대한 intervention operation은 변수를 가리키는 모든 edge를 제거하여 부모 노드가 더 이상 변수를 유발하지 않도록 하는데요. 이때, do-calculus를 이용한 backdoor adjustment를 통해서 confounder가 없는 상황에서 intervened된 분포를 계산할 수 있습니다. Figure 3의 example에서 adjuestment 공식은 베이즈 정리에 따라 다음과 같이 도출할 수 있으며, 여기서 u는 confounder의 U 값을 나타냅니다.

<Counterfactual Reasoning and Causal Effect>

제 이전 리뷰 CF-VQA를 읽어보신 분들께서는 이미 익숙한 개념이시겠지만, counterfactual reasoning은 factual world와 다른 가상의 조건에서 결과를 추론하는 데 사용되는 통계적 추론 방법입니다. counterfactual inference를 수행하면 treatment 변수가 response 변수에 미치는 causal effect를 추정할 수 있습니다. 예를 들어, Figure4에서 X가 Y에 미치는 직접적인 영향을 추정하고 제거하는 것을 그림으로 확인할 수 있습니다. Figure 4(a)는 factual world로 Y의 계산을 $Y_{x,Z_x}=Y(X=x,Z=Z(X=x))$로 표현할 수 있습니다.

Figure4(a)와 4(b)를 기반하여 Y에 대해서 X=x일 때의 total effect(TE)를 아래와 같은 식으로 표현할 수 있습니다.

이는 두 가지 다른 treatment가 주어졌을 때 X의 두 가지 잠재젹 결과, 즉 X=x와 X=x*의 비교로 볼 수 있습니다. total effect (TE)는 natural direct effect (NDE), total indirect effect (TIE)로 분해할 수 있으며 TE = NDE + TIE로 계산할 수 있습니다. NDE는 변수 Z가 차단되었을 때 X가 Y에 미치는 natural difect effect를 나타냅니다. Figure4(c)를 통해 이를 확인할 수 있습니다.

$Y_{x,Z_{x*}}$는 X를 동시에 다른값 x와 x*로 설정할 수 있는 counterfactual world 하에서 계산됩니다(Figure4(C)). 따라서 TIE(즉, X가 Y에 미치는 total indirect effect)를 아래와 같이 구할 수 있습니다.

<Causal Graph of Fake News Detection>

앞서 언급한 바와 같이 Figure(a)는 fake new detection process의 causal graph를 보여줍니다. node T, I, C는 각각 Text feature, Image feature, fused multi-modal feature를 나타냅니다. 본 논문에서 제안한 causal graph에 따라 최종 예측 Y는 세 가지 branch에서 입력 T와 I가 Y에 미치는 direct effect인 T→Y와 I→Y, 그리고 fused feature C를 통해 입력 T와 I가 Y에 미치는 indeirct effect, 즉 T(I) → C→ Y의 입력을 받습니다. 공식적으로, 모델의 format은 다음과 같습니다

여기서 $c=f(T=t,I=i), f()$는 fake news detection model 베이스라인에 있는 feature aggregation fuction을 의미합니다. 그러면 label y에 대한 입력의 total effect(TE)를 다음과 같이 쓸 수 있습니다.

여기서 $c=f(T=t,I=i), f()$는 fake news detection model 베이스라인에 있는 feature aggregation fuction을 의미합니다. 그러면 label y에 대한 입력의 total effect(TE)를 다음과 같이 쓸 수 있습니다.

이후에는 fusion 함수가 있는 model ensemble을 통해 prediction $Y_{t,i,c}$를 아래와 같이 계산합니다.

여기서 $Y_t$는 text-only branch (즉, T→Y)의 output이고, $Y_i$는 image-only branch(즉, I→Y)의 output을 의미합니다. $Y_c=Y_{t,i}$는 fused feature branch (즉, C→Y)의 output입니다. F()는 최종 예측값을 얻기 위한 fusion 함수입니다.

<Deconfounded Traning with Causal Intervention>

Figure2(b)에서 볼 수 있듯이, T→Y branch에는 관찰되지 않는 confounder U(즉, text의 심리언어학적 특성)가 존재하며, 이는 확률 P(Y|T)를 학습함으로써 text feature과 new label 간의 spurious correlation을 유발합니다. confounder의 영향을 명시적으로 설명하기 위해서 본 논문에서는 베이지 정리를 사용하였습니다.

다음으로, T에 대한 do-calculus를 사용하여 해당 intervention distribution을 계산하기 위해 backdoor adjustment를 활용하는 T→Y branch에서 deconfounded training을 수행합니다. edge U→T가 잘려나갔기 때문에 다음과 같이 할 수 있습니다.

$Y_t$를 추정하기 위해, text feature T의 representation t와 confounder U의 representation u가 주어지면 식[9]는 $\sum_u P(y|t,u)P(u)$로 구현되며, 여기서 P(y|t,u)는 news feature 학습 모델 g(-)에 따른 예측값입니다.

여기서 σ()는 sigmoid를 의미합니다. 이제까지의 내용을 요약하자면, 식[9]의 구현은 다음과 같이 정의됩니다.

본 논문의 저자는 Normalized Weighted Geometric Mean (NWGM)을 적용하여 sigmoid 함수 바깥쪽 기대치를 이동하여 위의 기대치를 근사화하였습니다. 아래와 같이 말이죠.

선형 모델을 적용하여 조건부 확률, 즉 T와 U 조건에서 Y의 확률을 근사화합니다. $g(t,u) = W_tt+W_u \cdot h(u)$를 모델링합니다. 여기서 h(u)는 $u, W_t, W_u$의 feature transformation이며, 학습 가능한 weight parameter입니다. 이 경우, $\mathbb{E}_u[g(t,u)]=W_tt+W_u\cdot\mathbb{E}_u[h(u)]$ 입니다.

$\mathbb{E}_u[h(u)]$를 계산하기 위해 h(u)를 스케일링된 Dot-Product attention으로 구현합니다. U의 경우 fixed confounder dictionary $D_u=[u_1, u_2, …,u_N] \in \mathbb{R}^{N\times{d_u}}$로 근사화 합니다. 여기서 N은 word categories의 수이고, $d_u$는 hidden feature의 dimension을 의미합니다. 그러면 아래와 같은 식으로 표현할 수 있습니다.

<Mitigating the Image-only Bias with Counterfactual Reasoning>

지금까지 T→Y branch에서 심리 언어적 bias는 성공적으로 제거되었지만, Figure2(a)의 causal graph에서 기반한 fake news detection model은 여전히 image-only bias가 존재합니다. 이는 prediction인 $Y_{t,i,c}$가 여전히 image의 direct effect에 영향을 받기 때문입니다. 따라서 image가 더 설득력 있는 가짜 뉴스가 여전히 진짜 뉴스로 판정될 확률이 높습니다. 이러한 image bias를 완화하기 위해 T와 C의 영향을 차단하여 I가 Y에 미치는 직접적인 causal effect를 추정하는 counterfactual reasoning을 사용하였습니다. Figure2(c)는 fake news detection을 위한 counterfactual world의 causal graph로, I가 다른값 i와 i*로 설정되었을 때의 시나리오를 보여줍니다. 또한, T를 reference value t*로 설정하였으므로, T=t*와 I=i*일 때 C는 값 c*에 도달하게 됩니다. 이러한 방식으로 T와 C의 입력이 차단되기 때문에 모델은 주어진 이미지인 i에만 의존하여 감지할 수 있습니다. 이를 통해 Y에 대한 I의 Natural direct effect (NDE), 즉 image-only bias를 얻을 수 있습니다. 식으로 표현하면 아래와 같습니다.

여기서 Total Effect인 TE에서 NDE를 뺴면 bias를 제거할 수 있습니다.

최종적으로 얻은 TIE는 debias된 결과로 이 값을 inference하게 됩니다.

<Traning and Inference>

Figure 5는 본 논문에서 제안한 CCD framework의 training과 inference 과정을 보여줍니다. 학습 단계에서는 base multi-modal fake news detection branch ($Loss_{FND}$), text-only detection branch ($Loss_{T}$), image-only detection branch ($Loss_I$) 등 각 branch에 대한 loss를 계산합니다. 따라서 model parameter를 학습하기 위한 multi-task training objective를 최소화하여 다음과 같이 공시화할 수 있습니다.

$Loss_{FND}$는 식(7)의 $F(Y_t,Y_i,Y_c)$의 prediction에 cross-entropy를 이용하여 구합니다. text-only loss와 image-only loss인 $Loss_T, Loss_I$는 $Y_t, Y_i$의 prediction에 corss-eontropy를 이용하여 구합니다. α와 β는 hyperparameter입니다.

inference 단계에서는 TIE를 이용하여 inference를 수행하며, 아래와 같이 구현됩니다.

<Experiments>

처음 접한 task여서 그런지 데이터셋도 굉장히 낯설었는데요. 그래서 본 논문에서 사용한 데이터셋에 대해서 간략하게 설명드리고자 합니다.

  • Twitter : 이 데이터셋은 트위터에서 추출하여 구성한 데이터셋으로 textual, visual, social context information으로 구성되어 있습니다. 본 논문에서는 text, image data만 사용합니다.
  • Pheme : 이 데이터셋은 social media를 통해 퍼지는 루머를 감지하기 위한 프로젝트의 일환으로 만들어졌습니다. 이 데이터는 루머 또는 루머가 아닌 것으로 구성된 속보를 기반으로 구성되어 있는데, 본 논문에서는 루머를 fake news로, 루머가 아닌 것을 real news로 분류하였습니다.

본 논문에서 사용한 데이터셋의 간략한 통계는 Table 1을 통해서 확인할 수 있습니다.

Table 2를 통해서 위에서 소개한 데이터셋에서 CCD의 성능을 확인할 수 있습니다. CCD는 baseline에 해당하는 모델에 부착하여 사용하기 때문에 CCD를 부착했을 때의 성능과 아닌 성능을 비교하여 CCD가 좋은 방법론인지를 확인할 수 있는데요. Table 2에서 base fake news detection 모델과 CCD를 적용했을 때의 모델의 성능을 비교했을 때 전체적으로 성능이 향상한 것을 확인할 수 있습니다. 특히 Twitter 데이터셋의 경우 Pheme 데이터셋보다 성능 향상이 크게 되었는데요. 본 논문의 저자는 두가지 이유로 인해서 이러한 결과가 나왔다고 합니다. 첫 번째는, Twitter 데이터셋의 심리 언어적 어후의 비율이 Pheme 데이터셋의 비율보다 높은데, 즉, 이 말은 Twitter 데이터셋은 심리 언어적 bias에 취약하다고 할 수 있고 CCD가 이를 성공적으로 제거했기 때문에 큰 성능 향상으로 이끌었다고 말할 수 있습니다. 두 번째, Table 1에 따르면, Twitter 데이터셋의 image 수는 news text 수 보다 훨씩 적어서 image-only biasr가 Pheme 데이터셋에 비해서 적기 때문이라고 말할 수 있습니다.

Table 3을 통해 ablation study를 확인할 수 있는데요. w/o CI는 causal intervention을 제거한 것, w/o CR은 counterfactual reasoning을 제거한 것인데요. 이 Table에서는 안나와있지만, Table 2를 보면 두 데이터셋에서의 HMCAN 모델의 성능을 확인할 수 있는데, 본 논문에서 제안한 CI와 CR 중 하나만 적용하더라도 기본 HMCAN 모델의 성능보다 높은 것을 보아 두 방벙론 모두 효과적으로 bias를 제거하였다고 말할 수 있습니다.

Figure 7를 통해 정성적으로 결과를 확인할 수 있습니다. text 데이터에서 빨간 색으로 처리된 부분은 심리 언어학적 단어를 의미합니다. fake news와 real news 모두 텍스트에 분노와 부정적인 단어를 표현하는 단어가 포함되어 있지만, CCD를 수행하고 난 뒤에 결과를 확인하면 정확한 예측을 수행하는 것을 확인할 수 있습니다.


이렇게 리뷰를 끝냈습니다. 논문을 읽으며 확실한 문제 정의와 실제로 문제인지 시각화를 통해서 확인하는 것 등 굉장히 잘 쓴 논문이라는 생각이 들었습니다. 저도 이런 논문을 쓰고 싶네요. 읽어주셔서 감사합니다.

Author: 김 주연

2 thoughts on “[ACL 2023] Causal Intervention and Counterfactual Reasoning for Multi-modal Fake News Detection

  1. 좋은 리뷰 감사합니다.

    해당 task에도 unseen이라는 개념을 보고 반가운 마음에 리뷰를 읽게 되었습니다 ㅎㅎㅎ
    리뷰 읽으면서 몇가지 궁금증이 생겨 질문 남깁니다.

    unseen fake new는 어떤 것을 의미하는 지 궁금합니다.
    6D pose Estimation의 예를 들 경우 아예 다른 클래스나 인스턴스의 객체를 unseen으로 구분하는 데,
    fake new detection에서는 학습시 본 적 없는 논리적 흐름의 변화나 두 모달리티 중 변화가 없던 모달리티에 fake 정보가 포함되는 경우를 의미하는 것인가요?? 아니면 단순히 학습데이터와 다른 평가데이터를 의미하는 것일까요??
    (예를들면 unsee은 사실에 대해 반대로 표현하던 fake 뉴스로 학습할 경우 인과가 뒤집어지는 fake new를 unseen fake new라 하는 것인지..?)

    또한 실험 결과에 대한 설명에 의하여 데이터별로 bias가 다르다고 이해하였는데,
    그렇다면 해당 task는 서로 다른 데이터별로 다른 모델을 사용하는 것인가요?? 즉, 일반화는 불가능한 것인지 궁금합니다.

  2. 안녕하세요 주연님. 좋은 리뷰 감사합니다.

    fig1을 보여주시며 fake news의 단어 빈도 분포가 실제 뉴스와 상당히 다르다고 하셨는데, 그냥 봤을 떄는 postive emotion을 제외하고는 분포가 유사한 것으로 보이는데 ,,
    어떻게 해석해야 하는 것인가요 ?
    또,,,, U가 confouder라고 하셨는데 교란 변수가 무엇인가요 ?!?!

    감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다