[NeurIPS 2019] RUBi:Reducing Unimodal Biases for Visual Question Answering

안녕하세요. 이번 리뷰는 감정인식 분야가 아닌 생소한 VQA 논문을 가져와봤는데요. 이전에 김동진 교수님의 초청 세미나에서 debiasing 분야가 굉장히 흥미로워 이 논문을 일게 되었고, 이 논문을 베이스로 멀티모달 감정인식 분야에도 적용할 수 있을 것 같아 논문을 리뷰하게 되었습니다. 다소 생소한 분야이지만 재밌게 읽어주시면 감사하겠습니다. 그럼 리뷰 시작하겠습니다.

<1. Introduction>

Visual Question Answring (VQA) task의 목표는 image에 대한 질문(question)에 답변(answer)을 하는 것입니다. 하지만 그러기 위해서는 viaul scene과 question에 대한 hith-level understanding과 imagea에 대한 textual concept에 대한 이해 그리고 적절하게 image, text modality를 사용해야만 가능한 일입니다.

이 논문이 2019년도 논문이니 2019년도 정도에 large real image VQA dataset이 등장했다고 합니다. 데이터셋의 각각은 VQA 모델이 fine-graned recognition, object detection, counting, activity recognition과 같은 real-word setting에서 사용되어야 하는 specific ablities를 target으로 하였는데요. 이 덕분에 end-to-end VQA 모델이 대부분의 benchmark에서 인상적인 결과를 달성하였고, 심지어 compositional reasoning도 고려한 특정 benchmark에서 사람의 정확도를 능가하였다고 합니다. 그런데 이렇게만 잘 동작되면 이 논문이 나왔을리는 없죠? 문제가 있으니 이 논문이 나왔겠죠. 그 문제는 VQA 모델이 answer occurrence와 question의 특정 패턴 사이의 statistcal regularities를 악용하는 경향이 있다는 것을 발견한 것입니다. 모델 설계는 두 모달리티의 정보를 merge 하도록 설계가 되었지만, 실제로는 image 모달리티를 고려하지 않고 대답하는 경우가 많았다고 합니다. 대부분의 바나나가 노란색인 경우 모델은 바나나의 색을 묻는 질문에 대해 높은 정확도를 달성하기 위해서 굳이 image 모달리티 사용하여 학습할 필요가 없습니다. 이미지를 보고 바나나를 감지하고 색깔을 평가하는 대신, 가장 많이 발생하는 답변인 노란색으로 ‘what’, ‘color’, ‘bananas’ 단어를 연결하는 statistical shortcut을 통해 학습하는 것이 모델 입장에서는 훨씬 쉬운 것이지요.

그렇다면 statistical shortcut을 통해 학습하는 것을 어떻게 정량화해서 확인할까요? 그 방법은 unimodal model로 train 해보는 것입니다. 예를 들어 설명해드리겠습니다. 널리 사용되는 VQA v2 데이터셋이 있는데 이 데이터셋에 대해서 train된 question-only model은 test set에 대해서 대략 44% 정도만 맞춘다고 합니다. 여기에 더 가서 다른 statistical regularities에 대해서 보이는 test set에 대해서 경가하는 경우, 보통 크게 accuracy가 drop 하였다고 합니다. 논문에서는 불행히도, 이러한 statistical regularities를 실제 데이터셋을 모을 때 피하기 힘들다고 하는데요. Figure 1에서 볼 수 있듯이 더 나은 행동을 학습하기 위해서는 question modality에서 오는 biases의 양을 줄이기 위한 새로운 전략이 필요로 합니다.

그래서 본 논문에서는 RUBi라는 것을 제안하는 데요. VQA 모델에 의해서 학습된 bias의 양을 줄이는 training strategy 입니다. 이 strategy는 image modality를 보지 않고 정확하게 구분할 수 있는 example과 같은 biased된 example의 중요성을 줄이는데요. 그래서 VQA model이 question과 answer사이의 statistical regularities에 대해서 의존하지 않고 two input modality를 사용할 수 있도록 강요합니다. question-only model이 설계상 question modality에 biased 되었다는 점을 활용하는데요. training 동안 base VQA model의 top에 question-only branch를 추가합니다. 이 branch는 bias를 보정하기 위해 loss를 동적으로 조정하여 VQA 모델에 영향을 미칩니다. 결과적으로 VQA model를 통해 backpropagated된 gradients이 가장 biased된 example에 대해서는 줄고, 덜 biased된 것에 대해서는 increase 됩니다. training 끝에서는, 간단하게 question-only branch를 삭제하여 사용하지 않습니다.

이러한 결과 VQA-CP v2에서 큰 폭으로 SOTA를 달성할 수 있게 되었다고 합니다.

<2. Related Work>

<Assessing unimodal biases in datasets and models>

앞에서 말씀 드린 문제를 다시 정리해서 말씀드리면, 두개의 input 모달리티가 merge하도록 설계되었음에도 불구하고 VQA 모델이 다른 모달리티를 고려하지 않고 한 모달리티의 입력과 answer간의 피상적인 상관관계에 의존한다는 것인데요. VQA 모델에 의해 학습될 수 있는 unimodal biases의 양을 정량화하는 방법은 두 가지 모달리티 중 하나만 사용하여 모델을 학습시키는 것인데요[8, 9]. question-only model은 question modalty에서 사용될 수 있는 statistcal reqularities의 양이 많기 때문에 특히나 strong한 baseline이 될 수 있습니다. 그리고 본 논문에서는 이러한 baseline을 활용하여서 VQA 모델이 question biases를 학습하지 못하도록 막습니다.

그런데 안타까운 점은 한 가지 모달리티의 statistical shortcut을 활용하는 편향된 모델은 일반적으로 대부분의 현재 벤치마크에서 높은 정확도를 보인다는 것입니다. 그래서 최근에는 train과 test split 간의 각 question type에 대해서 다른 answer distribution을 포함하는 diagnostic datasets으로 VQA-CP v2, VQA-CP v1이 도입이 되었는데요. 결과적으로는 question modality에 대해 biased된 모델은 이러한 데이터셋에서 성능 하락을 보였습니다. 본 논문에서는 question modality에서 오는 bias의 learning을 줄이는 접근 방식의 능력을 보여주기 위해서 더 까다로운 VQA-CP v2 데이터셋를 사용했다고 합니다.

<3. Method>

먼저 RUBi가 무엇인지 설명드리기 전에 noraml한 VQA 모델은 어떻게 동작되는지 간략하게 설명드리고자 합니다. 우선 데이터셋 D가 n개의 triplets로 구성이 되어있는데요. 여기서 triplet은 $(v_i, q_i, a_i)_{i\in[1, n]}$ 이렇게 구성되어 있습니다. 여기서 $v_i \in V$는 image, $q_i \in Q$는 natural language고 구성된 question을 말합니다. $a_i \in A$는 answer를 의미합니다. 그리고 $f: V \times{Q}→\mathbb{R}^{|A|}$함수의 paramteer를 최적화하여 예측을 수행합니다.

계속해서 설명 이어가겠습니다. VQA모델은 image encoder $e_v : V→\mathbb{R}^{n_v\times{d_v}}$를 이용하는데 image encoder $e_v$는 output으로 dimension $d_v$의 $n_v$ vector의 set을 가집니다. 또한 question encoder $e_q : Q → \mathbb{R}^{n_q\times{d_q}}$를 이용합니다. 마찬가지로 output으로 dimension $d_q$의 $n_q$ vector의 set을 가집니다. 또한 multimodal fusion $m : \mathbb{R}^{n_v\times{d_v}}\times{\mathbb{R}^{n_q}\times{{d_q}} → \mtahbb{R}^{d_m}, classifier c : \mathbb{R}^{d_m} → \mathbb{R}^{|A|}$를 사용합니다. 최종적으로 아래의 식으로 구성하여 사용할 수 있습니다.

Figure2에서 볼 수 있듯이, VQA는 classification task라고 볼 수 있이 때문에 $n$ 크기의 데이터셋에 대해 cross-entorpy criterion을 최소하하는 것으로 loss가 구성됩니다.

자 그럼 이제 RUBi가 어떻게 동작하는지 설명하고자 합니다.

<3.1 RUBi learning strategy>

<Capturing biases with a question-only branch>

VQA 데이터셋의 unimodal biases를 측정하는 한 가지 방법은 두가지 modality 중의 하나만 입력으로 사용하는 unimodal modeld을 학습하는 것입니다. Figure 2에서 그려진 것처럼, RUBi에서의 핵심 아이디어는 question-only model을 VQA model의 branch로 적용하여 main model의 prediction을 변경하는 것입니다. 사실 이게 무슨 말이야 싶기도 하는데요. 계속 따라와주세요. 어쨌든 이렇게 main model의 predcition을 바꾸게 되면, question-only branch가 question biase를 잘 capture하여 VQA 모델이 question modality만으로는 정답을 맞을 수 없는 example에 집중할 수 있습니다. (예를 들어 초록색 바나나와 같은 그림과 질문을 같이 봐야만 맞출 수 있는 example을 말하는 것이죠)

question-only branch는 $f_Q : Q → \mathbb{R}^{|A|}$로 표현할 수 있는 있는데, question encoder $e_q : Q → \mathbb{R}^{n_q\times{d_q}}$ ($d_q$ dimension의 $n_q$ 벡터 set을 output으로 가짐), neural network $nn_q : \mathbb{R}^{n_q\times{d_q}} → \mathbb{R}^{|A|} $그리고 classifier $c_q : \mathbb{R}^{|A|} → \mathbb{R}^{|A|}$로 구성되어있습니다. 식으로 표현하면 아래와 같이 표현될 수 있습니다.

학습 동안, branch는 식 (1)에 제신된 형태의 VQA 모델이 biases를 학습하지 못하도록 방지하는 proxy 역할을 합니다. 학습이 끝나면, branch를 제거하고 VQA 모델의 prediction을 사용하기만 하면 됩니다. 간단하쥬?

<Preventing biases by masking predictions>

VQA 모델의 prediction을 식 (2)에 정의된 loss function에 전달하기 전에 각 answer에 대해 0과 1 사이의 스칼라 값을 포함하는 길이 $|A|$의 mask와 합치는데요. 이 mask는 neural network $nn_q$의 output을 sigmoid function에 넣어 얻습니다. 이 mask의 목적은 바로 VQS 모델의 prediction을 수정하여서서 loss를 동적으로 변경하는 것인데요. 새로운 prediction을 얻으려면 식 (4)에 정의된 대로 mask와 원래 prediction 사이의 element-wise product를 수행하기만 하면 됩니다.

이렇게 prediction을 수정하여서 VQA 모델이 question에서 biases를 학습하는 것을 방지하는 데요. 그러면 실제로 어떻게 작동하는지 예제를 통해서 보여드리고자 합니다.

첫 번째로, 가장 편향된 예제, 즉 image modality를 사용하지 않고도 올바르게 분류할 수 있는 example의 중요성을 줄입니다. 이를 위해서 question-only branch는 정답의 score를 높이고 다른 정답의 score를 낮추는 mask를 출력합니다. 위의 그림을 보면서 따라오시면 더 이해가 쉬울 듯 합니다. 결과적으로 위의 example과 같이 biases된 example에서 loss가 훨씬 낮아집니다. 즉, 결과적으로 VQA 모델을 통해 backpropagated되는 gradients이 더 작아져 training에서 이러한 example에 대한 중요도가 낮아집니다. 위의 그림을 보시면 ‘what color is the banana’라는 질문이 주어졌을 때, mask는 training set에서 이 질문에 대한 가장 가능성이 높은 yellow answer에 대해 0.8이라는 mask를 취합니다. 반면에 다른 answer인 green과 white의 값은 더 작은 것을 확인할 수 있는데요. mask가 VAQ 모델에 영향을 미쳐 yellow answer과 관련된 점수가 0.8에서 0.94로 증가하는 새로운 prediction을 생성하는 것을 볼 수 있습니다. RUBi를 적용하지 않은 학습 방식에 비해서 RUBi를 사용하면 loss가 0.22에서 0.06으로 감소하는 것을 확인할 수 있습니다.

두 번째로, 두가지 modality를 모두 사용하지 않고는 답할 수 없는 example의 중요성을 높였습니다. 이러한 example의 경우 question-only branch는 오답의 점수를 높이는 mask를 취합니다. 결과적으로 loss가 더 커지고 VQA 모델이 이러한 예제에 대해서 학습하도록 권장되게 됩니다. 위의 그림을 보면 loss가 0.69에서 1.20으로 증가한 것을 확인할 수 있습니다.

<Joint learning procedure>

RUBi는 두개의 loss에서 계산된 gradient를 사용하여서 VQA 모델과 question-only branch의 parameter를 jointly하게 최적화합니다. main loss $L_{QM}$은 식 (4)에서 $f_{QM} (v_i, q_i)$의 prediction과 관련된 cross-entroly loss를 나타냅니다. 이 loss를 backgpropagate하여서 이 loss에 기여한 모든 매개변수 $θ_{QM}$를 최적화 합니다. $θ_{QM}$은 VQM 모델, encoder, question-only branch의 neural network $nn_q$를 합한 값인데요. 이 이러한 setup에서 queione encoder $e_q$의 parameter를 VQA 모델과 question-only branch 간에 공유합니다. question-only loss $L_{QO}$는 $f_Q(q_i)$의 prediction과 관련된 cross-eontropy loss 입니다. 이 loss를 사용하여 $c_q$와 $nn_q$의 parameter를 합한 $θ_{QO}$를 최적화합니다. 이렇게 함으로써 biases를 capture하는 question-only branch를 더욱 개설할 수 있다고 합니다. 또한 이 loss가 queion encoder $e_q$에 backpropagate 되지 않도록 하여 queiontion biases를 직접 학습하지 않도록 하였습니다. 위의 내용을 식으로 표현하여 최종적인 loss를 식으로 보여드리면 아래와 같습니다.

식 (5)

<3.2 Baseline architecture>

본 논문에서는 대부분의 최신 VQA archtiecture는 RUBi learning strategy와 호환된다고 하는데요. 이를 테그스하기 위해서 [16]에서 영감을 얻어서 빠르고 간단한 architecture를 설계하였다고 합니다. 본 논문에서는 [15]에서 사용된 사전 학습된 Faster R-CNN을 사용하여 이미지를 $n_v$ visual feature의 bags로 encode하고, GRU를 이용하여 question을 vector $q \in \mathbb{R}^{d_v}$로 encode합니다. VQA 모델은 qestion representation q를 이미지의 각 region의 feature $v_i$와 merge 하는 Bilinear BLOCK fusion[17]으로 구성됩니다. output은 $n_v$ regions의 max pooling을 사용하여 얻습니다. 그런 다음 벡터는 MLP classifier에 fed하여 최종 prediction을 얻습니다.

<4. Experiments>

Table 1을 보면 baseline에 RUBi로 학습시킨 것이 SOTA를 달성한 것을 볼 수 있습니다. 앞전에 introduction에서 말씀 드린 것처럼 train과 test의 answer 분포가 다른 데이터셋인 VQA-CP2에서 SOTA를 달성하였습니다.

RUBi는 기존의 architecture를 변경하지 않고도 VQA 모델에 적용할 수 있는데요. Table 2에서는 두 가지 추가 architecture인 Stacked Attention Networks (SAN)[26], Bottom-UP and Top-Down Attention(UpDn)[15]에 대한 결과를 보여줌으로써 RUBi가 architecture agnostic하다는 것을 입증하였습니다. 성능을 보면 확실히 RUBi를 적용했을 때 유의미한 성능 향상을 이룬 것을 확인할 수 있습니다.

또 다른 실험은 VQA v2 데이터셋에서 진행하였는데요. 앞에서 말씀드린 것처럼 VQA v2 train, val, test set은 VQA-CP v2 train, test set과 달리 동일한 분포를 가지기 때문에 train에 편향되었을 지라도 test에서 성능 하락이 그렇게까지 크게 발생하지 않을 수 있는데요. 이러한 맥락에서 일반적으로 biases를 줄이는 데 중점을 둔 접근 방식을 상요하면 정확도가 떨어지는 것을 관찰할 수 있습니다. 그럼에도 불구하고 RUBi 방식은 최신 VQA에서 볼 수 있는 것과 비슷한 수준의 성능 하락을 가져왔다고 본 논문에서는 말합니다. RUBi는 baseline 대비 1.94% 정도 하락한 반면에, [10]은 GVQA와 SAN baseline 사이에서 3.78%정도 하락했다고 합니다.

다음은 이 논문을 읽으면서 가장 흥미로웠던 부분이었는데요. train에서 yes 밖에 없었는데 보통의 모델이라면 당연히 yes라고 대답할 것을 RUBi를 이용하면 No라고도 대답할 수 있음을 보인 것이 굉장히 흥미로웠습니다. 심지어 학습에 없던 질문이 들어와도 대답을 잘 하는 모습을 보면 RUBi 학습 전략이 간단하면서도 확실히 bias를 줄일 수 있는 방법론이구나 나는 것을 느낄 수 밖에 없었던 것 같습니다.

이렇게 논문 리뷰를 마쳤습니다. 멀티모달 감정인식에서 대부분의 논문에서 language의 성능이 높게 나오는 것이 어찌보면 language modality에 bias된 것은 아닐까? 그렇다면 RUBi라는 것이 bias를 해결하는데 도움이 되지 않을까 라는 생각을 하게 되는 논문인 것 같습니다. 정말 성능 향상에 도움을 줄 것인지 궁금해지고 빨리 실험해보고 싶어지는 논문이네요. 이렇게 마무리하도록 하겠습니다. 읽어주셔서 감사합니다.

[10] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Aniruddha Kembhavi. Don’t just assume; look and answer: Overcoming priors for visual question answering. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

[15] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In IEEE Conference on Computer Vision and Pattern Recognition CVPR, June 2018.

[16] Remi Cadene, Hedi Ben-Younes, Nicolas Thome, and Matthieu Cord. Murel: Multimodal Relational Reasoning for Visual Question Answering. In IEEE Conference on Computer Vision and Pattern Recognition CVPR, 2019.

[17] Hedi Ben-Younes, Remi Cadene, Nicolas Thome, and Matthieu Cord. Block: Bilinear superdiagonal fusion for visual question answering and visual relationship detection. In Proceedings of the 33st Conference on Artificial Intelligence (AAAI), 2019.

[26] Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, and Alex Smola. Stacked attention networks for image question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 21–29, 2016.

10 thoughts on “[NeurIPS 2019] RUBi:Reducing Unimodal Biases for Visual Question Answering”

허 재연 says:

08/20/2023 at 23:14

안녕하세요 김주연 연구원님, 좋은 리뷰 감사합니다.
이전 세미나에서 다뤄주셨던 기억이 있는데요, vqa가 재밌어보여서 읽어보게 되었습니다. 요약해보자면, 기존 VQA모델이 answer occurrence와 question의 패턴 사이 통계적 regularity를 악용해서 image를 고려하지 않고 대답하는 문제가 있었으며, RUBI는 question-only branch를 추가해 학습된 bias 간 밸런스를 조정하는 학습 전략을 도입해서 이 부분을 개선했다고 볼 수 있겠네요.

질문을 드리자면
1. Fig2에서 각 모달리티의 encoder ev, eq를 거친 이후 VQA model 내부의 동작 과정이 궁금합니다. 뭔가 이 벡터들이 c(m( ))를 거치게 되고 본문에 적어주신 것 같은데, 수식이 깨져서 그런지 이해하기 어렵네요. c와 m 내부에서 어떻게 동작하는지 알려주시면 감사하겠습니다.
2. vqa는 결국 classification task라고 하셨는데, 그럼 output class가 엄청나게 많은, 그리고 output으로 text를 출력하는 task라고 생각하면 될까요? contrastive pair를 구성하지는 않는지 궁금합니다.
감사합니다

1. 김 주연 says:
  
  08/21/2023 at 21:53
  
  안녕하세요 댓글 감사합니다.
  
  1. 사실 RUBi에서는 VQA model의 세부 layer가 어떻다까지 디테일하게 다루지는 않고 있는데요 . (학습 전략이니까요) https://arxiv.org/pdf/1707.07998.pdf 이 논문을 참고하면 좋을 것 같은데 여타 다른 모델처럼 layer를 쌓고 분류니까 마지막에 softmax를 취하는 식으로 모델이 구성되어 있습니다.
  
  2. output으로 text를 출력하는 거라고 봐도 될까..? 싶기는한데 label을 출력하는 거니 비슷합니다. contrastive pair가 무엇인지 잘 모르겠지만 구성하지 않는 것 같습니다
  
  감사합니다
  
양 희진 says:

08/20/2023 at 23:15

김주연 연구원님, 좋은 리뷰 감사합니다.

두 가지 질문이 있습니다.

1. 첫 번째 가장 편향된 예제를 다루실 때 맨 마지막에 ‘RUBi를 사용하면 loss가 0.22에서 0.6으로 감소하는 것을 확인할 수 있습니다.’ 라고 나와있는데 증가하는 것으로 보이는데 이점 궁금합니다.

2. VQA라는 테스크는 이미지에 대해 GT 정보로 클래스가 다 라벨링이 되어 있고, 이미지가 주어졌을 때에 대해 초록색 바나나가 주어졌을 때 Yellow라고 답하는 것을 RUBi가 Green으로 답을 하게끔 유도하는 것이라고 이해를 하였습니다. 이러한 unimodal bias 문제를 해결하는 것이 RUBi의 역할인데, 그럼 mask만 씌워서 해당 문제를 해결한 것말고는 다른 contribution이 없는 것 같은데 또 다른 contribution이 있나요??

감사합니다.

1. 김 주연 says:
  
  08/21/2023 at 21:56
  
  안녕하세요. 댓글 감사합니다.
  
  1. 그 부분은 제 오타이네요;; 알려주셔서 감사합니다.실제로는 0.22에서 0.06으로 감소하였습니다.
  
  2. 네 맞습니다. 저는 오히려 그렇기 때문에 대단하다고 생각하는데요. mask 방법을 통해 loss를 다르게 함으로서 유의미한 성능 향상을 가져왔기 때문입니다. 다른 contribution은 딱히 없는거 같군요
  
  감사합니다
  
천 혜원 says:

08/20/2023 at 23:30

안녕하세요 김주연 연구원님, 좋은 리뷰 감사합니다.
지난 세미나에서 발표해 주신 내용에 리뷰글을 함께 읽으니 이해가 더 잘 되는 것 같네요.
읽어보니 결국 text(question)를 biased로 가정하고 VQA의 prediction에 text 모델의 prediction을 masking하여 VQA모델이 text와 가까워지는 것을 억제하는 것이라고 이해하였습니다.
그렇다면 간단한 궁금증이 있는데요, RUBi를 감정인식에 적용하여 bias문제를 해결하는 실험을 계획중이신 걸로 알고 있는데 어떤 식으로 실험을 진행하실지가 궁금합니다. 논문에서 해결하고자 하는 VQA라는 task는 결국 video와 text를 입력으로 받아 classification을 수행하는 것인데요, 이를 V,A,T의 감정인식으로 확장하게 되면 V+A를 먼저 fusion하여 [그림3]의 e_v 처럼 사용하게 되는 것인지 궁금합니다.

1. 김 주연 says:
  
  08/21/2023 at 21:59
  
  안녕하세요. 댓글 감사합니다.
  
  우선 실험 방법에 대해서 간단히 생각한 것은 우선 V,A,T에 대한 모델은 건들이지 않고 L-only branch를 만들어 학습시킵니다. LUBi에서는 question-only branch를 사용한 것처럼 저는 이를 lanugage-only branch로 만들어 사용하는 것이죠. 이렇게 되면 langugae에 bias된 것을 파악할 수 있고 그에 맞게 loss를 조절할 수 있지 않을까…생각합니다.
  
  감사합니다
  
임 근택 says:

08/20/2023 at 23:39

리뷰 잘 읽었습니다. 비슷한 시기에 비슷한 분야의 논문을 읽었네요. 본 논문은 이미지 단위의 QA를 해결하는 문제인 것 같군요.

RuBi라는 방법을 결국에 감정인식 과제에 어떻게 적용할 예정인지 생각하고 있는 구조에 대해서 의견을 듣고 싶습니다.

1. 김 주연 says:
  
  08/21/2023 at 22:00
  
  안녕하세요. 댓글 감사합니다.
  
  L-only branch를 만들어 학습시키는 것으로 실험을 해보면 어떨게 생각중인데요. LUBi에서는 question-only branch를 사용한 것처럼 저는 이를 lanugage-only branch로 만들어 사용하는 것이죠. 이렇게 되면 langugae에 bias된 것을 파악할 수 있고 그에 맞게 loss를 조절할 수 있지 않을까 생각합니다.
  
  감사합니다.
  
이 승현 says:

08/20/2023 at 23:59

좋은 리뷰 감사합니다.

결국 question only model을 이용하여 VQA 모델이 question modality만으로는 정답을 맞출 수 없는 케이스에 집중하도록 하여, 두 modalit를 모두 고려한 학습을 하도록 한다고 하셨는데, 이미지에만 집중하여 질문과 상관 없는 결과를 도출하는 문제는 없는 지 궁금합니다.
또한, VQA 모델이 answer occurrence와 question의 특정 패턴 사이의 statistcal regularities를 악용하는 경향이 있다는 문제는 본 논문에서 처음 발견한 것인지 혹은 이런 문제가 있다는 것이 기존 연구들도 있었는지 궁금합니다.

1. 김 주연 says:
  
  08/21/2023 at 22:03
  
  안녕하세요. 댓글 감사합니다.
  
  1. 우선 그런 경우에 대해서는 RUBi에서 한번도 나오지 않아서 이미지에만 집중하여 질문과 상관없는 결과를 도출하는 문제는 확인하지 못했습니다. 그런데 보통의 경우를 생각하면 이미지는 단순히 참고 가능한 것이고 결국에는 질문-대답을 하기 위한 task 이기 때문에 질문에 bias되는 경우가 훨씬 많을 것이라 생각합니다.
  
  2. answer occurrence와 question의 특정 패턴 사이의 statistcal regularities를 악용하는 경향이 있다는 것을 리포팅하는 논문은 RUBi 이전에도 있었습니다. 그런데 RUBi 같은 경우 간단한 학습 방법으로 debias가 가능했다는 것이 다른 방법론에 비해서 눈에 띄는 방법론이지 않은가 합니다.
  
  감사합니다