[NeurIPS 2020] Learning from Failure: Training Debiased Classifier from Biased Classifier

안녕하세요. 오늘 논문에서는 딥러닝 모델을 학습할때 발생할 수 있는 편향문제에 대해 다룬 논문을 소개하려 합니다. 소개할 논문에서 다루는 편향 문제란, 수집한 학습 데이터의 분포에 의도하지 않은 속성때문에 학습에 어려움을 겪는 상황을 말합니다. 조금 더 자세한 소개는 리뷰에서 다루어보겠습니다. 그럼 시작하겠습니다.

논문 소개

딥러닝 모델의 학습 과정은 주어진 데이터셋에서 패턴을 찾아내어 이를 기반으로 예측하는 것입니다. 하지만, 현실의 데이터셋은 다양한 이유로 인해 의도하지 않은 상관관계를 포함할 수 있습니다. 예를 들어, 오리라는 클래스에 속한 데이터는 물을 배경으로 하는 이미지가 많을 가능성이 높습니다. 이처럼 특정 객체가 특정 배경에서만 등장하는 경우, 모델은 객체 자체보다는 배경에 의존하여 객체를 분류하도록 학습 될 수 있습니다. 이미지에서 물이 등장할 경우 오리라고 오분류 하게 되는 현상이 발생 할 수 있죠. 즉, 데이터에 편항은 입력에 대한 모델이 예측에서 의도하지 않은 특성에 의존하게 만들어 오분류를 유도할 수 있습니다. 실생활에 해당 기술을 이용하는 직관적인 태스크로는 인종/성별에 따른 수집데이터의 특성때문에 분류기가 의도하지 않은 특징을 학습하게 되는 경우입니다. 예를 들어 긴 금발의 경우 백인 여성인 데이터가 많이 수집되었다면, 모델은 인종을 예측할때, 금발을 포함하면 백인으로 예측할 수 있습니다. 이는 해당 연구가 해결하는 문제와 중요도를 잘 보여주는 예시중 하나이죠. 위의 Figure 5는 Training datasets에 Bias가 표함된 경우를 잘 보여주는 예시입니다. Figure 5 (d)의 경우 학습을 통해 도로가 Racing 특성의 일부라고 학습한 모델은 도로가 포함되지 않은 Racing 장면에 대해 올바른 예측을 하기 힘듭니다. 본 논문은 이러한 현상을 막기 위해 Debiased 방법론을 제안해 인공지능이 올바른 특성에 집중하도록 해결책을 제시합니다.

기존 연구

본 논문에서 다루는 연구는 Debias에 관련된 분야입니다. 데이터셋에 포함된 편향으로 인한 문제를 가장 직관적으로 예방할 수 있는 방안은 데이터셋에서 잘못된 상관관계를 명시적으로 라벨링하는 것입니다. 초반의 연구에서는 명시적으로 라벨링 된 데이터셋을 활용해 지도학습 방식으로 Debiase를 진행하기도 했습니다. 그러나 이 방법은 많은 인력과 시간이 소요된다는 한계를 내제하고 있으며 모든 잘못된 상관관계를 사전에 정의하는 것이 불가능하다는 한계가 있어, 최근에는 명시적 라벨을 필요로 하지 않는 Debiasing 방법이 많이 등장하고 있습니다. 이런 방법론은 특정 텍스처에 대한 Bias 해소를 위해 Data augmentation을 포함하거나 Hand-crafted model을 설계해 Bias를 캡쳐하고, 캡쳐한 Bias 특성의 영향력을 학습에서 배제하기 위해 Domain adversarial loss를 적용하기도 합니다. 그러나 대부분의 해당 방법의 연구에서 라벨이 없더라도 Bias가 발생하는 요소 (ex. 성별/인종/색/텍스처 등)에 대한 사전 정의를 요구한다는 한계가 있습니다.

다른 주된 해결 방식으로는 Biased model을 활용한 Debiasing 방법은 입니다. 해당 방법은 의도적으로 Biased model을 설계(금발을 보면 백인이라고 예측하는 인종 분류 모델)하고 이를 활용하여 Debiasing 모델을 설계하는 방법입니다. 이는 명시적 라벨을 사용하지 않기 위해 연구되는 방법 중 하나이나, 앞서 밝힌것처럼 Bias가 발생하는 요소에 대한 정보는 필요로 하는것이 일반적입니다. 해당 접근법은 일반적으로 쉽게 알 수 있는 Bias를 제거하기 위해 연구된다는 특징이 있습니다. 따라서 드러나지 않는 Bias에 대해서는 적용할 수 없다는 한계가 있죠. 즉 앞서 언급한 명시적 라벨을 필요로 하지 않는 Debiasing 방법이 발전한 형태 중 하나입니다.

해당 방법론은 Biased model을 설계해 Debiasing 하는 접근법에 속하는 연구입니다. 그러나 Bias에 대한 사전 정보를 필요로 하지 않는다는 점이 특징입니다. 따라서 드러나지 않은 Bias에 대해서도 해결할 수 있다는 장점이 있죠. 사전정보 없이 Bias를 제거하는 방법을 어떻게 설계하였는지 방법론 소개를 통해서 알아보겠습니다.

Motivation

방법론 소개에 앞서 해당 논문의 Motivation을 통해 연구를 이해해 보겠습니다. 해당 연구가 제시하는 Motivation은 “쉬운 Bias만이 악영향을 끼친다” 입니다. 즉 Bias가 발생하더라도 이것이 Target information 보다 학습이 쉬울 경우에만 학습에 영향을 미칠 수 있다는 뜻입니다. Table1은 Biased의 영향력을 확인하기 위해 설계된 자료1(a)Colored MNIST와 자료1(b)Corrupted CIFAR-10에서 Target과 Bias를 바꾸어가며 실험한 결과입니다. MNIST에서 Color가 Digit의 형태보다 더욱 단순한 특징인데요, 따라서 Color를 Target으로 학습하였을 때는 Color와 상관없는 Bias 정보인 Digit이 Debiasing 여부에 따라 성능의 등락이 거의 없었습니다. 즉 주황색이 0이라는 특징으로 학습하기가 0의 형태보다 학습하기 매우 쉽기 때문에, bias정보인 0의 형태를 학습할 필요가 없어지는 것 입니다. Corrupted CIFAR-10(1,2)에서도 동일한 결과임을 확인할 수 있습니다. 이러한 실험을 통해 논문의 실험진은 모든 Bias가 학습에 영향을 미치는 것이 아니라는것을 알게되었고, 학습에 영향을 미치는 Bias의 “쉬운”이라는 특징을 활용해 Debiased model을 설계했습니다.

방법론 소개

이 논문에서는 모델을 훈련할 때 생길 수 있는 편향 문제를 해결하기 위해 Motivation에서 찾은 인사이트를 활용하여 Learning from Failure(이하 LfF)를 제안합니다. 해당 방법론은 기존 Biased model 기반의 Debiasing 연구처럼 Biased Model을 학습하고 이를 활용해 Debiased model을 학습하는 프로세스를 갖으며, Biased model을 Biase에 대한 사전 정보 없이 학습하는 구조를 제시한것이 특징입니다.

논문은 학습에 영향을 미치는 Bias가 학습이 “쉽다”는 특징을 Biased model 학습에 활용하기 위해 Generalized Cross Entropy(이하, GCE) Loss[1]를 사용하여 초기 단계에서 모델의 예측을 강화합니다. 이를 통해 Biased model은 쉽게 학습할 수 있는 샘플들(주로 편향 속성과 일치하는 샘플들)을 더 중점적으로 학습하게 됩니다. GCE Loss의 특성에 대해 조금 더 알아보자면 아래와 같습니다.

위 수식에서:

p(x; θ)는 모델의 소프트맥스 출력입니다.
p_y(x; θ)는
p(x; θ) 중, 타겟 속성 y에 할당된 확률입니다.
q는 하이퍼파라미터로, 일반적으로 (0, 1] 범위 내에서 설정됩니다. 이 값은 편향의 증폭 정도를 조절합니다.

또한 q가 0에 가까워질 때, GCE는 일반적인 교차 엔트로피 손실에 수렴하게 되는 특징이 있습니다:

lim(q → 0) (1 - (p_y(x; θ))^q) / q = -log p_y(x; θ)

즉, GCE 손실은 기존 교차 엔트로피 손실과 비교하여, 타겟 속성에 높은 확률을 할당한 “쉬운” 샘플의 기울기를 더욱 강조하는 특성을 갖습니다. 이는 모델이 쉽게 학습할 수 있는 특징에 편향된 학습을 강화하는 데 도움을 줍니다.

이후로는 기존 Biased model을 활용한 Debiase 연구와 유사한 프로세스로 Bise 를 제거하는데요, GCE Loss를 활용하여 학습한 모델이 학습에 어려움을 겪는 정보를 학습하도록 유도합니다. 위의 Algorithm 1에서 확인 할 수 있듯이 Biased Model을 활용해 생성하는 가중치 W(Relative difficulty score)로 CE Loss를 조절하는 방식입니다. Relative Difficulty Score는 다음과 같은 방식으로 정의됩니다:

위 수식의 의미는 “샘플이 얼마나 Biase-conflicting 한가”를 수치화한 것입니다. 이때 Biase-conflicting이란 학습에 방해되는 편향을 의미합니다. Label 없이 Biase-conflicting을 수치화 하기 위하여 논문은 Biased model과 Debiased model의 출력 차이를 이용합니다. 여기서 ( f_B(x) )와 ( f_D(x) )는 각각 Biased model과 Debiased model의 소프트맥스 출력값을 나타내며, CE는 교차 엔트로피 손실을 의미합니다.

Biased model은 쉬운 데이터를 강력하게 학습했기 때문에, biase conflicting 이 발생할 때, Debiased model 보다 Loss가 크게 됩니다. 따라서 가중치가 1에 가까워지며 biase conflicting 이 발생한 해당 샘플에 대해 학습 중요도가 높이는 방식으로 해당 수식이 설계되었습니다. 이러한 GCE를 활용한 Biase model 학습과 Debiased model 학습을 반복하며 Debiasing을 하는 것이 제안 방법론의 특징입니다.

실험

실험은 비교적 간단한 데이터셋으로 구성된 Controlled experiments(Colored MNIST, Corrupted CIFAR-10)과 비교적 복잡한 데이터셋(CelebA, BAR[상단 Figure5])으로 구성한 Real-world experiments로 구성됩니다. 두 실험을 통해 제안 방법론이 기존 방법론 대비 우수하며, Real-world data와 같은 복잡한 데이터에도 적용 가능함을 보입니다.

Controlled experiments

논문에서는 LfF 알고리즘과 다른 디바이싱(debiasing) 알고리즘들과의 성능을 비교하였습니다. 비교된 알고리즘으로는 특정 편향 유형을 전제로 하거나 추가적인 편향 레이블에 접근해야 하는 방법들이 포함되었습니다. 구체적으로, HEX, REPAIR, Group DRO 등이 비교군으로 사용되었습니다. 실험 결과, LfF 알고리즘이 명시적인 편향 레이블이 없는 경우에도 효과적으로 Debiased Model을 학습할 수 있음을 보여주었습니다. 제안된 LfF 알고리즘은 모든 데이터셋의 편향 충돌 샘플과 편향 비충돌 샘플에서 다른 모델들에 비해 일관되게 높은 성능을 보였습니다. 특히, 편향된 데이터셋에서 높은 비율의 편향 정렬 샘플이 존재하는 경우에도 LfF 알고리즘이 우수한 성능을 나타냈습니다. 아래에 실험에 사용된 모든 Vanilla 모델은 Debiasing 알고리즘을 사용하지 않고 학습하였을 때의 결과로 Baseline이라고 생각하시면 됩니다.

Real-world experiments

CelebA는 얼굴 이미지와 다양한 속성(HairColor, EyesColor 등)을 포함하는 데이터셋입니다. 실험에서는 HairColor와 HeavyMakeup을 Target 속성으로 설정하고, Gender를 Biased 속성으로 사용하여 성능을 평가했습니다. 실험 결과 제안된 LfF 알고리즘이 편향된 학습 데이터에서도 우수한 성능을 보여주었으며, Biased Label을 필요로 하는 방법인 Group DRO와 유사한 성능을 보이며, Real-world 세팅에서 추가적인 편향 속성 레이블링 없이도 효과적으로 동작함을 증명했습니다.

또한 글의 상단에 Figure5에서 확인할 수 있는 BAR 데이터셋은 현실 세계에서 발생할 수 있는 편향 문제를 해결하기 위해 고안된 데이터셋으로, imSitu 데이터셋에서 행동과 장소 레이블을 사용해 구성되었으며, 여섯 가지 일반적인 행동-장소 쌍을 포함하고 있습니다. 해당 데이터셋 에서도 유사 방법론(bias label을 필요로 하지 않는 방법론)인 ReBias[2]보다 우수한 성능을 보이며 제안 방법론의 우수성을 보였습니다.

4 thoughts on “[NeurIPS 2020] Learning from Failure: Training Debiased Classifier from Biased Classifier”

김 주연 says:

08/25/2024 at 21:01

안녕하세요. 좋은 리뷰 감사합니다.

bias와 관련한 논문을 읽으면서, 줄곧 의문이 된 부분이 있었는데,
1) bias는 어떻게 정의할 수 있는 것인가?
2) bias 되는 것이 나쁜 것인가? (성능적으로, 혹은 성능이 아닌 다른 부분에서)
3) unbiased 된다고 해서 성능이 반드시 오르는 것인가?
등등이 있었던 것 같습니다.

그런데, 본 논문에서 Bias가 Target Task에 비해 쉬운 경향이 있다라고 발견하였는데 세미나를 들으면서, 리뷰를 읽으면서 감탄한 부분이 아닌가 싶습니다.

본 논문에서 살짝 아쉬운 부분은 논문 저자가 직접 Target attribute (bias 요소로 추정되는 것들)인 ‘HairColor’, ‘HeavyMakeup’을 지정했다는 것인데, 만약에 bias된 모델을 통해서 어떤 기법을 사용하여 ‘target ottribute 지정 -> 모델로 확인’아닌, ‘bias된 모델 -> 어떤 기법 -> target attribute 추출’을 할 수 있다면 좋을것 같습니다.

뭔가 주저리주저리 쓰다보니 감상평을 쓰게 된 것 같은데, 그런 의미에서 이전에 초청세미나 때 조재원 교수님께서 추천해주신 ICCV 2021 논문인 Greedy Gradient Ensemble for Robust Visual Question Answering을 추천드립니다. multimodal 논문이라 fit이 잘 안맞을수도 있지만… 혹시 몰라 추천드립니다~

1. 황 유진 says:
  
  09/23/2024 at 14:02
  
  안녕하세요
  
  리뷰를 혼란스럽게 작성한 점에 죄송한 의견입니다
  
  우선 본 논문은 저자가 직접 target attribute을 지정하지 않았습니다. 방법론의 효과를 증명하기 위한 실험에서 사용한 평가 데이터셋의 설명과 혼란이 있었던 것 같습니다. 라벨링을 위해 ‘HairColor’, ‘HeavyMakeup’과 같은 특징을 편향 특징으로 지정하였지만, 이는 평가를 위한 데이터셋의 세팅일 뿐 해당 방법론은 biased 특징에 대해 모델이 직접 정의함을 말씀드립니다.
  
  논문 추천 감사합니다.
  
허 재연 says:

09/22/2024 at 23:24

안녕하세요, 황유진 연구원님. 좋은 리뷰 감사합니다.
막연하게 알고만 있던 내용이었는데, 리뷰로 다뤄주셔서 해당 task와 방법론들의 접근법에 대해 알 수 있게 되었습니다. 쉬운 bias를 이용하여 shortcut을 막아보자..라는 느낌의 논문이네요.

실험 부분에서 궁금한 점이 있습니다. CIFAR나 MNIST같은 간단한 데이터셋의 경우 편향을 인위적으로 만들기가 쉽지만, real world 데이터는 데이터의 구성이 복잡하니 보다 다양한 bias가 녹아들어있을 것 같은데요, real world dataset들은 구체적으로 어떤 편향성이 포함되어 있나요?

감사합니다.

1. 황 유진 says:
  
  09/23/2024 at 14:06
  
  real world dataset에는 정의할 수 없는 bias가 상당히 많이 포함되어 있을것 같습니다.
  먼저 해당 연구에서 real-world dataset으로 소개된 BAR 데이터의 경우 Diving – Blue color와 같은 편향 특징이 포함되어 있습니다. Blue color가 Diving이라는 액션의 고유 특징은 아니기 때문입니다.
  
  그 외에도 데이터셋 bias에 대한 개인적인 의견을 말씀드리자면, 학습에서 의도하지 않은 특징이 모두 편향 특징이 될 수 있다고 생각합니다.

[NeurIPS 2020] Learning from Failure: Training Debiased Classifier from Biased Classifier

논문 소개

기존 연구

Motivation

방법론 소개

실험

관련 문헌

Author: 황 유진

4 thoughts on “[NeurIPS 2020] Learning from Failure: Training Debiased Classifier from Biased Classifier”

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment