[NeurIPS 2022]Learning Debiased Classifier with Biased Committee

안녕하세요. 지난 리뷰에 이어서 학습 데이터 편향으로 발생하는 문제를 해결하는 논문을 리뷰하려 합니다. 지난 리뷰에서는 학습에 악영향을 끼치는 편향은 대체로 학습하기 쉽다는 특징을 이용하여 학습 중에 샘플 별 가중치를 조정하는 편향 해결 방법을 다루었습니다. 본 논문은 역시 편향을 검출하기 위해 “학습이 쉬운” 이라는 편향된 특징의 특성을 이용하는 방법 중 하나입니다. 자세한 내용은 리뷰를 통해서 확인해봅시다.


논문 소개

(편향 문제란) 학습 데이터에서는 종종 의도하지 않은 편향이 발생합니다. 예를 들어 금발인 사람은 대부분 여성의 특징을 가지며 이러한 특징은 수집된 학습 데이터에 반영될 수 있습니다. 이렇게 편향된 데이터로 학습하면 분류기는 여성이라고 분류하기 위해 실제로 여성의 특징과 관계가 없는 금발이라는 특성에 의존하는 편향 문제가 발생하게 됩니다.

참고그림(1): 논문[1]의 Overview

(기존 해결책) 앞선 예시를 포함하여 인종/성별 등 민감한 주제에 대한 잠재된 편향이 해결은 딥러닝 분야에서 집중하는 문제 중 하나입니다. 첫번째 해결 시도로는 편향 특징에 대한 라벨을 직접적으로 이용하는 것이었습니다. 예를 들어 참고그림(1)처럼 데이터의 실제 라벨인 숫자 정보와 편향 라벨인 색 정보를 모두 활용해, 색 편향에 관계없이 숫자 정보를 판별하는 모델을 설계하는 연구[1]가 있습니다. 그러나 이러한 접근 방식은 편향 라벨을 직접적으로 활용하여 어노테이션 비용이 증가할 뿐 만 아니라 사전에 감지하지 못한 편향까지는 예방할 수 없다는 한계가 있습니다. 이를 해결하기 위해 편향 라벨의 필요성을 줄인 접근법이 제안되었습니다. 해당 방법론들은 학습에 악영향을 미치는 편향 데이터가 대체로 학습하기 쉽다는 특징을 지닌다는 인사이트를 기반으로 제안됩니다. 지난 리뷰[2]와 마찬가지로 해당 방법론들은 학습하기 쉬운 특징을 지닌 데이터의 학습 가중치를 낮추어 편향을 해결합니다. 본 논문도 이러한 접근법에 포함하는 방법론 중 하나입니다.

(논문 소개) 조금 더 자세하게 말하자면 기존 방법론들은 학습하기 쉬운 특징을 갖는 데이터를 우선적으로 학습한 Biased Model을 만들고, Biased Model이 학습하지 않은 특징을 학습하도록 하여 Debiased Model을 설계합니다. 이러한 기존 방법론에 대비하여 해당 논문의 장점은 Biased Model의 Committee를 구성한다는 점입니다. 논문은 단일 Biased Model 기반의 편향 해결 방법론이 문제가 있음을 증명하기 위해 아래의 Figure 1의 실험 결과를 제시합니다.

논문 소개-(논문 소개): Debias를 위해 Committee를 구성하는 것의 필요성

먼저 Figure 1(a)는 Learning rate에 따른 Biased classifer가 틀린 예측의 정보입니다. 매개변수인 learning rate에 따라 분류기가 감지하고 학습하는 Bias의 정도가 크게 변화한다는 것을 보이는 실험이며, 단일 Biased Model을 통해 편향 특징을 검출하는 것의 위험성을 보이는 실험입니다. Figure 1(b)도 이와 동일한 실험으로 30개의 초기화만을 달리한 모델간의 예측 유사성을 나타낸 것입니다. 예측 유사성이 낮은것을 통해 Biased model로 학습한 특징이 일관적이지 않고 초기화와 같은 랜덤성에 의존도가 높음을 의미합니다. 마지막으로 Figure 1(c)는 단일 biased model과 제안하는 방법론의 committee biased model이 *bias-conflicting samples에 집중하는 정도를 비교한 것으로, 제안하는 방법이 일관성 있고 더 강하게 bias-conflicting samples의 중요도를 높게 보고 있음을 확인할 수 있습니다.

*bias-conflicting samples: bias 특징을 상쇄할 수 있는 데이터셋. 예를 들어 모자와 선글라스가 동시에 이미지에 존재하는 bias를 가정하면 bias-conflicting sample은 모자 혹은 선글라스만 착용한 이미지

Figure 1(c)의 Enrichment를 수치화하는 수식

위의 Figure 1을 통해 확인한 단일 Biased model의 문제점을 개선하기 위해 본 논문은 commitee를 구성하여 Bias 검출의 안정성을 높이고자 합니다. 제안하는 방법을 통해 파라미터나 랜덤성에 영향을 받지 않고 데이터셋에 실제 편향을 검출하여 이를 완화할 수 있습니다.

방법론

논문은 LWBC (Learning with a Committee of Biased Classifiers)라는 이름으로, Biased Model을 학습하는 새로운 접근 방식을 제시합니다. 이 방법은 Figure 2에서와 같이 세 단계로 이루어집니다:

  1. 자기 지도 학습을 통한 특징 표현 학습: 먼저, 자기 지도 학습을 통해 특징 표현을 학습합니다. 이 표현은 라벨을 사용하지 않기 때문에 편향 없는 특성을 학습한다고 가정합니다. 이 과정에서 학습된 표현은 이후 학습 과정에서 Freeze 하여 업데이트 되지 않습니다.
  2. 여러 개의 편향된 분류기 학습: 그 다음, 이 Freeze 된 모델을 활용하여 여러 개의 보조 분류기를 학습시킵니다. 이 분류기들은 단순한 구조(두 개의 완전 연결 계층)로 설계되었으며, 의도적으로 서로 다른 편향을 가지도록 합니다.
  3. Main classifer(g)의 학습: 마지막으로 commitee를 활용하여 Debiased Model인 g를 학습합니다.

이어서 각 단계를 자세하게 설명하겠습니다.

  • 자기 지도 학습을 통한 특징 표현 학습
    본 논문은 Debiased Model 설계를 위해 Self-supervised Learning을 통해 설계한 모델의 표현력을 활용합니다. 해당 학습을 위해서 논문은 BYOL[3] 을 활용합니다. BYOL은 augmentation을 다르게 가한 동일한 이미지에 대한 예측이 일관되어야 한다는 통찰을 기반으로 설계된 학습법입니다. 해당 방법 기반의 학습은 이미지 단위로 표현력을 학습하기 때문에 라벨 간의 연관관계가 적어 biased 위험이 적으며, 실제로 Self-supervised를 이용할 때 bias 현상이 완화됨을 확인했다고 합니다. 이에 대한 근거는 실험 부분에서 확인해보겠습니다. 그러나 Self-supervised 모델의 representation을 활용하여 empirical risk minimization(ERM) 학습, 즉, 일반적인 target task에 대한 find tuning 을 진행하면 Biased 가 발생합니다. 이는 self-supervised learning 단독으로는 biased 문제를 완벽하게 해결할 수 없음을 의미합니다.
  • 여러 개의 편향된 분류기 학습
    biased 문제를 완전하게 해결하기 위하여 본 논문에서는 bias 완화 능력을 갖춘 self-supervised learning 기반의 representation 능력을 활용해 classifer committee를 구성합니다. 예측의 robustness를 개선하기 위해 앙상블 모델을 활용하는것과 유사한 접근이라고 이해하시면 됩니다. committee를 구성하는 방법은 아래의 Algorithm1과 같습니다.

먼저 전체 학습 데이터(D)를 활용해 m개의 subsets(S1, … Sm) 을 생성합니다. 다음으로 m개의 subsets을 이용해 학습할 보조 분류기(f1, … fm)와 메인 분류기(g)를 초기화 합니다. 이후 학습 과정에서는 bias를 해결할 bias-conflicting samples를 찾아 학습에 높은 가중치를 부여하기 위해 사용될 committee를 구성을 위해, 앞서 선별한 subsets을 활용하여 보조 분류기를 학습하는 warm-up stage가 우선됩니다. 학습 데이터의 다양한 편향적 특성이 반영된 보조 분류기를 활용해 전체 데이터셋에 대한 가중치를 생성하는 수식은 아래의 수식(2)와 같습니다.

수식(2)

수식(2)에서 m은 committee의 크기이고 α는 매개변수 입니다. 수식(2)는 m개의 보조 분류기 예측의 일관성을 기반으로 샘플의 중요도를 산출하며, 보조 분류기의 예측이 모두 옳을 경우 가중치는 1에 가까워지고, 예측이 틀리는 보조 분류기가 많아질 수록 해당 샘플에 학습 가중치는 증가합니다. 즉, 보조 분류기 예측이 일관되지 않을 수록 “학습 하기 쉬운 연관관계를 포함하지 않은” bias-conflicting samples이라 판단하여 학습 가중치를 높이는 것 입니다.

  • Main classifer(g)의 학습
    앞서 소개된 수식(2)를 활용하여 main classifier를 학습하게 되며, 해당 과정은 위 Algorithm1의 main classifer training 과정에 해당합니다. 먼저 committee로 부터 산출한 샘플 별 가중치를 cross entropy loss에 곱하여 bias-conflicting samples에 강한 가중치를 둔 weighted cross-entropy 를 학습합니다. 이후 main classifer의 representation 변화를 committee에 반영하기 위해 KD loss를 통해 메인 분류기(g)를 활용하여 m개의 보조 분류기(f)의 파라미터를 업데이트 합니다. 이러한 학습과정을 iteration 만큼 반복하여 debiased 된 최종 mian classifer, g를 학습하게 됩니다.

실험

샘플별 가중치에 대한 정성적 결과:

Figure 4. Qualitative Results

먼저 위의 Figure 4는 제안하는 LWBC를 활용해 산출한 샘플별 학습 중요도 결과입니다. Figure 4(a)를 보면 “금발-남성”의 bise-confliting 특성을 갖는 데이터에 높은 가중치가 매겨짐을 확인할 수 있으며, “물-다이빙” 이라는 bias feature가 포함된 데이터의 경우 낮은 가중치가 매겨져 학습 중 bias에 의한 악영항을 예방할 수 있음을 정성적으로 확인할 수 있습니다.

기존 방법론과 비교:

논문은 제안하는 방법을 다양한 데이터셋에서 비교 방법론 대비 우수함을 보였습니다. 또한 앞서 방법론 소개에서 다루었던 것 처럼 SSL을 통해 학습한 representation이 bias를 완화하는 효과가 있음을 실험을 통해 보였는데요, SSL+ERM 이라는 단순한 접근법이 기존 Debiseing 방법론에 상응하는 결과를 냄을 통해 이를 증명했습니다. 실험 결과는 6가지 방식(Validation/Test & Guiding & Conflicting & Unbiased & Worst-group & Indistribution)으로 리포팅 되었습니다. 각 리포팅 방식에 대한 설명은 아래와 같습니다. (*지표가 다양하여 어렵다면 Validation/Test 혹은 Unbiased성능에 집중하시면 됩니다.)

  • 리포팅 방식
    1. Validation/Test: 일반적인 리포팅 방식으로 validation/test set에 대한 평균 accuracy
    2. Guiding: bias guidning samples에 대한
    3. Conflicting: bias-conflicting samples에 대한 평균 accuracy
    4. Unbiased: GuidingComflicting의 평균
    5. Worst-group: 데이테셋의 bias를 활용해 구성된 그룹의 정확도 중 가장 낮은 정확도
    6. Indistribution: group의 accuracy를 가중합한 결과. training data의 각 group에 대한 상대적인 크기를 기반으로 가중치를 산출함

실험에 사용된 데이터셋은 CelebA, ImageNet-9, ImageNet-A, BAR, NICO 입니다. CelebA는 기존 debiased 연구에서 주로 사용되는 데이터셋이며 BAR, NICO는 real-world datasets에 가깝습니다. 또한 ImageNet-9는 각각 9개의 class로 구성된 ImageNet의 subsets으로 context correlations을 포함하고 있습니다. context correlations이란 ship 클래스에, ship과 본질적으로는 관계없는 sea라는 contexts와 관계성을 포함하는 상황을 의미합니다. 이처럼 context correlations라는 bias가 포함된 데이터로 학습을 한후 ImageNet-A을 활용해 검증하도록 구성되었습니다. 우선, Debiased method의 대표적인 데이터셋인 CelebA의 실험 결과를 살펴보겠습니다. CelebA의 경우 HeavyMakeup과 Haircolor에서 발생하는 bias에 집중하여 평가가 이루어졌으며 통합 지표인 Unbiased accuracy에서 제안하는 방법론이 기존 방법론 대비 우수함을 보였습니다. 또한 이전 리뷰에서도 보았던 Group DRO[4]와 같은 bias supervision 방법론과도 비교하여 제안 방법론이 전반적으로 우수함을 증명했습니다.

Results for CelebA

또한 real world data인 ImageNet-9/A(Table3), NICO와 BAR(Table4)에서도 비교 방법론 대비 높은 정확도를 보이며 우수성을 검증했습니다.

Results for Real-world data

Ablation studies:

Ablation studies results
Results on Supplement

논문은 Ablation studies를 통해 제안하는 각 모듈(Commitee/KD)이 모두 debiased에 긍정적 효과를 미침을 증명하였습니다. 해당 테이블의 Worst-group을 리포팅한 이유는 방법론에 따른 극적인 성능 개선을 보이기 위한것으로, supplement에 다른 지표의 성능역시 리포팅(Table 8 참조)하여 제안 모듈들의 우수성을 확실하게 보였습니다.

관련 문헌

[1] 참고그림(1): Learning Not to Learn: Training Deep Neural Networks with Biased Data (CVPR 2019)

[2] 지난 리뷰: Learning from Failure: Training Debiased Classifier from Biased Classifier (NeurIPS 2020)

[3] BYOL: Bootstrap your own latent: A new approach to self-supervised learning (NeurIPS 2020)

[4] Group DRO: Distributionally robust neural networks (ICLR 2019)


지난번 리뷰에 이어서 bias를 완화하는 연구에 대해 다루었습니다. 본 논문을 통해 self-supervised가 bias 현상 완화에 도움이 됨을 알 수 있었으며, freeze 된 SSL weight를 활용하여 committee를 구성하는 효율성 높은 debiasing 방법을 알아보았습니다. 또한 committee를 활용해 sample의 easiness를 정의하는 방법은 다른 연구에서도 착안하기 좋을 것 같습니다. 이상으로 해당 논문에 대한 리뷰를 마치겠습니다

Author: 황 유진

5 thoughts on “[NeurIPS 2022]Learning Debiased Classifier with Biased Committee

  1. 안녕하세요 황유진 연구원님 좋은 리뷰 감사합니다.

    데이터를 쪼개고, 분류기도 여러개써서 가급적 편향을 줄이려는 시도를 한 것 같은데요,
    데이터를 어떻게 쪼개는지 분류기를 어떻게 초기화할지에 대해서도 찾은 편향이 무척 다를 것 같습니다.
    혹 해당 논문에서는 이를 예방하기 위해 반복실험을 했다는 등의 처리가 있었나요?

    1. 안녕하세요 좋은 질문 감사합니다

      저자들은 제안 방법론에 대해 3번 반복실험을 통해 그 편차와 평균을 리포팅했습니다.
      예측하기에 Fig 1(c)에서 확인할 수 있듯이 초기화등의 하이퍼파라미터에 의한 성능 변화는 기존 논문 대비 적을것으로 예측됩니다.

      감사합니다.

  2. 리뷰 잘 읽었습니다.

    본 논문도 그렇고, 이전 연구들도 그렇고 어쨌든 큰 틀이 1. 학습하기 쉬운 특징으로 biased 모델 학습, 2. biased 모델이 학습하지 않은 특징으로 debiased 모델 학습. 이런 흐름인 듯 합니다.

    그런데 음.. 그냥 바로 2 를 하면 안되는건가요? 마치 A,B 지식 중 B를 배우고 싶은 상황에서, B만 바로 배우면 되는데 A를 배운 후 그 여집합을 배우는 느낌이라서요

    이런 흐름을 가졌을때의 학습 관점에서의 모델적 장점(?) 이 궁금합니다.

    감사합니다.

    1. 안녕하세요 좋은 질문 감사합니다

      제안 방법론의 경우 biased label이 존재하지 않기 때문에
      학습 중에 발견 가능한 biased feature의 특징을 유도한 debiased model을 기준으로 bias를 제거합니다.
      바로 debiased를 진행하기 위해서는 biased label이 필요한 것이 일반적입니다.

      감사합니다.

  3. 안녕하세요, 황유진 연구원님. 좋은 리뷰 감사합니다.
    요약하면, committee를 구성해 각 훈련 sample에 얼마나 bias한 특성을 포함하고 있는지 가중치를 적용해 학습한 방법론으로 이해했습니다.
    리뷰를 읽다 보니 몇가지 궁금한 점이 생겼습니다.

    1. Figure 1의 a,b,c는 각각 단일 모델을 이용한 bias측정이 적절하지 않다는것과, committee를 구성하는것이 유리하다는것을 보이는 자료로 이해했는데, 해당 부분의 (c)에 질문이 있습니다. 해당 x축의 scale factor와 y축의 enrichment가 정확히 어떤 것을 의미하는 것인가요? 높은 enrichment가 bias-conflicting sample에 더 많은 가중치를 부여한다는것 같은데.. bias-conflicting sample에 집중한다는것이 bias에 덜 의존한다는 뜻인가요?
    2. 보조 분류기 f들의 역할은 각 sample들에 weight를 부여하는것으로 이해했는데, 맞을까요?
    3. main classifier g에서 f로 KD를 진행하는 목적이 무엇인가요??

    답변 주시면 감사하겠습니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다