[ECCV 2024] Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data

올 초부터 (Online) Test-Time Adaptation(TTA) 분야의 논문들을 적지 않게 읽어왔습니다.
최근 TTA 논문들에서 핵심적으로 문제삼는 것들 중 하나는 long-term TTA 수행 속 마주하는 Catastrophic forgetting 입니다. 초기에 offline 에서 학습했던 source dataset의 지식이 오랜 TTA 수행 때문에 망각되는 문제이죠.

물론 long-term TTA를 어쩔 수 없이 수행해야 하는 상황이라면 Catastrophic forgetting이 매우 치명적인 문제일 수 있는데, 모든 application 에서 long-term TTA 를 수행해야 하는 것은 아닙니다. 가령 모빌리티 상황이 아닌 휴대폰의 특정 앱에 TTA 알고리즘을 탑재했다고 생각했을 때, TTA를 굳이 long-term 하게 수행하지 않고 중간중간에 사람 등이 개입할 수 있게 됩니다. 실시간성이 크게 중요하지 않는 상황이라면 TTA 수행 중간중간에 사람 등이 개입해서 모델을 조정한다거나, 추가적인 signal을 부여할 수 있을 것이라는 거죠.

그런 관점에서 좀 새로운 시각으로 TTA, 그리고 DA 분야의 논문들을 한번 찾아보게 되었습니다. Active TTA(DA), DA with human in the loop 등 새로운 키워드들이 많이 등장하였고 이들 중 제목 속 user feedback 이라는 키워드에 이끌려 본 논문을 읽고 리뷰해보게 되었습니다. 참고로 본 논문은 TTA 가 아닌 Semi-Supervised Domain Adaptation 분야의 논문입니다. 바로 리뷰 시작하겠습니다.
(+ KAIST와 Lunit 의 공동 연구입니다.)

1. Introduction

Domain Adaptation(DA) 라는 키워드는 이제 다들 어느정도 익숙하실거라 생각이 듭니다. source dataset으로 학습된 모델이 새로운 환경의 target domain (deployed domain) 에서 성능 하락이 발생하게 되는데 이를 완화하기 위한 방법론이죠.

일반적으로 DA 분야를 생각했을 때, Unsupervised Domain Adaptation(UDA), Semi-Supervised Domain Adaptation(SemiSDA), 그리고 Source-Free Domain Adaptation(SFDA) 가 이에 포함됩니다.
UDA는 labeled source에서 unlabeled target로의 상황을, SemiSDA는 target 중 일부만 labeling이 되어있는 경우를, 그리고 SFDA 는 source dataset은 사용하지 않고 target dataset만으로 DA를 수행하는 기법입니다.
SFDA는 보안 등의 이슈, 그리고 edge device 에서의 메모리 제한조건이 있을 때 효과적으로 적용할 수 있는 DA 기법이며, target dataset만으로 DA를 수행한다는 점에서 TTA와도 컨셉이 유사합니다.

실제 머신러닝(ML) application의 관점에서 봤을 때, 사용자(user)가 마주한 target domain 에서의 모델 성능을 개선하기 위해서 사용자가 직접 feedback 을 제공하는 경우가 있습니다. 하지만 이런 feedback 을 기반으로 DA를 수행하는 연구는 아직 개선할 점이 많다고 합니다.

사용자가 직접 feedback을 제공하는 것을 예로 들어보자면 얼굴 인식 (face recognition) application 이 있는데, 모델이 잘못 예측한 sample에 대해 사용자가 직접 이를 수정하는 feedback을 제공할 수 있습니다. 아래 그림 1-(a)를 보시면 모델이 Not Lucy라고 예측한 3번째 sample에 대해 사용자가 Lucy 라고 feedback을 주는 것이 이 예입니다.

DA 관점에서 일부 sample에 대해 feedback 부여하는 것을 생각해볼 때 이는 target dataset에 대해 일부 labeling한 후 DA를 수행하는, 즉 SemiSDA 라고 생각할 수 있습니다. 이러한 상황 속 SemiSDA 기법을 적용하게 된다면 feedback을 기반으로 성공적인 adaptation 성능을 달성할 수 있을 것이라 생각할 수 있죠. 하지만 위 그림 1-(b) 의 진한회색 성능을 보면 사용자의 feedback을 기반으로 SemiSDA 를 수행했음에도 불구하고 오히려 성능이 제일 낮은것을 볼 수 있습니다.

저자는 이에 대해 Negatively Biased Feedback (NBF) 라는 새로운 개념을 제시합니다. 이름에서도 짐작 가듯이, 사용자의 feedback이 부정적인 쪽으로 bias 되어서 오히려 adaptation 에 방해가 된다는 것이죠. 그리고 이 NBF는 ‘사용자의 feedback이 모델의 incorrect predictions로 부터 비롯된다, 즉 모델이 틀린 예측을 한 sample 에 대해 feeback을 제공한다’ 라는 관찰(observation)에 기반합니다.
예를 들어 흉부 엑스레이 영상에서 특정 병을 판단하는 모델이 있다고 할 때, 방사선 전문의는 모델이 오진한(incorrect) 흉부 엑스레이 sample에 대해 feedback을 모델 측으로 전송한다고 합니다. 이런 incorrect sample 하나하나가 환자의 생명과 직결하기 때문이죠. 그리고 이는 인간이 부정적인 사건 (= incorrect sample, wrong model prediction)에 반응하고 feedback 을 제공할 가능성이 더 높다는 몇몇 인지 심리학의 연구 결과와 일치하다고 합니다.

이렇듯 저자들은 실제로 사용자가 주는 feedback이 부정확한 sample에 bias 되는, 즉 Negatively Biased Feedback (NBF) 이 실제로 실현된다는 것을 입증합니다. 그리고 위 그림 1-(b) 의 연한회색(Random Feedback, RF), 진한회색(NBF) 을 비교하여 이전 SemiSDA 방법론이 NBF 에 대해 sub-optimal한 adaptation 성능을 기록한다고 말합니다.
RF는 일반적인 SemiSDA 방법론에서 사용하는 방식으로, 전체 target dataset중 일부를 랜덤하게 라벨링하는, 즉 랜덤하게 feedback을 부여하는 방식입니다.

아무튼 저자들은 이전 SemiSDA 방법론들이 실제 상황에서 발생하는 NBF 에 대해 오히려 대처하지 못한다고 말하며, Retrieval Latent Defending 이라고 하는 기법을 제안합니다. 이는 이전 SemiSDA 방법론에 plug-in 방식으로 합칠 수 있다고 합니다. 제안된 기법을 통해 특정 방향(negative)으로 biased 된 feedback에 의존하지 않고 효과적으로 모델을 adaptation 할 수 있다고 합니다.
구체적인 방법론은 아래에서 설명드리겠습니다.

2. Negatively Biased Feedback (NBF)

2.1. Adaptation with user feedback

본 논문에서 설계한 큰 틀의 셋업은 위 그림-2 와 같습니다. 우선 Source dataset $D_s$ 에 대해 모델을 학습시키고 (좌), 스마트폰이나 병원과 같은 실제 target domain 상황으로 모델을 deploy 하게 됩니다 (중간). 이후 adaptation이 진행되게 될텐데 일반적인 SemiSDA 방법론과는 달리 Source dataset $D_s$ 로의 접근이 불가능하다는 제약조건을 겁니다. 마치 SFDA의 셋업과 동일하며, 본 논문에서 주로 다루는 의료용 데이터셋이 아무래도 data privacy가 있기 때문에 이러한 조건을 건 것 같습니다. 결론적으로 본 논문에서 수행하는 task는 제목에서도 알 수 있듯이 Semi-Supervised Domain Adaptation without Source Data 입니다.

source dataset $D_s$ 에 대해 학습된 모델이 target domain에 deploy 되었을 때 target dataset $D_t$ 를 마주하게 됩니다. 그리고 경우에 따라 사용자(user)의 feedback 에 의해 annotation y 를 얻게 되죠. 수식으로 표현하자면 $D_t = X_t^{lb} \cup X_t^{ulb}$ 가 됩니다.
그리고 실제 application 관점에서 SemiSDA 알고리즘은 inactive phase, 즉 사용자가 application을 사용하지 않는 밤 시간대 등에 동작하게 됩니다. TTA 가 아니다 보니 실시간-online adaptation은 불가능하고, 그렇기에 사용자가 application을 사용하지 않는 시점에 호다닥 adaptation을 수행하게 됩니다.

Rethinking user-provided feedback

일반적인 SemiSDA 연구에서는 target data중 일부를 labeling 할 때 랜덤한 방식으로 feedback 을 제공합니다. 하지만 앞서 설명드렸다시피 심리학적으로도, 그리고 실험/경험적으로도 사용자들은 source model이 잘못 예측한 negative sample 에 대해서 feedback을 부여하는 경향이 있죠. 이를 negatively biased feedback (NBF) 라고 칭하였습니다.

앞서 intro에서 설명드린 방사선 전문의의 흉부 엑스레이 사진 말고 자율주행 관점에서도 NBF 가 발생할 수 있습니다. 가령 자율주행 자동차를 타고 있는 사용자가 i) object detection 실패 케이스, 혹은 ii) 네비게이션 실수 등과 같은 오류들을 feedback으로 모델 측에게 전달해서 기능을 향상시키는 것이죠.

그런데 사실 NBF는 결국 모델이 틀린 예측에 대해서 feedback을 제공해 주는 것이기 때문에 ‘어, 그러면 모델 성능 향상의 측면에서 좋은 거 아닌가?’ 라고 생각이 들 수 있습니다. 이러한 의문을 해소시키고자 저자는 다음 단락에서 SemiSDA 수행 속 NBF의 영향에 대해 설명합니다.

2.2. Influence of NBF on SemiSDA

Simulation study

SemiSDA 수행 속 NBF가 과연 어떤 영향을 끼치는지에 대해 blobs dataset이라는 간단한 데이터셋으로 simulation study 를 수행합니다.

blobs dataset을 source 와 target으로 나눠 domain shift 상황을 구성합니다. 그리고 모델을 source dataset으로 학습시킨 후 이를 각각 source 와 target dataset에 대해 평가를 진행합니다. 이때의 결과가 위 figure 속 왼쪽 첫번째 sub-figure 위/아래 입니다. domain shift에 의해 accuracy 성능이 98.5%->76.4% 로 감소하였네요.

그리고 source로 학습된 모델을 기반으로 SemiSDA 수행을 위한 feedback 을 제공받은 결과가 두번째 sub-figure(중간) 입니다. 위/아래는 각각 기존 SemiSDA에서 채택하는 random feedback (RF) 방식 (위)와, 본 논문에서 언급한 negatively biased feedback (NBF) 방식 (아래) 입니다. RF는 말그대로 전체 target sample 중 랜덤하게 일부를 선택하는 것이구요, NBF는 source model이 잘못 예측한 misclassified target sample 중에서 일부를 선택하는 것입니다.
선택된 sample들 속 진한 테두리로 표시된 정사각형 sample들을 위/아래로 비교해보시면 RF와 NBF의 차이를 확연하게 보실 수 있습니다. RF 의 경우 전체 cluster내에 골고루 분포되어 있지만, NBF는 boundary 영역에 bias된 채로 선택되었네요.

다음은 앞서 feedback 을 통해 labeling 이 진행된 target sample 을 사용하여 SemiSDA 를 진행하는 단계입니다. sub-figure 속 우측에 해당하죠. SemiSDA 전 후의 각 class별 결정 경계의 변화에 대해 살펴보면, 결정 경계의 생성 위치가 앞서 feedback이 진행된 sample 에 영향을 받는 것을 볼 수 있습니다. NBF의 경우 골고루 선택된 것이 아니라 source model이 틀린, 즉 결정경계 가장자리 쪽 sample이 선정되었기 때문에 SemiSDA 이후의 결정경계가 잘 생성되지 않은 것을 확인할 수 있습니다.
이에 따른 최종적인 SemiSDA 결과도 살펴보시면 RF 사용 시 76.4%->91.7%, NBF 사용 시 76.4%->88.1% 로 random한 방식으로 feedback 을 부여하는 것 보다 NBF 방식이 adaptation 관점에서 더 좋지않은 성능을 달성하는 것을 확인할 수 있습니다.

Unexpected influence of NBF

직관적으로 생각했을 때 source model이 틀린 negative sample에 대해서 feedback 을 부여하는 NBF 가 random한 RF 에 비해 더 adaptation 성능이 높을 것이라 예상할 수 있습니다. 틀린 sample 에 대해 labeling(i.e., feedback) 을 제공함으로써 모델을 보정해주기 때문이죠. 하지만 위 simulation study에 더불어 여러 classification, segmentation, medical image 에서 실험을 진행했을때에도 동일한 경향성을 관찰했다고 합니다. 이는 위에서 실험적으로 밝혔다시피 NBF가 각 class 클러스터 경계에 편향된 분포를 가지기 때문에 adaptation 성능이 떨어지기 때문입니다. 그래서 본 연구에서는 real-world scenario 에서 사용자의 feedback 을 사용할 때 신중한 설계가 필요하다는 것을 주장하며, 이러한 접근 또한 최초라고 합니다.

3. Approach

3.1. Prerequisite: Previous SemiSDA method

이전의 SemiSDA, 그리고 SemiSL 에서는 보통 하나의 mini-batch를 labeled data $\{(x_{lb}^b,y_{lb}^b):b\in[1..B]\}$ 와 unlabeled data $\{(x_{ulb}^b):b\in[1..\mu B]\}$ 로 함께 섞어서 구성합니다. B는 mini-batch 의 크기이며, $\mu$ 는 labaled data 보다 unlabeled data 의 사이즈가 $\mu$ 배 만큼 더 크다는 뜻입니다.

SemiSDA에서 모델이 adaptation을 수행하기 위해 cross-entropy loss $\mathcal{H}$ 가 iterative하게 계산됩니다. unlabeled data의 경우 weak aug $\omega$ 와 strong aug $\Omega$ 를 기반으로 pseudo-label $\hat{y}_{ulb} = f_\theta(\omega(x_{ulb}))$ 을 생성하여 loss를 계산하게 됩니다. 식은 아래와 같습니다.

Problem of previous works

이렇듯 이전의 연구들에서는 NBF 에 대한 영향에 대해서 고려하지 못하였기 때문에 낮은 adaptation 성능을 보인다고 저자는 주장합니다. 이를 해결하고자 저자는 기존 SemiSDA 기법에 추가적으로 결합이 가능한 해결책을 설계하고자 합니다.

3.2. Retrieval Latent Defending

기존 SemiSDA 방법론을 사용했을 시 NBF가 cluster 내에서 biased distribution을 보여서 adaptation 결과에서 부적절한(Bad) 결정 경계가 생성된다는 것이 위 그림 4-top center 에 해당합니다. 이러한 문제를 해결하고자 그림 4-bottom 에서, Retrieval Latent Defending 라고 하는 기법을 제안합니다. 단계별로 설명드리겠습니다. 그림 속에 ① ~ ⑥ 까지 존재합니다.

①: 각 epoch 수행 전, data points $x_{LD}$ 가 모이는 candidate bank 를 생성합니다.
②~④: 각 adaptation iteration마다, mini-batch 의 balance를 유지하기 위해 앞서 생성한 bank에서 latent defending samples $x_{LD}$ 를 검색합니다. 선택된 sample을 통해 mini-batch를 균형있게 재구성합니다.
⑤~⑥: 재구성된 mini-batch를 사용해서 모델이 adaptation을 수행합니다. 선정되는 $x_{LD}$ 를 적용한 SemiSDA를 통해 NBF 에 잘 대응할 수 있음을 위 figure 우상단의 결정경계 결과를 통해 알 수 있습니다.

Candidate bank generation

그렇다면 candidate bank에는 어떤 sample이 들어가게 될까요?
feedback이 부여되지 않은, unlabeled target sample에 대해 현 iteration 기준의 모델로 pseudo label 을 예측할 수 있습니다. 그리고 이 전체 sample 중 각 class별로 예측 확률이 top p% 인 sample들만 선별하여 bank 로 추가하게 됩니다.
(p=0.4)

Defending sample selection

위 과정을 통해 bank를 생성했다면, 이젠 NBF 방지를 위한 defending sample을 bank로 부터 선택해야 합니다. feedback에 의해 label이 부여된 labeled data $(x_{lb}^b, y_{lb}^b)$ 각각에 대해 이에 대응되는 k(=3) 개의 latent defending samples $x_{LD}$ 를 class별로, bank로 부터 선택합니다. 선정된 defending samples 를 mini-batch에 통합함으로써, 현 mini-batch 의 분포 균형을 맞출 수 있습니다. 그림 4 우상단을 보시면 이해 가능합니다.

그리고 앞서 3.1절에서 설명드린 기존 SemiSDA의 loss function에다가, latent defending sample 기반의 loss term 을 더해준 최종 loss는 아래와 같습니다.

4. Experiment

우선 DomainNet-126 이라는 dataset에서의 실험 결과입니다. 각 column 이 r, p, s, c의 키워드 형태로 되어 있는데 이는 각각 real, painting, sketch, clip-art domain 을 나타냅니다.
기존 SemiSDA 기법인 AdaMatch 에 RF, NBF 각각 2가지의 feedback 을 부여한 결과를 살펴보시면 랜덤 피드백인 RF 보다 NBF 에서 더 domain shift에 따른 성능 하락폭이 큰 것을 확인할 수 있습니다. 반면 NBF w ours 는 상당히 성능 향상이 높네요. average 로 따졌을 때 ResNet 백본에서 64.5 -> 72.0 의 향상을 보입니다.

다음으로는 positive 와 negative feedback 에 따른 영향입니다. 우선 회색 line은 SemiSDA 방법론 중 하나인 FreeMatch 라는 방법론이구요, 이에 ours 기법을 추가한 것이 빨간색 line 입니다.
X축의 값들을 보시면 x:y 이런 식으로 표기되어 있을 텐데 이것이 의미하는 바는 feedback의 PF:NF 비율입니다. PF는 source trained 모델이 맞게 예측한 sample, NF는 틀리게 예측한 sample이 되겠죠.
378:0, 즉 Positive Biased Feedback (PBF) 에서는 회색/빨간색 성능이 크게 차이가 나지 않는것을 확인할 수 있습니다. 하지만 real-world scenario 에서 자주 등장하는 NBF쪽으로 갈 수록 기존 FreeMatch 방법론의 성능이 급격히 감소하는 모습을 확인할 수 있습니다. 반면 제안하는 기법을 추가했을 시에는 하락 없이 오히려 성능이 향상하는 것을 확인할 수 있네요.

더 많은 실험들이 있지만 리뷰 앞쪽부분에 힘을 좀 많이 쓰는 바람에 시간적 문제로 많은 실험들을 다루지 못하였습니다.
user feedback이라는 키워드에 끌려 읽어본 논문인데, 읽으면서도 실제 application 적인 관점을 계속해서 언급하면서 연구의 필요성, 당위성을 주장하는 부분이 꽤나 인상깊었습니다.

4 thoughts on “[ECCV 2024] Is user feedback always informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data”

홍 주영 says:

09/30/2024 at 03:19

안녕하세요, 권석준 연구원님 설명이 잘 되어있어서 리뷰를 쉽게 잘 읽었습니다.

Active Learning과 접근이 유사해서 신기했습니다.

다만 제안된 Retrieval Latent Defending 기법은 피드백이 제공되지 않은 샘플을 기반으로 bank 샘플을 선택하는 방식인거 같은데.. 이게 오히려 target domain에서의 불균형을 심화시킬 가능성은 없을까요? 그러니까 이미 클러스터 경계가 부정확한 상태라면, 해당 경계 근처의 샘플만 선택하는 방식이 오히려 역효과를 발생시킬 수도 있지 않을까 싶어서요

1. 권 석준 says:
  
  09/30/2024 at 10:19
  
  음, 제 설명이 조금 부족했다 보네요. 결론부터 말씀드리자면 본 논문에서 제안한 기법은 “경계 근처의 샘플만 선택하는 방식” 이 아닙니다.
  
  intro에서 설명하기를, 기존 심리학적 연구들이나 경험적인 실험들로 빗대어 봤을 때 사용자(user)가 제공하는 feedback은 source model이 틀린 negative한 feedback이라고 합니다. 이를 본 논문에서는 NBF 라고 표현했구요.
  NBF는 클러스터를 기준으로 고르게 분포되지 않고, 결정경계 가장자리 으로 치우쳐진 형태를 띄고 있으며 기존 SemiSDA 방법론으로 adaptation 수행하게 되면 NBF에 대한 추가적인 고려가 없기 때문에 성능이 하락하게 됩니다.
  이를 해결하고자 본 논문에서는 추가적인 기법을 설계하였고, 이 기법의 핵심은 “feedback의 균형을 맞추자!” 가 되겠습니다.
  
황 유진 says:

09/30/2024 at 09:41

안녕하세요 좋은 리뷰 감사합니다.

제가 이해한 바로는 피드백을 통해 새롭게 생성된 데이터에 치중된 학습을 막기 위해 candidate bank 개념을 도입하여 학습의 batch를 재구성하는 연구인것 같습니다. bank를 활용하는 것은 일부 TTA나 실제 상황에 활용될 때 원본 데이터 접근이 어렵다는 이슈를 고려하는것으로 알고있습니다. 그렇다면 EMA와 같은 업데이트 방법으로 이를 해결한 실험이나 연구는 없을지, 혹은 학습 방법, 가중치 조절등으로 이러한 문제를 해결하는 것에 대한 연구원님의 의견이 궁금합니다.

1. 권 석준 says:
  
  09/30/2024 at 10:25
  
  댓글 감사합니다.
  
  해주신 질문이 결국 “EMA 와 같은 업데이트 방법을 적용하여 원본 데이터에 접근이 어려운, 마치 TTA와 같은 상황을 해결한 실험/연구가 있느냐?” 로 이해했습니다.
  답변을 드리자면, 네 이미 많이 연구가 되고 있습니다. Domain Adaptation 관점에서 원본 데이터(= source data)로 접근이 어렵다는 말은 다르게 말하면 오직 GT가 없는 target data만을 가지고 DA를 수행해야 된다는 말이 됩니다. 그리고 target data에 gt가 없기 때문에 앞선 연구들에서 취하고 있는 해결책은 크게 i) entropy minimization과 같은 unsupervised signal로 학습, ii) EMA-mean teacher 기반으로 모델을 2개 둔 후 pseudo label을 생성하여 (pseudo) supervised signal로 학습. 이렇게 2가지입니다.
  두가지 stream 모두 활발하게 진행되고 있습니다만, TTA 연구에 한해서는 i번 방식이 최근에는 더 활발하게 이루어지고 있습니다. mean-teacher 방식은 student와 teacher model 모두에 대해 forward 연산을 수행해야 하는데 효율성이 핵심인 TTA 와는 조금 반대되기 때문입니다.