안녕하세요 정의철 연구원입니다. 이번에 제가 리뷰할 논문은 ‘PT4AL: Using Self-Supervised Pretext Tasks for Active Learning’이고 액티브 러닝 방법론에 대한 논문입니다. 그럼 바로 리뷰 시작하겠습니다.
1.Introduction
딥러닝의 성과는 classification 및 semantic segmentation과 같은 컴퓨터 비전 작업에서 좋은 결과를 보여주었습니다. 이는 deep convolutional neural networks(CNNs)과 ImageNet 및 COCO와 같은 대규모 레이블 된 데이터셋 덕분입니다. 딥러닝 모델은 데이터 기반으로 훈련되므로 충분히 큰 train 세트가 높은 성능을 달성하는 데 중요한 역할을 합니다. 그러나 대규모 레이블 된 데이터셋을 구축하는 것은 시간과 비용이 많이 드는 작업입니다. 레이블 지정 비용은 데이터의 크기 및 작업의 복잡성과 함께 증가합니다. 전체 데이터를 레이블링하는 대신 active learning(AL)은 고정된 레이블링 예산 내에서 최고의 성능을 달성하는 데 필요한 정보를 선택하는 것을 목표로 합니다.
기존의 AL 접근 방식은 두 가지 주요 그룹으로 나눌 수 있습니다: 분포 기반(Distribution- based) 및 불확실성 기반 방법(uncertainty-based methods.). 분포 기반 방법은 특징 공간의 분포를 잘 커버하는 데이터를 샘플링하려고 합니다. 이러한 방법의 장점은 대표점을 샘플링할 수 있다는 것입니다. 그러나 분포 기반 샘플링은 결정 경계 근처에 위치한 데이터 (즉, 높은 불확실성 데이터 포인트)를 선택하지 못합니다.
불확실성 기반 접근 방식은 이 문제를 해결하려고 시도합니다. 단순한 접근 방식은 클래스 사후 확률, 엔트로피, loss 예측을 활용하여 다양한 설정에서 잘 수행되었습니다. 이러한 방법은 특징 공간에서 결정 경계 근처의 불확실하거나 어려운 데이터를 효과적으로 샘플링하지만 특정한 데이터의 전체 분포를 포착하지 못합니다.
본 논문은 Pretext Tasks for Active Learning (PT4AL)이라는 새로운 활성 학습 프레임워크를 제안합니다. 이는 불확실성 기반 샘플러와 결합된 self-supervised pretext task를 활용한 방법론입니다. 저자는 레이블이 지정되지 않은 데이터로 선행 작업 모델(pretext task model)을 훈련하고 선행 작업 손실이(pretext task loss) 주 작업 손실과(main task loss) 높은 상관 관계를 가지도록 합니다. 대표적이고 어려운 데이터 모두를 다양하게 샘플링하기 위해 레이블이 지정되지 않은 데이터는 선행 작업 손실에 따라 내림차순으로 정렬되어 각 AL 반복에 사용될 배치로 분할됩니다.
가장 높은 손실을 가진 데이터가 포함된 배치에서 시작하여 각 배치에서 가장 불확실한 K개의 데이터 포인트가 샘플링됩니다. 불확실성 기반 샘플러는 PT4AL이 어려운 데이터를 샘플링할 수 있게 하며 배치 분할은 전체 데이터 분포에 걸쳐 균형 잡힌 샘플링을 가능하게 합니다. PT4AL은 또한 액티브 러닝의 고유한 문제인 콜드 스타트 문제(old start problem)를 해결합니다.
기존 방법은 레이블이 지정된 데이터의 임의로 샘플링 된 세트에서 시작하여 전반적인 성능이 초기 세트의 분포에 크게 의존하게 만듭니다. 저자의 방법은 미리 레이블이 지정되지 않은 세트의 표현을 학습하기 때문에 첫 번째 iteration에서 정보를 얻어낼 수 있습니다. 이 방법은 초기 레이블이 지정된 세트를 임의로 샘플링하는 데서 비롯될 수 있는 고분산 및 성능 저하 문제를 피할 수 있습니다.
2 Related Work
Active Learning 다양한 AL 방법론이 제안되었는데, 정보 이론적 접근, 앙상블 방법 , 불확실성 기반 방법 , 베이지안 AL 방법 등이 있습니다. 그러나 이러한 방법은 대규모 모델 및 데이터셋에 대한 검증이 이루어지지 않았습니다. 특히, 컴퓨터 비전 작업의 CNN 기반 딥러닝 분야에서는 대규모 데이터셋에 대한 최적화가 필요합니다.
최근의 AL 방법은 주로 컴퓨터 비전 작업에서의 대규모 설정을 중심으로 하고 있습니다. core-set approach는 특성 분포를 기반으로 데이터의 다양성을 고려하는 코어셋 선택 방법을 제안했습니다. 이 방법은 이전의 불확실성 기반 방법의 두 가지 문제를 대상으로 합니다.
첫째, 불확실성 기반 방법은 어려운 샘플만 선택하여 중복된 데이터 포인트만 선택되는 문제를 야기합니다.
둘째, 기존 방법은 CNN에서 배치 처리에 적합하지 않습니다.
코어셋 알고리즘은 배치 방식으로 다양한 데이터 포인트를 샘플링하는 것을 목표로 합니다.
Learning loss for active learning은 레이블이 지정되지 않은 데이터의 손실을 예측하고 레이블이 지정되지 않은 풀에서 손실이 큰 샘플을 샘플링하는 서브태스크 모듈을 제안했습니다. 이 방법은 가장 불확실한 데이터에서 연속적으로 샘플링할 때 중복된 데이터 포인트를 선택하지 않도록 레이블이 지정되지 않은 풀의 하위 집합에서 샘플링합니다. 그러나 Learning loss for active learning과 같은 불확실성 기반 방법은 분포의 다양성이 덜한 결정 경계에서 데이터 포인트를 샘플링하는 문제가 있습니다.
저자의 액티브 러닝 학습 방법은 데이터 분포 기반 방법과 불확실성 기반 방법의 결함을 보완하기 위해 self-supervised pretext task를 활용합니다. 앞서 언급한대로 AL은 데이터 분포 기반 방법과 불확실성 기반 방법으로 크게 나뉘어집니다. 데이터 분포 기반 방법은 어려운 샘플을 추출할 수 없는 단점이 있으며, 불확실성 기반 방법은 중첩된 데이터 포인트를 샘플링할 가능성이 있으며 전체 데이터 분포의 표현을 추출하기 어려운 단점이 있습니다.
저자의 방법은 semantic distribution 전반에 걸쳐 대표 샘플을 선택할 수 있는 pretext task 기반 배치 분할과 어려운 샘플을 선택할 수 있는 불확실성 기반 배치 내 샘플러를 사용합니다.
Pretext Tasks는 레이블이 지정되지 않은 데이터를 사용하여 self-supervised 선행 작업을 학습함으로써 좋은 사전 훈련 가중치를 학습하는 것을 목표로 합니다. 이러한 사전 훈련 가중치는 적은 양의 레이블이 지정된 데이터로 미세 조정되어 downstream task에서 높은 성능을 달성합니다.
3 Using Pretext Tasks for Active Learning
저자는 선행 작업 훈련 후의 특성 분포를 활용하는 대신 더 간단한 메트릭, 즉 선행 작업 손실을 활성 학습에 사용합니다. 이 섹션에서 저자는 가설을 제안하고 검증하며 이러한 증거를 사용하여 저자의 활성 학습 알고리즘을 증명합니다. 가설은 다음과 같습니다.
H1: Pretext task loss is correlated with the main task loss.
저자는 선행 작업이 주 작업과 상관이 있다면 선행 작업에 대해 어려운(즉, 손실 값이 높은) 이미지는 주 작업에 대해서도 어려울 것이라고 생각합니다.
Fig 2는 세 가지 벤치마크 데이터셋에서 선행 작업 손실과 주 작업 손실의 산점도를 나타냅니다. x 축은 주 작업 손실의 정규화된 순위이며, y 축은 선행 작업 손실의 정규화된 순위입니다.
그림 2에서 나타난 것처럼 선행 작업과 주 작업의 손실은 강한 상관 관계를 가지고 있습니다. 즉, 선행 작업에 대한 데이터 샘플이 높은 손실을 가지고 있다면 주 작업에 대해서도 높은 손실을 가질 가능성이 높으며, 그 반대도 마찬가지입니다.
선행 작업 손실과 주 작업 손실 간의 강한 상관 관계는 저자의 가설을 검증하며, 따라서 선행 작업 손실을 활성 학습에 사용할 수 있음을 입증합니다.
4 Method
4.1 Overview
액티브 러닝 학습 방식은 초기에는 레이블이 지정되지 않은 데이터 풀 xU ∈ XU 가 주어집니다.
i번째 AL 반복에서 XU(i)에서 K개의 샘플을 선택하고 오라클과 함께 이들을 레이블 풀 (XL(i), YL(i))에 추가하고, F im(·)을 (XL(i), YL(i))로 훈련하고 평가합니다. 이 반복은 지정된 레이블 지정 예산에 도달할 때까지 반복됩니다.
PT4AL의 전체적인 프레임워크는 Fig 1과 같습니다. PT4AL은 두 부분으로 나뉘어 있습니다
배치 분할을 위한 선행 작업 학습 및 배치 내 샘플링. 선행 작업 학습은 AL 반복 전에 수행됩니다. 저자는 XU로 선행 작업 학습기를 훈련시킵니다. 레이블이 지정되지 않은 샘플은 선행 작업 손실의 내림차순으로 정렬되고 배치로 분할됩니다. 배치 내 샘플링은 각 AL 반복에서 수행됩니다. i번째 반복에서 샘플링 모듈은 이들 샘플에서 main task learner의 불확실성에 따라 i번째 배치에서 K개의 샘플을 선택합니다. main task learner Fm(i)(·)는 (XL(i), YL(i))로 훈련되고 테스트 세트에서 평가됩니다.
4.1 Pretext Task Learning for Batch Split
이 섹션에서는 선행 작업이 액티브 러닝 배치 분할에 어떻게 사용되는지 설명합니다. 여기서 배치란 AL 반복에서 샘플링될 레이블이 지정되지 않은 데이터 풀을 의미합니다. 저자는 선행 작업으로 회전 예측 작업(rotation prediction task)을 사용합니다. 회전 예측 작업에서는 백본 신경망이 입력 이미지의 모든 네 가지 방향 (0◦, 90◦, 180◦, 270◦도)에 대해 훈련됩니다. 손실 함수는 각 방향에 대한 손실의 평균으로 정의됩니다
회전 연산자 g(· | y)는 방향 레이블 y에 따라 회전된 입력 이미지를 생성합니다. 모델은 네 가지 다른 회전을 예측하므로 k = 4 로 정의합니다. Fp는 레이블 y에 따라 회전된 입력 이미지의 확률 분포를 나타냅니다. 추론에서 각 이미지의 네 가지 방향이 훈련된 네트워크 입력으로 들어가고 추출된 손실은 훈련에서 사용된 것과 동일한 평균 손실을 사용합니다. 모델 가중치는 테스트 정확도가 가장 높은 가중치로 사용합니다.
선행 작업 learner를 훈련한 후에는 레이블이 지정되지 않은 데이터의 선행 작업 손실 값을 추출하고 이를 배치로 분할합니다. 선행 작업 학습 단계에서 레이블이 지정되지 않은 데이터 lossXU의 선행 작업 손실 값이 주어지면 손실을 내림차순으로 정렬합니다. 정렬된 데이터 XU는 동일한 크기의 I 배치로 나뉩니다. I의 수는 AL 반복의 수와 동일하며, 만약 열 번의 반복이 있다면 I = 10이므로 열 개의 배치 B = {bi} (I=10, i=1)이 있을 것입니다.
4.2 In-batch Sampling
배치 내 샘플러는 각 AL 반복에서 K개의 샘플을 선택합니다. i번째 반복에서 배치 내 샘플러 ϕ(·)는 오라클에 의해 라벨링 할 i번째 배치에서 K개의 샘플을 선택합니다. 샘플러는 이전 주 작업 학습기 Fm(i-1)을 사용하여 주어진 배치에서 사후 확률을 계산하고 최저 확신 점수를 가진 K개의 데이터 포인트를 선택합니다.
Algorithm은 다음과 같습니다.
첫 번째 반복에서는 Fm(0)이 없으므 시각적으로 유사한 샘플이 유사한 선행 작업 손실 값을 가진다는 우리의 경험적인 관찰을 기반으로 첫 번째 배치에서 샘플을 균일하게 선택합니다.샘플링된 데이터에는 어려운 데이터와 대표적인 데이터를 모두 포함한다는 주요 특성이 있습니다. 어려운 또는 불확실한 데이터는 주 작업 모델이 결정 경계 근처에 있기 때문에 쉽게 구별할 수 없는 데이터를 나타냅니다. 반면에 대표적인 데이터는 특징 공간에서 분포를 잘 정의하는 데이터를 말합니다. 저자는 두 카테고리에서 데이터를 샘플링할 수 있다면 가장 정보가 풍부한 데이터로 레이블이 지정된 풀을 형성할 수 있다고 말합니다. 이는 이후 실험 부분의 쿼리 분석을 통해 경험적으로 확인되었습니다.
5 Experiments
저자는 방법의 효과를 평가하기 위해 image classification 과 semantic segmentation 태스크를 진행합니다.
이미지 분류를 위해 CIFAR10 ,Caltech-101 , ImageNet 벤치마크를 선택하였으며, 의미 분할에 대해서는 Cityscapes 를 선택했습니다. 더 어려운 클래스 불균형 설정에서 우리의 방법의 효과를 더 나타내기 위해 class-imbalanced version of CIFAR10을 추가적으로 사용합니다. 마지막으로 PT4AL을 cold start 문제에 대한 해결책으로 보여줍니다.
5.1 Image Classification
- CIFAR10: 32×32 크기의 50,000개 학습 이미지와 10,000개 테스트 이미지, 10개의 객체 카테고리로 구성되어 있습니다. 1,000개의 레이블 이미지부터 시작하여 반복할 때마다 1,000개의 이미지가 추가됩니다.
- Caltech-101: 약 300×200 크기의 9,144개 이미지로 101개 클래스에 분포되어 있습니다. 데이터는 8,046개의 학습 이미지와 1,098개의 테스트 이미지로 분할됩니다. CIFAR10과 유사하게 1,000개의 레이블 이미지부터 시작하여 반복할 때마다 1,000개씩 증가합니다.
- ImageNet: 1,000개 클래스의 130만 개 이상의 이미지로 구성되어 있습니다. 1,279,867개와 49,950개의 이미지가 각각 학습 및 테스트 세트에 사용됩니다. 실험 편의를 위해 유사한 클래스 레이블 간의 noise를 피하기 위해 ImageNet 클래스는 WordNet 상위 클래스를 기반으로 67개로 축소됩니다. ImageNet은 약 128,000개의 레이블 샘플로 시작하며 반복할 때마다 동일한 K개 샘플을 선택합니다. 계산량이 많기 때문에 ImageNet 성능은 3번의 실행 결과 평균입니다.
Baselines and implementation details
이 실험은 PT4AL을 무작위 샘플링, Core-Set, VAAL, Learning Loss, CoreGCN, PAL과 비교합니다.
실험 결과는 Fig 3과 같습니다. 전반적으로 결과는 PT4AL이 이미지 분류 작업에서 효과적인 방법론임을 보여줍니다. 다른 방법에 비해 적은 레이블 데이터 포인트로도 높은 정확도를 달성하며 특히 초기 단계에서 효과적입니다. PT4AL은 CIFAR10에서 다른 방법들보다 훨씬 우수한 성능을 보여주었습니다. 1만 개의 레이블이 있는 마지막 단계에서 PT4AL은 95.13%의 정확도를 기록하여 다른 학습 손실보다 8.91% 높았습니다. 또한 PT4AL은 다른 AL 프레임워크와 비교하여 첫 번째 반복에서도 9.81% 더 높은 정확도를 보여줍니다. PT4AL은 Caltech-101 및 ImageNet에서도 유사한 결과를 얻었으며 Cold-start 문제를 해결할 수 있음을 보여줍니다.
5.2 Semantic Segmentation
Fig. 5a의 결과에서 PT4AL은 모든 반복에서 다른 방법들을 크게 앞서가며 특히 첫 번째 반복에서 높은 성능을 보이면서 Cold start 문제에 효과적이라는 것을 입증 합니다. 반면, learning loss , VAAL, 그리고 Core-Set은 CIFAR10에서처럼 효과가 떨어지거나 랜덤 선택과 비슷한 결과를 보입니다.
5.3 Image Classification on an Imbalanced Dataset
Fig. 5b에서 PT4AL과 다른 baselines의 imbalanced CIFAR10에서의 성능을 보여줍니다. PT4AL은 모든 반복에서 큰 우위로 다른 기준들을 능가합니다. 선행 작업에서는 훈련 데이터가 적은 클래스의 데이터가 일반적으로 높은 손실을 가지고 있고, 충분한 훈련 데이터가 있는 클래스는 일반적으로 낮은 손실 값을 갖습니다. PT4AL은 높은 손실부터 낮은 손실까지 데이터 배치에서 샘플링하기 때문에 불균형한 환경에서도 클래스 균형을 유지할 수 있습니다.
또한, 주요 작업 모델과 관련된 메트릭만 사용하는 다른 방법들과는 달리 PT4AL은 주요 작업 모델과 완전히 독립적인 선행 작업 손실을 활용합니다. 흥미로운 점은 balanced CIFAR10에서의 실험 결과와는 달리, 데이터 분포 기반 AL 방법(Core-Set, CoreGCN)이 불확실성 기반 방법(VAAL, 학습 손실)보다 더 높은 성능을 보입니다. 이 결과는 불확실성 기반 방법이 데이터 분포 기반 방법보다 클래스 불균형 설정에서 부정적으로 영향을 받는 것을 경험적으로 보여줍니다. PT4AL은 다른 방법들을 큰 우위로 앞서며, 보다 어려운 클래스 불균형 설정에서 강건성을 나타냅니다. 더불어, PT4AL이 데이터를 더 균형 잡힌 방식으로 샘플링하는 것을 관찰합니다.
5.4 Cold Start Problem in Active Learning
대다수의 Active Learning(AL) 방법은 훈련된 주요 작업 모델을 필요로 하기 때문에 첫 AL 반복은 무작위로 선택된 레이블 데이터로 시작됩니다. 이것이 active learning에서의 ‘cold start problem’이라고 합니다. 저자의 방법이 이 문제에 대한 해결책으로 효과적인지 철저히 검증하기 위해 CIFAR10 벤치마크에서 첫 AL 반복을 자세히 살펴보았습니다. PT4AL의 경우, 선행 작업 학습기를 훈련한 후에 레이블이 없는 데이터는 선행 작업 손실에 따라 내림차순으로 정렬되어 10개의 배치로 분할되고, 첫 번째 배치에서 균일하게 1,000개의 데이터 포인트가 선택됩니다. 실험은 서로 다른 무작위 시드를 사용하여 20회 반복됩니다.
Table 1은 실험 결과를 요약하는데 PT4AL은 첫 반복에서 무작위 샘플링과 비교하여 성능이 더 안정적이며, 표준 편차가 작고 Min/Max 정확도 간의 차이가 무작위 기준보다 작습니다. PT4AL은 평균 정확도에서 random method를 크게 능가하여 주요 작업 모델에 대해 더 많은 정보를 담은 데이터 포인트가 샘플링된다는 것을 나타냅니다. 이러한 결과는 PT4AL이 ‘cold start problem’에 대한 좋은 해결책이며, 기존의 AL 방법에 대한 좋은 시작점으로 활용될 수 있다는 것을 나타내고 있습니다.
5.5 Computational Overheads
PT4AL의 추가 계산은 배치 분할을 위한 선행 작업 학습과 불확실성 측정을 위한 레이블되지 않은 데이터를 추론하는데 사용되는 시간입니다. 다양한 방법들의 계산 오버헤드를 비교하기 위해 CIFAR10 실험에서 동일한 환경에서의 메소드들의 시간을 측정합니다.
Fig. 3a와 Table 2에서 PT4AL이 다른 방법들과 비교해 가장 우수한 성능을 달성하면서도 비슷한 계산 오버헤드를 가진 것을 관찰할 수 있습니다.
6. Conclusion
본 논문에서는 PT4AL이라는 새로운 선행 작업을 기반으로 한 액티브 러닝 학습 방법을 소개합니다. 저자는 선행 작업과 semantic recognition task의 상관 관계를 보여주며, 선행 작업 손실을 활용하여 레이블되지 않은 샘플을 배치로 분할합니다. 쿼리 분석에서는 배치가 전체 의미 분포에 걸쳐 흩어져 있음을 보여줍니다. 불확실성 기반 배치 샘플러와 결합되어 PT4AL은 레이블되지 않은 풀에서 어려운 것과 대표적인 데이터를 모두 샘플링합니다.
안녕하세요. 정의철 연구원님. 좋은 리뷰 감사합니다.
결국 Learning Loss에 self-supervised를 결합시켜 pretext task의 loss를 이용한 방법론이군요. 몇가지 질문이 있습니다.
1. 배치를 분할할 때, 단순히 pretext task의 loss만으로 정렬해서 가장 loss가 높은 데이터를 뽑으면 해당 batch에는 서로 매우 유사한 이미들이거나 신경망이 학습하는데 방해될 정도로 noisy한 데이터만 뽑히게 될 것입니다. learning loss도 해당 부분을 고려해서 단순 내림차순으로 sampling하지 않는데 해당 논문에는 관련 언급이 없었나요?
2. pretext task loss는 분포와 불확실성을 모두 고려할 수 있다고 논문에 쓰여 있는 듯 한데, loss가 불확실성을 고려할 수 있긴 하지만 pretext task loss로 distribution을 어떻게 고려한 샘플링을 어떻게 할 수 있는지 궁금합니다.
3. 대표적인 pretext task는 rotation 말고도 inpainting, context prediction, jigsaw puzzle, colorization 등 많은데 다른 pretext task에 대한 언급은 없는지, rotation만 사용한다면 혹시 그 이유가 적혀 있는지 궁금합니다.
질문에 대한 답변 주시면 감사하겠습니다.
추가적으로, 리뷰를 읽다 보니 문장 흐름이 어색한 부분이 몇 군데 눈에 띕니다. X-Review 작성이 쉽지 않지만 논문을 이해하고 본인의 글로 다시 작성하는 연습을 하는것이 많은 공부가 되니 이 부분 신경쓰시면 더 좋은 리뷰를 쓸 수 있을 것 같습니다.
감사합니다.
안녕하세요 재연님 질문 감사합니다.
1. 그 부분은 4.2 In-batch Sampling의 알고리즘 부분을 확인해주시면 될 것 같습니다. 학습 과정에서 K개의 데이터를 선택할때 이전 주 작업 학습기 Fm(i-1)를 활용하는데 첫 번째 학습에서 Fm(0)이 없으므로 저자는 uniform하게 데이터를 샘플링한다고 언급하고 있습니다.
2. 논문에서 distribution을 고려한 방법에 대해서는 실험 결과로 증명을 합니다. 논문을 확인해보시면 Random,Learning loss,PT4AL 각각의 방법론으로 학습 시켰을 때 데이터의 분포를 시각화한 이미지가 있는데 PT4AL의 결과에서는 다른 방법론들과 다르게 distribution이 고려된 모습을 확인할 수 있습니다.
3. 논문에서는 rotation을 선행 작업으로 사용한 이유에 대해서는 성능이 가장 좋았기 때문에 저자는 택했다고 논문에서 언급하고 있습니다.
안녕하세요 정의철 연구원님 좋은 리뷰 감사합니다.
선행 작업으로 학습할 때에 rotation을 진행하여 훈련한다고 하셨는데 rotation 외에 horizontal flip등의 다른 방식은 사용하지 않는 이유가 있을까요?
레이블이 지정되지 않은 데이터에 대해 선행 작업 손실값을 내림차순으로 정렬한다고 해주셨는데 uncertainty 기반 방법론의 경우 손실값이 높은 데이터가 어려운 샘플이라고 판단하는 건가요?
감사합니다.
안녕하세요 성준님 질문 감사합니다.
rotation 을 선행 작업으로 사용한 이유에 대해서는 성능이 가장 좋았기 때문에 저자는 택했다고 논문에서 언급하고 있습니다.
네 uncertainty 기반 방법론의 경우 모델이 데이터에 불확신 한다는 것은 손실값이 커진다는 것을 의미합니다. 그래서 uncertainty 기반 방법론에 손실값도 연관이 있다고 생각해주시면 될 것 같습니다.
감사합니다.
안녕하세요 정의철 연구원님
리뷰를 읽다가 몇 가지 궁금한 점이 생겨, 이와 고민해보시길 바라며 댓글 남깁니다.
1. Cold-start 문제를 언급해주셨는데 Cold-start는 정확히 어떤 상황을 의미하고, Cold-start 문제가 발생했을 때의 문제가 무엇일까요? 즉, Cold-start가 Active Learning 과정에서 어떤 영향을 미칠까요? 본 연구에서 해당 이슈를 해결했다고 주장하였는데, 그게 정확히 어떤 상황이고/ 정말 해결해야만 하는 상황인지 고민해보셨을지 궁금해서 질문드립니다.
2. 저자는 Pretext Task로 Rotation을 활용하는 것이 의미가 있다는 것을 보이기 위해, 그림 2와 같은 실험을 보였는데요. 그렇다면 해당 그림에서 [latex]\rho[/latex] 가 의미하는 것은 무엇인가요?
3. In-batch Sampling, 즉 어떤 샘플을 선택해야하는 지에 대한 서술 부분에 대한 질문입니다.
가장 먼저, “샘플러는 이전 주 작업 학습기 Fm(i-1)을 사용하여 주어진 배치에서 사후 확률을 계산하고 최저 확신 점수를 가진 K개의 데이터 포인트를 선택합니다.” 라고 작성해주셨는데요. 그렇다면 아래와 같은 데이터가 존재한다고 가정했을 때, 2개의 데이터가 선택되어야 한다면 어떤 데이터가 선택되는 건가요?
Data 1 [ 0.3 0.2 0.5 ]
Data 2 [ 0.1 0.6 0.3 ]
Data 3 [ 0.1 0.2 0.7 ]
Data 4 [ 0.4 0.3 0.3 ]
4. In-batch Sampling에서, 첫번째 F_m(0) 에서 Rotation 학습이 완료되고, init 데이터를 선택할 때에 대한 질문입니다. B개의 데이터를 처음 주기에서 선택해야 한다면, 단순하게 Rotation Loss가 높은 B개의 데이터만 선택이 되는건가요?
해당 논문을 완전히 본인의 것으로 이해하시길 바라는 마음에 다소 댓글이 길어졌습니다… 이해해주세요…
질문한 내용에 대해 꼼꼼하게 확인한 뒤, 꼭 댓글 부탁드립니다!
주영님 좋은 질문 감사합니다!!
1. AL의 학습 과정에서 첫 반복은 무작위로 선택된 레이블 데이터로 시작됩니다. 초기 새로운 데이터 세트는 학습 데이터와 비교하여 분포가 편향되거나 전체 분포를 잘 고려하지 못할 수 있는데 이것을 ‘cold start problem’이라고 합니다. 만약 이러한 데이터를 가지고 학습한다면 모델이 새로운 데이터 분포를 잘 파악하지 못하게되고 유익한 데이터 포인트를 선택하기가 더욱 어려워집니다. 이로인해 cold start problem은 액티브 러닝의 학습 성능을 저하시킬 수 있습니다.
본 논문에서는 선행 학습을 통해 데이터 포인터를 선택하기 때문에 모델이 데이터 분포를 더 잘 파악할 수 있고 무작위로 데이터를 선택했을때보다 더 안정적이고 높은 성능을 보임을 확인할 수 있습니다. 정말 해결해야만 하는 상황인지에 대한 고민은 계산 복잡성, 모델의 크기를 제외하고서 무작위로 데이터를 선택하기보다는 정보량이 많은 데이터를 우선적으로 선택하는게 수렴 속도나 방향성과 관련하여 더 효율적일 것이라 생각합니다.
2. p 는 Spearman’s rank correlation이며 두 변수 간의 통계적 상관성을 측정하는 방법 중 하나입니다.
주로 순위로 표현된 데이터에서 사용되며, 두 변수 간의 순위를 비교하여 상관관계를 계산합니다. 순위 상관계수는 -1에서 1까지의 값을 가지며, 1에 가까우면 양의 상관관계, -1에 가까우면 음의 상관관계, 0이면 상관관계가 없다고 해석됩니다
3. 모델의 데이터별 사후 확률 값을 보았을 때 가장 확신하는 클래스의 확률 값을 확인해보면
Data 1 [ 0.5 ]
Data 2 [ 0.6 ]
Data 3 [ 0.7 ]
Data 4 [ 0.4 ]
의 값을 갖습니다. 우리는 여기서 가장 확신이 덜 한 데이터를 2개 선택해야하므로 Data 1과 Data 4가 선택 될 것입니다.
4. 네 일단 Rotation Loss가 높은 B개의 데이터 데이터가 된다고 이해했는데 코드 확인해보고 확실하게 답변드리겠습니다.
감사합니다!!