[CVPR 2026 Highlight] Batch Loss Score for Dynamic Data Pruning

안녕하세요, 이번주도 data pruning 논문을 가져왔습니다. 저번에 리뷰했던 SeTa의 저자가 RePB(ICLR 2026), 그리고 오늘 리뷰할 BLS까지 dynamic data pruning의 연구를 활발하게 이끌고 있는 것 같습니다. 이번 논문에서는 신호 처리에서 배우는 개념들이 나오기 때문에 조금 생소할 수 있지만, 컨셉 자체는 꽤 간단하고 재밌으니 가볍게 읽어보시면 좋을 것 같습니다.

1. Introduction

Dynamic pruning은 training 과정 중 덜 유용한 샘플을 동적으로 식별하여 학습에 활용하지 않게 하여, 계산 자원과 시간을 효과적으로 줄이기 위한 기법입니다. 저번에 리뷰한 SeTa와 같은 기존 dynamic pruning 기법들은 주로 각 샘플들의 loss를 활용해, loss가 낮은 샘플은 걸러내고 높은 샘플만 학습에 이용하는 방식으로 발전되어 왔습니다. 그러나 이렇게 샘플의 loss를 하나하나 구해서 사용하는 것은 일반적인 딥러닝 파이프라인에 적합하지 않다고 저자는 말합니다. 보통 training 과정에서 배치 단위로 한꺼번에 mean batch loss를 구하고, 배치 단위로 backpropagation을 진행하기 때문입니다. 그래서 mean batch loss에서 샘플 별로 loss를 추출하기 위해서는 코드 단에서 많은 수정이 필요할 수 있습니다. (특히나 본 저자는 task-agnostic, model-agnostic한 방식을 추구하기 때문에, 코드 수정이 아주 많지는 않더라도 모델이 바뀌면 그 모델에 맞게 코드를 다시 수정해야 하는 번거로움을 지적하고 있는 것 같습니다. 실제로 저도 SeTa 실험을 할 때 해당 부분에서 어려움을 겪었기 때문에 저자의 문제 정의에 공감이 되었습니다.) 배치 단위 loss는 모든 딥러닝 파이프라인에 존재하지만, 샘플 별 loss는 구할 수 없거나 구하기 번거롭다는 단점이 있습니다. 저자는 바로 이 지점에서의 병목을 지적하며, 훨씬 적응적이고 일반화 가능한 pruning 기법을 위해 샘플 단위의 loss 없이도 샘플의 중요도를 추정하고자 하였습니다.

이를 위해 저자는 mean batch loss로부터 각 sample의 score를 추론하는 Batch Loss Score(BLS)를 제안합니다. BLS는 각 샘플이 시간에 따라 경험하는 batch loss를 사용하며, 쉽게 말해 샘플이 현재 학습 중인 배치에 포함되는 경우에만 EMA(Exponential Moving Average, 지수이동평균)을 적용해 score를 업데이트합니다. 이때 EMA는 배치 loss에서 샘플의 loss만을 추출해주는 low pass filter의 역할을 합니다. (배치 샘플링은 확률적이기 때문에 안정적이지 않은 고주파 성분에 가깝고, EMA가 이러한 고주파 노이즈를 걸러내어 최종적으로 샘플의 loss만을 남긴다는 컨셉입니다.)

해당 논문의 contribution은 다음과 같습니다.

  1. mean batch loss만을 사용하여 샘플의 중요도를 평가하는 효율적인 방법론 제안
  2. 신호 처리 관점에서 BLS를 분석하고, 주파수 분리 가설 하에서 노이즈 필터링 속성을 증명함으로써 엄격한 이론적 근거 제시
  3. BLS로 추론한 score를 바탕으로 기존 샘플 별 loss 기반 방법론과 통합되어 강력한 일반화 능력을 가짐을 확인함

2. Methodology: Batch Loss Score (BLS)

2.1. Preliminaries and Problem Setup

샘플 i의 순간 손실은 l_i(t) := l(f(x_i;\theta_t), y_i) 로 정의할 수 있으며, 이때 f()는 모델의 예측값이고 y는 정답값입니다. training 과정 중 gradient 계산에 사용되는 mean batch loss는 다음과 같습니다.

Definition 2.1 (Dynamic Data Pruning)

Dynamic data pruning은 step t에서 각 샘플 i의 중요도 score s_i(t) 를 할당합니다. 이 score를 기반으로 다음 훈련 주기에는 threshold 미만의 score를 가진 샘플을 pruning하거나 특정 window를 선택하기 위해 부분집합을 선택합니다.

이때 본 연구의 목표는 직접 l_i(t) 를 사용하는 것이 아니라, L(B_t, t) 만을 이용하여 샘플의 score를 뽑아내는 것입니다. 즉 이 score가 l_i(t) 의 의미 있는 proxy로서의 역할을 해야 합니다.

2.2. Per-Sample Score Estimation

BLS로 mean batch loss에서 각 샘플의 score를 추정하는 단계입니다. 각 training step t에서 L(B_t, t) 를 계산한 후, 배치에 참여한 각 샘플의 score가 EMA 방식으로 업데이트 됩니다.

Definition 2.2 (Batch Loss Score)

샘플 i가 배치 B_t 에 포함될 경우 EMA를 통해 업데이트 되고, 그렇지 않은 경우에는 이전 step의 score를 그대로 가져갑니다. 이 때 \alpha 는 기존의 score와 현재 mean batch loss 중 어떤 것을 더 중요하게 볼지, 즉 얼마나 업데이트 할 지를 제어하는 decay factor입니다.

2.3. Seamless Proxy Integration

Contribution (3)에서 서술했듯이 BLS로 구한 sample score는 기존 방법론의 sample loss에 대한 proxy 역할을 하여, 직접 sample loss를 추출하지 않고도 loss를 효과적으로 대체할 수 있습니다. 따라서 기존 방법론과 완전히 독립적이며, 핵심적인 로직이나 hyperparameter에 대한 수정이 전혀 필요하지 않습니다.

3. Theoretical Analysis: BLS as Noise-Filtered Smoothed Loss

3.1. Decomposition of Batch Loss

mean batch loss L(B_t, t) 를 특정 샘플 i의 loss와 나머지 샘플들의 loss의 합으로 분해합니다. 이 때 샘플 i의 loss를 scaled signal이라고 하며, 나머지 샘플 loss의 합을 batch composition noise라고 정의합니다.

Definition 3.1 (Batch Composition Noise)

그렇다면 이 항을 왜 noise라고 부를까요? 그 이유는, 학습 과정에서 배치는 확률적으로 랜덤하게 샘플링되기 때문입니다. 샘플 i의 입장에서 생각했을 때, training 과정 전반에서 샘플 i는 몇몇개의 배치에 뽑혀 학습에 이용될 것입니다. 이때 자기 자신의 loss는 변동폭이 적을 것이고, 그에 반해 랜덤으로 뽑히는 나머지 샘플들은 매번 다른 샘플이기 때문에 loss의 변동폭이 클 것이라고 저자는 가정합니다. 그래서 이 항을 높은 frequency를 가지는 noise라고 가정합니다.

3.2. EMA as a Filtering Mechanism

그렇다면 앞선 L(B_t, t) 에서 noise를 효과적으로 걸러내어 샘플 i의 loss, 즉 scaled signal만을 추출해내야 할 것입니다. 이 때 2.2절의 EMA update가 바로 이 noise를 걸러주는 low-pass filter의 역할을 해줍니다.

EMA의 filtering 매커니즘을 수식적으로 살펴보겠습니다. 먼저 k는 샘플 i가 배치에 포함되는 경우를 의미하는 인덱스입니다. 즉 처음으로 포함되는 경우, 두 번째로 포함되는 경우, …의 시퀀스를 나타내기 위한 notation입니다.

위 과정은 단순히 앞서 설명한 decompostion을 모든 k≥1에 대해 나타내는 과정입니다.

위 수식은 EMA를 적용해 sample loss를 업데이트하는 식으로, 시퀀스 L_i 에 대해 LTI(Linear Time-Invariant) 시스템을 나타내는 1차 무한 impulse response(IIR) filter의 표준 형태입니다.

Proposition 3.2 (BLS Score as Low-Pass Filtered Estimate)

impulse response filter의 표준 형태라고 하였던 위 재귀식을 전개하여 일반항을 도출하고, 그로부터 impulse response h[n] 을 다음과 같이 도출할 수 있습니다.

밑에서 두 번째 식을 convolution으로 나타내면 아래와 같고,

이는 또다시 다음과 같이 분해됩니다.

이때 H가 바로 low-pass filter이며, omega=0에서 최대값을 가지고 주파수가 증가함에 따라 단조적으로 감소합니다. 즉 이 필터는 고주파 성분을 감쇠시키고 저주파 성분만을 통과시키는 역할을 수행합니다.

4. Experiments

4.1. Effective Proxy for Per-Sample Loss

BLS가 효과적인 proxy 역할을 수행함을 입증하기 위해, 기존 dynamic data pruning 방법론인 InfoBatch와 SeTa에 통합하여 실험했습니다.

Table 1은 large-scale dataset에서 BLS를 통합한 방식이 통합하지 않은 방식과 동등하거나 약간 개선된 성능을 보여줍니다. 저자는 복잡한 loss function을 가지는 모델과 대규모 데이터셋 전반에 걸친 이러한 성능이, 기본 dynamic pruning 기법들이 의존하는 sample 중요도의 signal을 효과적으로 포착한다는 것을 시사한다고 주장합니다.

또한 Table 2에서는 ResNet18을 사용하여 CIFAR10, CIFAR100에서의 성능을 평가하고 있습니다. 이 경우에도 BLS를 적용한 경우와 그렇지 않은 경우가 일관되게 같은 성능을 보이고 있음을 알 수 있습니다.

4.2. Broad Generalization of Batch Loss Signal

BLS는 샘플 별 loss를 직접 건드리지 않고 mean batch loss만을 사용하기 때문에, 모델 아키텍쳐의 규제 없이 다양한 모델과 task에서 적용이 가능합니다.

CNN, Transformer, Mamba와 같이 근본적으로 다른 아키텍쳐에 대해서도 안정적인 성능을 보이고 있습니다.

위와 같이 vision-language model, VAE 및 diffusion model을 비롯한 다양한 모델에 걸쳐 쉽게 적용이 가능하며 성능 저하 없이 상당한 양의 pruning을 가능하게 합니다.

5. Conclusion

본 논문에서는 샘플 별 loss를 접근하는 복잡한 방식을 우회하고, mean batch loss만으로 샘플의 중요도를 추론하는 실용적인 dynamic data pruning 방법을 제안하였습니다. 학습 과정에서 각 샘플이 마주치는 batch loss sequence에 샘플별로 EMA를 적용하여 확률적인 배치 구성에서 발생하는 노이즈를 효과적으로 제거하였습니다. 또한 이 필터링 과정은 신호 처리 관점에서의 분석에 의해 증명되었습니다. 또한 다양한 모델과 태스크에 광범위하게 적용되어, 성능을 최대한 유지하면서도 상당한 pruning을 가능하게 하였습니다.

Author: 이 예은

4 thoughts on “[CVPR 2026 Highlight] Batch Loss Score for Dynamic Data Pruning

  1. 안녕하세요 예은님, 좋은 리뷰 감사합니다.
    요즘 상인, 근택님과 같이 연구 진행하시면서 dynamic data pruning 에 대한 최신 기법들을 많이 소개해주시고 계시는데요. 본 논문이 기존의 sample loss를 계산해주는 방식의 불편함에 대해 우회방안으로써 batch loss를 일반적인 딥러닝 학습파이프라인처럼 그대로 사용하되, 여기서 bath loss에 대한 EMA 기반으로 low-pass filtering 효과를 주어 high frequency noise signal을 필터링하는 효과를 주면서도, sample loss에 대한 proxy signal을 만들어 dynamic pruning에 활용하는 것으로 이해했습니다.

    특히 loss가 주파수 분리 가설이 적용된다는 관점의 접근이 저도 로봇 매니퓰레이터의 joint space 기반 dynamics에 대해 FFT 관점으로 접근하는 방식에 흥미를 가지고 활용해먹을 수 있지 않을까..하고 가끔 훑어보고있는 터라 신선했는데요.

    그렇다면 질문이 2가지 있습니다.
    1. 저자의 가정대로 주파수 분리 가설 -> 고주파는 노이즈다. 가 적용된다면, 왜 저자는 FFT 나 STFT 처럼 조금 더 명시적으로 time domain -> frequency domain 을 적용한 시그널 분할을 활용해 특정 주파수 성분만 band pass filtering 처럼 걸러보지 않고, 한번엔 그냥 EMA로 때려버려서 low pass filtering 효과만 낸 것일까요? 저주파 성분만 안정적이고 학습관점에서 중요한 성분이라는 점에 대한 저자들의 주장에 대한 수식적인 증명은 impulse response기반으로 정의 한 것으로 보이나, 리뷰상에서는 이 주파수 분석에 관한 실험이 없는 것 같아서 그러는 데 혹시 저자들의 실험적 분석 내용이 있었나요? 실제로 저주파 성분, 중주파 성분, 고주파 성분이 오히려 각각 filtering 되어봤을 때 진짜로 저주파만 안정적으로 놔두는 게 학습시그널에 도움이 되는가? 오히려 중주파성분이 적당히 안정적이면서 적당히 어려운 sample들에 대한 loss를 반영하는 것 아닐까란 생각이 들어서 FFT로 명시적으로 주파수 분할하고 filtering 접근하는 방식이 현재 파이프라인에 현실적으로 적용가능한 형태가 될 수 있을지에 대해서도 예은님의 생각이 궁금합니다.

    2. decay factor 라는 게 사실 하이퍼파라미터로써 실제 성능에 영향을 좀 끼칠 것 같은데, 이것에 대한 저자들의 분석은 없나요?

    1. 안녕하세요 재찬님, 좋은 질문 감사드립니다!

      1. 어려운 질문인데요… 제가 이해한 바로는 문제 정의의 시작 방향이 말씀하신 것과는 약간 다른 포인트인 것 같습니다. 논문의 핵심은 ‘배치 단위 loss에서 각각의 sample loss를 추정하자’는 것입니다. 즉 학습에 있어 loss의 고주파 성분은 어떻고 저주파 성분은 어떻다고 하기 이전에, 실제 sample loss에 가까운 값을 추론만 하면 되는 것입니다. 그런데 글에서 설명드린 대로, 수학적인 증명을 통해, batch 내의 다른 sample loss의 합(=batch composition noise)이 알고보니 고주파 성분이다보니, 이것만 EMA로 걸러주면 한 sample loss의 근사치가 나온다는 것이죠. 아 다르고 어 다른 말인 것 같지만, ‘저주파만 의미있으니 나머지는 제거해버리자’가 아닌, ‘sample loss는 저주파 성분이었다’가 포인트인 것 같습니다. 실제로 증명도 되었고요. 그렇기 때문에 특정 주파수 별로 보는 것은 이 문제정의에서는 큰 의미가 없다고 생각됩니다. 다만, sample loss를 추론하는 것이 아닌, loss 덩어리에서 학습 시그널에 더 도움이 되는 뭔가가 있을까? 라는 관점에서는 말씀하신 분석이 아주아주 의미있을 것 같습니다! (그렇다면 현재 dynamic pruning의 방법론을 넘어서는 새로운 아이디어가 되겠네요.)

      2. Ablation에서 ResNet18, 50으로 decay factor를 조절하며 실험한 결과가 있습니다. [0.5, 0.6] 범위에서는 pruning ratio는 높지만 성능이 매우 민감하다는 문제가 있고, [0.9, 1) 범위에서는 성능은 가장 좋거나 약간 떨어지지만 pruning ratio가 감소하게 됩니다. 따라서 높은 정확도와 충분한 pruning ratio의 균형을 이루는 구간은 [0.7, 0.8]이라고 합니다.

      감사합니다.

  2. 안녕하세요 예은님, 좋은 리뷰 감사합니다.
    BSE의 핵심은 타깃 샘플의 loss 변화는 저주파, 나머지 배치 데이터는 고주파라는 점인 것으로 이해했습니다. 하지만 학습 초기이거나 hard example의 경우 타깃 샘플의 loss변화 역시 커져 고주파의 특성을 보일 수 있을 것 같은데, 이러한 상황에서 EMA기반의 저주파 필터가 실제 타깃 샘플의 역동적인 loss 변화를 노이즈로 착각할 가능성은 없는지 궁금합니다.

    1. 안녕하세요 재윤님, 댓글 감사합니다!

      합리적인 의문이라고 생각하고, 실제로 그럴 가능성이 있다고 생각합니다. 다만 BLS로 sample loss를 추론하고, 그 sample loss의 예측값을 가지고 기존 dynamic pruning을 하는 파이프라인이다 보니 변수가 굉장히 많다는 생각이 듭니다. (BLS로 sample loss를 잘 추론했다 하더라도 pruning할 때 hard/noise 구분이 잘 되지 않는다면 의미가 없으니까요.) 실험적으로도 군더더기 없는 성능을 일관되게 보여주고 있으니, 말씀해주신 지점이 얼마나 큰 문제가 되는지는 천천히 고려해봐야 할 것 같네요.

      감사합니다!

Leave a Reply