[CVPR 2026] WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

안녕하세요. 오늘 소개할 논문은 중국의 대표 메신저 기업 WeChat에서 CVPR 2026에 개제한 논문으로, OVOD를 vision-language의 fusion 없이 단순한 retrieval 문제로 재정의한 논문입니다.

1. Introduction

컴퓨터 비전 분야의 recognition 문제는 closed-set의 image classification에서 대규모 이미지-텍스트 대조 학습을 활용한 open-vocabulary image retrieval로 발전해 왔습니다. 이와 함께 OVOD 기술 역시 고정된 레이블 공간을 넘어 텍스트 프롬프트로 지정된 임의의 범주를 인식하고 위치를 파악할 수 있도록 발전했습니다. zero-shot 영역 인식을 위해 최근의 OVOD 모델들은 시각과 언어의 정렬을 향상시키고자 깊은 cross-modal fusion 메커니즘을 주로 사용해 왔습니다. 하지만 이러한 융합 방식은 높은 정확도를 달성하는 대신 연산량이 매우 많아 추론 효율성이 크게 떨어지며, 시각적 특징이 특정 쿼리에 종속되어 다양한 텍스트 프롬프트 간에 특징을 공유할 수 없다는 단점이 존재합니다. 반면 non-fusion 방식은 dual-tower 구조를 채택하여 추론 속도가 매우 빠릅니다. (여기서 dual-tower 구조란 이미지와 텍스트를 각각 독립된 인코더로 처리함을 의미합니다.) 또한 인식 과정을 공유된 임베딩 공간에서 이미지 영역과 텍스트 쿼리를 매칭하는 하나의 검색(retrieval) 문제로 취급할 수 있다는 특징이 있습니다. 저자들은 이러한 검색 철학의 효율성과 범용성이라는 이점을 최대한 활용하여 WeDetect라는 모델을 제안하였습니다.

첫 번째로 제안된 WeDetect는 실시간 수준의 latency과 뛰어난 OVOD 성능을 제공하는 모델입니다. 사전 학습된 CLIP 모델을 활용하고, ConvNeXt를 백본으로 채택하였으며, 정밀하게 구축된 대규모 데이터셋 훈련을 통해 성능을 극대화하였다고 합니다.

두 번째인 WeDetect-Uni는 전체 detector를 freeze하고 objectness 프롬프트만을 미세 조정하여 범용적인 객체 proposal을 추출하는 모델입니다.

세 번째로 WeDetect-Ref는 Referring Expression Comprehension(REC)를 처리하기 위한 LMM 기반의 classification 모델입니다. 이 모델은 속도가 느린 next-token prediction 방식을 버리고, WeDetect-Uni가 추출한 proposal 목록에서 대상 객체를 한 번의 forward pass로 검색하여 병렬로 분류하는 방식을 사용합니다.

2. Related Work

2.1. Open-Vocabulary Object Detection

Open-vocabulary obejct detection은 텍스트 프롬프트를 통해 임의의 객체를 탐지하는 것을 목표로 하며 세밀한 vision-language 정렬을 필요로 합니다. 잘 정렬된 embedding space를 구축하기 위해 기존 연구들은 주로 다음 네 가지 측면에 집중해 왔습니다.

Training data constructions

먼저 방대한 이미지와 텍스트 쌍을 활용해 object detection과 phrase grounding를 통합하려는 시도가 있었으며, GLIP이 그 예시입니다. 또한 hard negative 샘플을 구성하여 세밀한 정렬과 강력한 zero-shot 성능을 달성하려는 시도들이 있었습니다.

Training objective

vision-language 간의 대조 학습 외에도 mask language modeling, dense captioning, LLM과의 co-training 등 다양한 language task를 통합하여 시각적 표현을 언어 지식으로 풍부하게 만드는 방법들이 연구되었습니다.

Vision-language fusion layers

Vision과 text feature를 통합하는 깊은 시각-언어 fusion layer는 alignment를 향상시킬 수 있지만 연산량이 많아 추론 효율성이 크게 감소하며, 추출된 시각적 특징을 다른 쿼리 전반에 걸쳐 공유할 수 없다는 한계가 있었습니다.

Model distillation

다른 파운데이션 모델로부터 open-vocabulary 지식을 distillation하여 가져오려는 방법론들도 존재했습니다. 저자는 이러한 기존의 융합 구조를 재고하고, retrieval 방법론을 따르는 단순한 구조의 모델을 제안하였습니다.

2.2. Large Vision-Language Model

LVLM은 방대한 말뭉치(corpus)로 사전 학습되어 전문적인 세계 지식과 추론 능력뿐만 아니라 뛰어난 시각적 인식 능력을 보여줍니다. 따라서 LVLM은 open-vocabulary 인식에서 뛰어난 성능을 보입니다. 이를 region 인식 능력으로 확장하기 위해 객체를 특수 토큰으로 개별 인코딩하는 시도들이 있었으나, 숫자를 discrete한 토큰으로 나타내고 크로스 엔트로피 손실로 최적화하는 언어 모델링의 특성상 정확한 객체 위치 파악에는 한계가 있었습니다. 이러한 regression의 단점을 없애고자 추가적인 디코더를 사용하거나 LLM이 참고할 수 있도록 proposal을 미리 추출하는 방법론들이 등장했습니다. 그러나 이러한 방법들조차 객체를 순차적으로 디코딩해야 하는 next-token prediction 메커니즘을 여전히 따르고 있어 추론 속도에 큰 제약이 존재했습니다. 따라서 저자들은 retrieval 방법론을 따라 LLM을 단순한 분류기로 활용함으로써 여러 객체를 병렬로 빠르게 처리하는 방식을 채택하였다고 합니다.

3. WeDetect: A Strong Detection Foundation

저자들의 핵심 목표는 retrieval 방법론을 따라 다양하게 활용할 수 있으면서도 간단하고 빠른 open-vocabulary object detector를 개발하는 것입니다. 이를 위해 시간이 많이 소요되는 fusion layer를 과감히 제거하고 CLIP의 dual-tower 구조를 채택하여 영역 단위의 인식으로 확장하였습니다. 세밀한 vision-language alignment를 달성하기 위해 데이터셋 구성과 모델 훈련에 많은 노력을 기울였다고 저자들은 말하고 있습니다.

3.1. Model Architecture

WeDetect는 multimodal fusion 레이어가 없는 dual tower 구조를 가지고 있습니다. 텍스트 인코더는 XLM-ROBERTa로 초기화되며, 이미지 인코더는 multi-scale 특징을 자연스럽게 제공하는 ConvNeXt 백본, CSPRepBiFPAN (neck), 그리고 YOLO-World의 contrastive head를 포함하는 YOLO 형태의 구조를 따릅니다. 분류를 위한 region-text contrastive loss와 box regression loss, 그리고 레이블 할당 전략은 모두 YOLO-World와 동일하게 사용합니다. 하지만 넥 내부에 fusion layer를 전혀 넣지 않고, 이미지와 클래스 텍스트 임베딩 간의 단순한 내적 연산만을 통해 분류를 수행합니다. 이러한 단순한 구조 덕분에 매우 높은 추론 속도를 보장할 수 있다고 합니다.

3.2. Dataset Construction

고품질의 데이터셋은 다양성이 풍부하고 어노테이션이 정확해야 하지만, 기존 공개 데이터셋들은 그 규모나 주석의 다양성 면에서 한계가 있었기에 저자들은 균형 잡힌 대규모 데이터셋을 직접 구축하는 데이터 엔진을 고안하였습니다.

Source image sampling

SAM-1B, LAION, CC12M, Zero 등 다양한 오픈소스 데이터셋과 라이선스가 있는 웹사이트에서 총 1,500만 개의 이미지를 샘플링했습니다. 이때 컨셉의 균형을 맞추기 위해 원본 캡션을 활용하여 희귀한 명사들을 추출함으로써 높은 이미지 다양성을 확보했습니다.

Box annotation pipeline

고품질의 multi-granularity 레이블을 주석 처리하기 위해 자동화된 데이터 엔진 파이프라인을 구축했습니다. 먼저 학습된 objectness detector를 사용해 이미지 내의 모든 관심 영역을 찾습니다. 그 후 Qwen2.5-VL 7B를 사용하여 각 인스턴스에 특화된 계층적 레이블을 생성합니다. 예를 들어 개가 있는 이미지는 “동물, 개, 노란색 개”와 같이 세분화되어 주석이 달립니다. 저자들은 구조적인 출력을 강제하고 잘못된 박스에 대해서는 인식을 거부하도록 Qwen2.5-VL 모델을 별도의 instruction 데이터셋으로 fine-tuning했습니다. 또한 SAM이 생성한 mask를 활용해 원본 이미지의 객체 바운더리를 강조하여 local한 인식 능력도 향상시켰습니다. 결과적으로 1,500만 개의 샘플과 3억 3천만 개의 바운딩 박스로 구성된 방대한 데이터셋을 구축하였다고 합니다.

3.3. Model Training

Staged-wise training method

모델에 기초적인 open-vocabulary 능력을 부여하기 위해 단계적인 training을 사용합니다. 우선 대규모 이미지-텍스트 데이터셋에서 CLIP과 유사한 이미지 수준의 대조 학습을 진행하여 vision 백본과 language 인코더를 초기화합니다. 두 번째 단계에서는 해당 백본과 인코더를 freeze하고 랜덤으로 초기화된 넥과 헤드 부분만을 훈련시킵니다. 마지막 단계에서는 전체 파라미터를 end-to-end으로 학습시켜, 사전 학습된 지식을 영역 단위 인식으로 자연스럽게 적응시킵니다.

Multi-granularity label sampling

구축된 데이터셋의 각 객체에는 다양한 granularity를 가진 계층적 레이블이 존재합니다. 저자들은 이를 일종의 데이터 증강 기법으로 활용하여, 훈련의 매 iteration마다 객체의 후보 목록에서 레이블 하나를 랜덤 샘플링하는 방식을 도입했습니다. 이러한 세밀하고 다양한 텍스트 레이블링은 단일 객체에 풍부한 supervision을 제공하며, 매 훈련마다 배치 내에 고유하고 다양한 어휘를 구성하게 하며 풍부한 negative sample을 제공함으로써 open-vocabulary 성능을 비약적으로 높였습니다.

4. WeDetect-Uni: A Universal Proposal Generator

이 절에서는 앞서 제안한 WeDetect를 기반으로, 사용자 프롬프트 없이도 범용적인 관심 객체 proposal을 생성할 수 있는 WeDetect-Uni 모델을 소개하고 있습니다.

Extracting arbitrary objects via a universal objectness prompt

저자들은 propasal generator를 구성하기 위해 WeDetect 모델 전체의 파라미터를 freeze한 상태에서, 객체 분류를 위한 단 하나의 objectness prompt만을 학습시키는 linear probing 방식의 미세 조정을 수행했습니다. WeDetect가 추출하는 시각적 특징이 본질적으로 높은 변별력을 지니고 있기 때문에, 그것만으로도 높은 recall rate을 달성할 수 있었다고 합니다. 중요한 점은, class-agnostic한 기존의 네트워크들과 달리, 상위 점수를 받은 proposal의 박스 임베딩이 여전히 class-specific한 세밀한 정보를 담고 있다는 것입니다. 저자들은 이 점이 새로운 하위 과제로 확장할 수 있는 중요한 토대가 된다고 말하고 있습니다.

A new local object retrieval task

저자들은 담배꽁초나 표지판처럼 local한 세밀함을 가지는, 즉 특정 객체가 포함된 이미지를 모두 찾아내는 새로운 형태의 object retrieval 과제를 제안합니다. 이는 이미지 전체의 전역적이고 포괄적인 의미에 집중하는 기존 CLIP 기반 이미지-텍스트 retrieval을 상호 보완하는 역할을 합니다. 모델 평가는 COCO와 LVIS 데이터셋을 활용하여 클래스 이름을 쿼리로 삼아 정밀도, 재현율, F1 점수를 측정하는 방식으로 수행되었습니다.

Applying WeDetect-Uni to the object retrieval task

기존 CLIP이 각 이미지를 단일 임베딩으로 인코딩하는 방식과 달리, WeDetect-Uni는 이미지를 세밀한 객체 임베딩들의 집합으로 표현합니다. 즉, 모델을 통해 이미지 내 관심 영역을 모두 검출한 뒤, 상위 점수를 얻은 박스 proposal들의 임베딩을 캐시 형태로 사전에 저장해 둡니다. 이후 사용자의 새로운 텍스트 쿼리가 입력되면 복잡한 추가 연산 없이 캐싱된 임베딩과의 단순한 내적 연산만으로 매우 빠른 속도의 객체 검색이 가능해집니다.

5. WeDetect-Ref: An LLM-Based REC Model

5.1. Formulating REC as Retrieval

현실 세계에서 사용자가 입력하는 지시 쿼리는 객체의 외형, 위치, 재질을 묘사하거나 상식에 기반한 추론 능력을 요구할 정도로 매우 복잡할 수 있습니다. 저자들은 이러한 복잡한 Referring Expression Comprehension(REC) 과제를 해결하기 위해 LMM을 도입하고자 했으나, 두 가지 치명적인 문제점이 있었습니다. 첫째, 언어 모델은 cross entropy loss 기반의 language modeling 방식을 따르기 때문에 정밀한 객체 위치 파악용으로 부적합했습니다. 둘째, 객체의 위치 좌표를 순차적으로 생성해야 하는 next-token prediction 메커니즘을 따르고 있어 모델이 여러 번 forward pass를 거쳐야 하므로 latency가 극도로 길어졌습니다.
이를 해결하기 위해 저자들은 REC 과제를 일종의 retrieval 문제로 완전히 재정의하여, LLM을 단순히 사전 추출된 후보 목록에서 대상 객체를 정확히 찾아내는 이진 분류기로 활용했습니다. 구체적으로 WeDetect-Uni를 통해 객체 후보를 선별하고, multi-scale RoI 특징을 linear object projector를 통해 단일 토큰으로 압축합니다. 이후 전체 이미지 토큰, 압축된 객체 토큰 목록, 그리고 사용자 쿼리를 함께 병합하여 LLM에 입력하면, LLM은 새롭게 설계된 classification head를 거쳐 해당 객체가 쿼리에 부합하는지 병렬로 판별하게 됩니다.

식으로 나타내면 위와 같으며, I는 이미지 토근, q는 사용자 쿼리, o_i는 객체 토큰입니다.

이러한 패러다임 전환은 언어 모델 고유의 뛰어난 추론 능력과 open-vocabulary 성능을 온전히 활용하면서도, next-token prediction을 버려 단 한 번의 forward pass만으로 빠른 추론을 가능하게 만들었습니다.

5.2. A Three-Stage Training Recipe

본 모델은 오픈소스 MLLM인 Qwen3-VL을 베이스라인으로 활용하며, 이 거대한 모델에 세밀한 영역 인식 능력을 효과적으로 부여하기 위해 다음과 같은 3단계 training을 거치게 됩니다.

Stage 1: Region projector training

첫 번째 단계에서는 객체가 위치할 텍스트 상의 공간을 마련하기 위해 새로운 placeholder 특수 토큰인 “<object>”를 도입합니다. 각 객체 영역에 대해 RoIAlign을 사용해 특징을 추출한 뒤 새롭게 추가된 region projector를 통해 이를 단일 토큰으로 압축합니다. 위치 좌표는 위치 임베딩으로 인코딩되어 객체 토큰에 더해지고, 기존의 placeholder를 이 토큰들로 교체하여 LLM으로 보냅니다. 이 단계에서는 이미지 및 영역 단위의 단편적인 캡션 데이터 700K개를 활용하여 새롭게 도입된 프로젝터 부분만을 가볍게 미세 조정합니다. 데이터의 형식은 아래와 같습니다.

Stage 2: Region perception finetuning

두 번째 단계에서는 비전 인코더의 파라미터를 계속 freeze한 상태로 유지하며, LLM 본체와 projector가 시각적 객체 토큰과 더 잘 정렬되도록 추가적인 미세 조정을 진행합니다. 캡션 데이터 외에도 약 170만 개에 달하는 광범위한 이미지 및 region-level의 instruction 튜닝 데이터를 포함시켜 학습함으로써, LLM이 특정 객체를 정확히 인식할 수 있도록 성능을 향상시킵니다.

Stage 3: Region classification finetuning

마지막 단계에서는 LLM을 본래의 text generator가 아닌 완전한 classifier 모델로 변환시킵니다. 기존의 language modeling head를 과감히 폐기하고, 오직 객체 토큰의 은닉 임베딩 위에서만 작동하는 binary classification head를 새롭게 학습시킵니다. 모델이 한 번에 여러 제안 객체들을 병렬로 처리할 수 있도록 쿼리 템플릿을 재구성하였으며, 실제 GT bbox와 IoU 0.5 이상 겹치는 제안 영역들을 positive 샘플로 간주하여 sigmoid focal loss 함수를 통해 부드럽게 최적화를 수행합니다.

데이터셋은 위와 같습니다. “CLASSNAME”은 사용자가 제공한 범주이며, <object>의 수는 proposal의 수와 같습니다. 4백만 개 샘플을 포함하는 오픈소스 object detection 데이터셋과, REC 데이터셋을 수집하여 학습에 사용하였다고 합니다.

6. Experiment

6.1. Main Result

WeDetect achieves superior open-vocabulary object detection performance with a faster inference speed.

WeDetect의 성능을 입증하기 위해 LVIS, COCO, COCO-O, ODinW 등 vocabulary 규모와 도메인이 서로 다른 벤치마크 환경에서 zero-shot 평가를 진행했습니다. 평가 결과 Table 1에서와 같이, WeDetect는 다양한 model scale에서 r가장 높은 성능을 달성했습니다. 구체적으로 가장 작은 WeDetect-Tiny 모델은 YOLO-World-L 모델보다 AP가 높으면서도 62.5 fps라는 더 빠른 동작 속도를 보입니다. 크기를 키운 WeDetect-Large 모델은 난이도가 높은 LVIS 데이터셋에서 기존 SOTA 모델인 T-Rex2를 3.6 AP 차이로 압도했습니다. 또한 cross-modal fusion layer을 제거한 dual-tower 구조 덕분에, WeDetect 모델군은 유사한 성능의 GroundingDINO 모델들보다 inference 속도 면에서 base는 6배, large는 3배가 빠른 것을 확인할 수 있습니다.

WeDetect-Uni gets high recall rates with only a learnable prompt.

WeDetct-Uni는 범용적인 proposal 생성을 위해 학습 가능한 프롬프트만 학습합니다. COCO, LVIS, PACALVIS 세 벤치마크에서 평가하였는데, 이들은 동일한 이미지를 공유하지만 annotation의 granularity가 다르다는 특징이 있습니다. COCO는 80개의 클래스, LVIS는 1203개의 클래스, PACO는 객체의 특정 파트까지 추가로 annotation을 합니다. Table 3에서 WeDetect-Large-Uni는 모든 데이터셋에서 가장 높은 recall을 보입니다.

WeDetect-Uni enjoys unique advantages in the region-wise object retrieval task.

COCO val과 LVIS val을 벤치마크로 사용하고, 카테고리 이름을 query로 사용한 retrieval task에 대한 실험입니다. 기존 Image-level 임베딩 기반 모델과 달리 WeDetect-Uni는 이미지 전체가 아니라 이미지 내 여러 proposal을 추출하고, 각 후보의 box 임베딩과 text query를 매칭하는 local retrieval 방식을 사용합니다. 마찬가지로 기존 모델들보다 좋은 성능을 보입니다.

WeDetect-Ref excels in REC tasks with many fewer parameters and a much faster inference speed.

REC를 위해 LLM과 결합한 WeDetect-Ref 4B 모델은 RefCOCO 계열 벤치마크에서 평균 93.2점이라는 성능을 보여주고 있습니다. 이는 베이스라인인 Qwen3-VL 4B보다 6.6점이 높은 수치이며, thinking ability를 가진 거대한 모델들을 능가하는 수치입니다. 또한 next-token prediction이라는 병목을 제거하고 classification 문제로 바꾼 덕분에, WeDetect-Ref 4B는 Qwen3-VL 4B보다 13배나 빠른 속도를 보였습니다.

7. Conclusion

WeDetect는 그간 vision-language 모델 진영에서 성능 향상의 필수 요소로 여겨져 왔던 무거운 cross-modal fusion layer를 과감하게 제거하고, 대상을 미리 구성된 후보 목록에서 찾아내는 단순한 retrieval 방식을 성공적으로 도입했습니다. 이러한 설계 철학을 바탕으로 WeDetect(빠르고 강력한 detection foundation), WeDetect-Uni(범용적인 proposal generator), 그리고 WeDetect-Ref(next-token prediction을 제거한 LLM 기반 REC 모델)을 제안하였습니다. 결론적으로 이 모델들은 15개의 다양한 벤치마크에서 SOTA를 보였으며, 일반화 능력과 속도 측면에서도 매우 이점이 있음을 저자들은 강조하고 있습니다.

Author: 이 예은

3 thoughts on “[CVPR 2026] WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

  1. 리뷰 잘 읽었습니다.
    결국 이 논문이 주장하는건 제가 이해하기로 ‘OVOD를 Detection 문제가 아니라 Retrieval 문제로 보자‘ 같은데요. 몇 가지 궁금한 점이 있어 댓글 남겨드겠습니다.

    1. 결국 제안하는 WeDetect의 성능 향상이 정말 retrieval formulation 때문인지, 아니면 1500만 장 이미지와 3.3억 개 박스를 활용한 대규모 데이터 덕분인지 궁금해지네요. 방법론과 데이터셋 각각 분리한 실험이 있다면 더 좋았겠다라는 생각이 드는데 있었을까요?

    2. Introduction에서는 cross-modal fusion의 높은 연산 비용을 주요 문제라고 하면서 retrieval 기반 연구를 제안한거 같은데…(GroundingDINO, GLIP 이런애들이겠죠?)
    그런데 WeDetect-Ref에서는 다시 LLM을 활용하여 객체 토큰과 텍스트를 함께 처리하고 있는것 같습니다 이 부분이 LLM resoning 과 같다고 이해했습니다
    이 WeDetect-Ref에서의 LLM reasoning 비용과 기존 fusion-based OVOD의 연산 비용은 차이가 없는건지? 궁금해지네요!

  2. 안녕하세요 예은님 좋은 리뷰 감사합니다

    아주 간단한 질문 2가지가 있어 질문드립니다
    시각적 특징이 특정 쿼리에 종속되어 다양한 텍스트 프롬프트 간에 특징을 공유할 수 없다는 단점이 존재한다고 하셨는데 이게 어떤 의미인지 한 이미지에 여러 텍스트와 대응이 안된다는 것인가요 ??
    두번째로는 저자들이 backbone을 Convnext를 사용하였는데 토큰처리는 어떻게 되었는지 궁금합니다.

    감사합니다

  3. 예은님 좋은 리뷰 감사합니다.

    WeDetect-Uni가 objectness에 해당하는 영역을 예측하도록 하는데, 이 과정에서도 retrieval 방식으로 접근하는 지 궁금합니다.
    또한 WeDetect-Uni가 학습한 객체성이 데이터 셋에 따라 주관적일 수 있을 것 같은데, 이에 대한 예은님의 의견이 궁금합니다.
    마지막으로, 해당 논문과 예은님이 구축하셨던 RAG 기반의 파이프라인이 어떤 차이점이 있는 지 정리해보시면 좋을 것 같습니다.

Leave a Reply