[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

안녕하세요, 마흔 한번째 x-review 입니다. 이번 논문은 2023년도 NeurIPS에 게재된 CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection입니다. 그럼 바로 리뷰 시작하겠습니다 !

1. Introduction

3차원 물체 검출에서 기존에는 대부분 전체 scene 내에서 검출 물체로 선정한 한정된 카테고리로 어노테이션된 데이터셋에 의존도가 높았기 때문에 다양한 물체가 존재하는 real world 관점으로 올리기에는 부족한 상황 입니다. 그래서 새로운 물체를 검출할 수 있는 OV-3DDet이 본 논문이 등장할 때 쯤, 그러니까 23년도에 굉장히 핫한 새로운 task로 다루어졌습니다. OV-3DDet에서는 일반적으로 제한된 물체를 고려한 데이터셋에서 모델을 학습하고, 새로운 물체가 존재하는 scene에서 평가하게 됩니다. 그러나 이러한 동작 과정에서는 새로운 문제점이 발생하는데요, 바로 이미지 데이터셋과 다르게 3차원 물체 검출 데이터셋에서 어노테이션 카테고리 개수는 많아야 18개, 적으면 10개까지 줄어들어 그러한 적은 카테고리로 학습한 모델을 이용해서 새로운 물체를 찾아야 한다는 점 입니다. 24년도인 지금이야 어노테이션 없이도 OV를 할 수 있는 모델이 등장하였지만 당시에는 이러한 제한적인 클래스를 고려한 연구 조차 거의 진행되고 있지 않았다고 합니다.

당해년도에 제가 이전에 리뷰한 논문의 방법론이 새로운 물체 박스를 찾기 위해 사전학습된 2D OVDET 모델을 사용해서 2차원 물체 박스를 localization한 다음에 이를 3차원 물체를 찾기 위한 수도 3차원 박스로 사용하는 방식을 처음으로 제안하게 됩니다. 이처럼 새로운 물체의 위치를 찾기 위해서 외부적인 이미지 모델에 직접적으로 의존하는 대신에, 본 논문에서는 사용할 수 있는 기존 데이터셋의 제한된 어노테이션 정보를 기반으로 새로운 3차원 바운딩 박스를 찾을 수 있는 학습 방식을 설계하고자 하였습니다. 그렇게 얻은 새로운 물체와 사람이 어노테이션한 기존 물체를 사용해서 class-agnostic하고 class-specific한 모달리티 사이의 alignment를 맞추는 연구를 진행하였습니다. 또한 새로운 물체 박스와 cross-modal alignment를 같이 학습해서 새로운 물체의 위치와 분류를 동시에 수행하였습니다.

좀 더 구체적으로 얘기해보면, 새로운 물체를 찾기 위해서 먼저 3차원, 2차원 영역의 정보를 모두 사용하여 학습 과정에서 더 많은 새로운 물체를 발견할 수 있는 3D-NOD(3D Novel Object Discovery) 방식을 제안 합니다. 이는 모델이 기하학적인 포인트 클라우드의 feature을 기반으로 박스의 기하학적인 prior을 제공할 수 있는 class agnostic한 3차원 바운딩 박스 예측을 학습할 수 있습니다. 발견한 새로운 물체 박스에 대해서 VLM인 CLIP을 활용하여 의미론적인 카테고리 prior를 추가적으로 제공할 수 있습니다.

또한 기본 데이터셋에서 제공하는 어노테이션 박스와 새롭게 발견한 박스를 모두 사용해서 대규모 vocabulary 공간에서 3차원 물체 feature을 2차원 물체 feature와 텍스트 feature와 align을 맞추는 발견한 물체 중심 cross modal alignment(DCMA) 모듈을 제안합니다. DCMA는 class agnostic한 박스 별 feature distillation과 클래스별 feature alignment, 이 두 가지 주요 구성 모듈로 이루어져 있습니다. 전자는 특정 카테고리에 대한 정보만에 의존하지 않고, 3차원 포인트 크라우드 feautre와 CLIP으로부터 나온 이미지 feature를 박스 레벨에서 alignment 맞춥니다. distillation은 포인트와 이미지 feature를 3차원 박스가 포함된 영역이라면 클래스를 가리지 않고 더 가까워지도록 합니다. 후자인 DCMA는 어노테이션된 물체와 새로운 물체의 클래스 정보를 통해 cross modal contrastive learning 방식으로 큰 카테고리 vocabulary 공간에서 3차원 물체 feature을 CLIP으로부터 나온 텍스트 feature와 alignment 맞추게 됩니다.

이런 3D-NOD와 DCMA를 통합하여 CoDA라는 하나의 프레임워크로 제안하며, 두 모듈이 상호보완적으로 도움이 되도록 학습한다고 합니다. 3D-NOD를 통해 발견한 새로운 물체 박스를 모달리티 간의 feautre alignment을 향상시킬 수 있으며 DCMA를 통해 새로운 물체에 대한 모델의 localization 성능을 개선할 수 있게 됩니다. 이러한 프레임워크를 제안하는 본 논문의 main contribution을 정리하면 다음과 같습니다.

  1. 외부적인 2D open vocabulary detection 모델 활용 없이도 새로운 물체 검출을 학습할 수 있는 end-to-end Open-vocabulary 3D object detector 프레임워크인 CoDA 제안
  2. 3D-2D를 함께 활용하여 새로운 물체를 찾을 수 있는 효과적인 3D-NOD 방식 설계, 찾은 새로운 물체를 기반으로 3D-2D-text feature의 align을 맞추기 위한 DCMA 모듈 도입
  3. 3D-NOD와 DCMA를 같이 학습하여 상호보완적인 메커니즘 설계

2. Methods

2.1. Framework Overview

Fig.1을 통해 모델의 프레임워크를 먼저 간략히 살펴보도록 하겠습니다. Fig.1에서 인코더와 디코더로 표시된 부분은 제가 이전에 리뷰했던 OV-3DDET 관련 논문들에서도 그랬다시피 3D Detector 3DETR을 백본 네트워크로 활용하되 뒷단의 클래스별 classification head는 제외하여 사용하고 있습니다. 여기서 추가적으로 Open Vocabulary 검출을 위해 사전학습된 VLM인 CLIP을 활용해서 open world에 대한 정보를 제공합니다. CLIP 모델 같은 경우에는 Fig.1의 이미지 브랜치에서 이미지 인코더와 텍스트 인코더로 구성되어 있겠죠.

그 다음 새로운 물체의 위치를 찾기 위해 기본 클래스에 대한 3차원 박스의 기하학적 prior와 CLIP의 2차원 의미론적인 prior를 같이 활용하여 새로운 물체를 찾는 3D-NOD 방식을 제안합니다. 또한 새로운 물체의 클래스를 분류하기 위해 찾은 새로운 물체 박스를 가이드 삼아 포인트 클라우드와 이미지/텍스트 모달리티의 feature alignment를 맞추는 DCMA 모듈을 설계하였습니다. 그리고 두 모듈을 통합하여 새로운 프레임워크인 CoDA를 구성하여 상호보완적인 학습을 할 수 있도록 최적화 하였습니다.

2.2 3D Novel Object Discovery (3D-NOD) with Cross-Priors

그럼 먼저 3D-NOD부터 살펴보도록 하겠습니다. 3D-NOD를 통해 새로운 물체를 찾기 위해 3차원-2차원의 prior를 활용하였는데요, 먼저 3차원 영역에서는 기본 물체의 어노테이션에서 제공하는 3차원 박스의 기하학적 정보를 활용하여 클래스에 상관없이 박스 predictor을 학습합니다. 2차원 영역에서는 CLIP 모델의 시맨틱한 prior를 활용하여 3차원 물체가 새로운 클래스 라벨에 속할 확률을 구하여 클래스를 할당하게 되죠. 이 두 차원에서의 prior를 통해 얻는 정보를 합쳐서 새로운 물체의 위치와 클래스를 알 수 있게 됩니다.

Dicovery based on 3D Geometry Priors

먼저 3차원 학습 데이터셋에서 어노테이션된 클래스에 해당하는 물체에 한정하여 3차원 물체 박스에 대한 라벨 풀 O^{base}_0를 식(1)과 같이 초기화합니다.

  • C^{Seen} : 수동 어노테이션한 학습 데이터의 클래스 집합

O^{base}_0를 기반으로 백본 네트워크인 3DETR에서 나온 물체 박스에 대한 regression loss를 최소화하는 방향으로 초기 3차원 detector W^{det}_0를 학습할 수 있습니다. W_0에 대해서 class agnostic한 물체 검출을 하고자 하는데, 이는 class agnostic box regression과 objectness 예측을 통해 모델을 훈련하고 클래스별 classification loss를 활용하지 않는다는 의미로 확장할 수 있습니다. 이러한 학습 흐름은 기본 클래스의 supervision을 통해 클래스별 학습을 하게 되면 새로운 클래스를 가지는 물체를 발견하는데 방해가 되기 때문입니다. 결국 모델은 출력으로 위치에 대한 파라미터와 물체의 클래스 확률을 포함한 박스를 예측하게 되는 것이죠. 정리하면 3DETR에서 임베딩되는 n번째 물체 쿼리가 있을 때, 기본 클래스 박스에서 기하학적 prior를 활용하여 학습한 W^{det}_0를 기반으로 물체의 objectness 확률 p^g_n을 예측합니다.

Discovery based on 2D CLIP Semantic Priors

위와 같이 3차원의 prior를 사용하고 나서 식(2)와 같이 포인트 클라우드의 바운딩 박스 I^{3D}_n을 카메라 파라미터 M을 통해 이미지의 2차원 바운딩 박스 I^{2D}_n으로 사영하게 됩니다.

이렇게 물체에 대한 이미지에서의 박스 영역을 구하게 되면 그 다음으로 그 영역을 CLIP의 이미지 인코더 E^{CLIP}_I의 입력으로 넣어 2D 물체 feature F^{Obj}_{I,n}을 출력으로 받습니다. 학습 중에 테스트 데이터에 대한 클래스를 알 수 없기 때문에 이전 연구에서의 수퍼 카테고리 리스트라고 불리는 T^{super}를 사용하여 풍부한 물체 클래스에 대한 텍스트 description을 얻었다고 합니다. 그 다음 CLIP의 텍스트 인코더 E^{CLIP}_TT^{super}를 인코딩하여 텍스트 임베딩 F^{Super}_T를 얻습니다. 그리고 나서 대응하는 이미지 feature을 통해 3차원 물체의 의미론적 확률 분포인 P^{3dObj}_n을 식(3)과 같이 구하게 됩니다.

  • C : 슈퍼 카테고리 리스트 셋에 정의된 클래스 수
  • \dot : 내적

이렇게 구한 P^{3dObj}는 CLIP 모델에서의 semantic한 prior를 제공하게 되고, 전체 물체 쿼리에 대한 클래스 라벨인 c^*P^{3dObj}dp argmax를 태워서 구할 수 있습니다. 이렇게 3차원, 2차원의 prior를 모두 구했으면 3차원 prior로부터 얻은 objectness p^g_n과 2차원 prior로부터의 p^s_{n,c^*}을 모두 합쳐서 t번째 에포크에 대한 새로운 물체를 식(4)와 같이 정의하여 찾을 수 있습니다.

  • IoU_{3D} : 두 박스의 3D IoU
  • \theta_s, \theta_g : 의미론적, 기하학적 prior의 임계값
  • C^{Seen} : 학습 데이터에서 어노테이션 되어 있는 클래스 집합

이렇게 발견된 새로운 물체 O^{disc}_t는 초기 박스 라벨 풀로 지정했었던 O^{base}_0에 추가되고 새로운 물체가 추가 되고 나면 박스 라벨 풀은 O^{novel}_t로 정의하게 됩니다.

모델은 새로운 물체 상자 라벨 풀을 반복적으로 업데이트함으로써 새로운 물체 O^{novel}_t를 확장하면서 모델 W_tO^{novel}_t를 supervision으로 활용하여 새로운 물체를 localization하는 능력을 향상시킵니다.

결국에는 3D-NOD에서는 CLIP의 semantic prior와 W_t의 3차원 prior를 통해 학습이 진행되면서 점점 더 많은 새로운 물체를 발견할 수 있게 됩니다.

3.3 Discovery-Driven Cross-Modal Alignment (DCMA)

이제 DCMA를 살펴볼텐데요, DCMA는 CLIP 모델에서 Open vocabulry 능력을 가져오기 위해 앞서 발견한 새로운 물체 박스 O^{novel}를 기반으로 3차원 물체 feature을 이미지/텍스트 feature와 align 맞추는 모듈이라고 말씀드렸습니다. 이 모듈은 class agnostic distillation과 class별 contrstive alignment를 모두 수행하고 있습니다.

Object-Box Class-agnostic Distillation

먼저 저자는 class agnostic distillation를 통해 CLIP에서 더 많은 open world 정보를 전달받고 있다고 주장하고 있습니다. n번째 물체 쿼리가 있을 때 디코더의 마지막 레이어에서 업데이트된 3차원 feature F^{3dObj}_n가 나오겠죠. 이 feature을 가지고 모델은 3차원 박스를 파라미터화한 I^{3D}_n을 예측하고나서 앞선 식(2)를 통해 마찬가지로 사영된 2차원 박스를 구할 수 있습니다. 이 2차원 박스에 해당하는 영역만큼을 이미지에서 crop해서 CLIP의 입력으로 넣으면 2차원의 사영된 박스에 대한 물체의 feature인 F^{2DObj}_n까지 구할 수 있겠죠. 그럼 두 차원에서의 물체 feature을 모두 구했으니 두 feature 공간을 최대한 가깝게 하기 위해 식(6)과 같이 정의하는 class agnostic L1 distillation loss를 계산합니다.

  • N : 물체 쿼리 수

Fig.2를 통해 알 수 있듯이 물체가 배경 영역을 포함하더라도 class agnostic distillation은 두 모달리티 간의 차이를 좁혀서 다른 모달리티와 scene에 대해 보다 일반성을 가지는 alignment를 맞출 수 있습니다. class agnostic distillation은 GT 박스의 클래스 라벨이 필요하지 않기 때문에 해당 loss 계산에서는 어노테이션이 필요하지 않습니다.

Discovery-driven class-specific contrastive alignment.

업데이트된 n번째 쿼리 임베딩에 대한 3차원 물체 feature F^{3DObj}_n으로 feature가 기본 클래스와 T^{super}에 정의된 새로운 물체 클래스 두 집합 모두에 대해 변별력을 가질 수 있다고 가정하였습니다. 그래서 CLIP의 텍스트 feature와 class별 alignment를 추가적으로 수행하였는데요, 식(7)과 같이 3차원 물체 feature와 텍스트 feature 사이의 내적 연산을 통해 유사도를 계산할 수 있습니다.

그런 다음 포인트와 텍스트 사이 contrstive loss를 계산하여 물체 쿼리의 3차원 feature을 학습하기 위한 supervision을 제공하게 됩니다. cross modality에 대한 contrastive loss를 계산하기 위해 두 모달리티 사이에 가장 유사한 쌍 ( 식(7)을 통해 유사도를 계산할 수 있으니 )을 GT 라벨로 인지해야 합니다. 예측한 3차원 바운딩 박스와 박스풀 O^{label}에서 발견한 새로운 박스를 일치시키기 위해 bipartite 매칭을 선택하였다고 합니다. 이는 물체 쿼리 임베딩이 학습 중에 주어지는 새로운 물체에 대한 supervision의 한계로 인해서 노이즈가 많은 3차원 바운딩 박스를 예측할 수 있기 때문에 클래스별 alignment가 배경 박스가 아니라 물체에 대해서 이루어질 수 있도록 하기 위함입니다.

노이즈가 존재하는 박스에 대해 클래스별 alignment를 하게 되면 3차원 물체의 feature가 아무래도 구별력이 떨어질 수 밖에 없는데, O^{label}에서 일치하는 라벨이 있으면 최대 유사도 점수를 찾아서 해당하는 클래스 라벨을 구하고 n번째 물체 쿼리의 3차원 feature에 대해 one hot encoding을 거진 벡터 h_n을 계산합니다. 즉 배경이 아닌 물체의 새로운 박스를 사용해서 식(8)과 같이 cross modality contrastive loss를 정의할 수 있습니다.

  • [latexl]N[/latex] : 물체 쿼리 수
  • 1(\dot) : 쿼리와 박스 라벨 풀 사이에 일치하는 상자가 확인되면 1, 그렇지 않으면 0을 반환하는 함수
  • CE(\dot) : Cross Entropy Loss

이렇게 새로운 물체를 기반으로 물체 쿼리는 cross modality alignment에 사용되어 더 나은 feature alingment가 가능하도록 합니다.

3D-NOD를 통해 찾은 새로운 물체 박스를 DCMA에 넘겨서 모달리티 간의 alignment를 맞춤으로써 더 구별성을 가지고 새로운 물체를 정의하는 방향으로 3차원 물체에 대한 향상된 localization과 classification을 함께 학습할 수 있습니다.

3. Experiments

3.1. Model Analysis

Effect of class-agnostic distillation

class agnostic한 distillation의 효과를 확인하기 위해 우선 3DETR을 학습합니다. 그 다음 3차원 바운딩 박스를 이미지에 사영해서 2D 물체에 대한 영역을 찾아 crop 합니다. 이를 CLIP 모델에 입력으로 넣어서 open vocabulary 분류를 수행해서 포인트와 이미지 입력을 필요로 하는 open vocabulary 3D detector 프레임워크를 구성합니다. 이러한 프레임워크를 실험에서 ‘3DETR+CLIP’으로 표시한다고 합니다.

class agnostic한 distillation만으로 3DETR을 학습하는 모델을 베이스라인 모델로 사용하며 실험에서는 ‘Distillation’으로 표기합니다.

이제 실험 결과를 살펴보면 Tab.1에서 볼 수 있듯이, 이미지 없이 포인트 만을 입력으로 하는 경우 Distillation 모델이 3DETR+CLIP 모델과 새로운 물체에 대한 AP에서 유사한 결과를 얻었고, 이러한 결과는 class agnostic distillation이 3DETR에게 새로운 물체를 검출하는 능력을 제공하고 있다는 것을 확인할 수 있습니다.

Effect of 3D Novel Object Discovery (3D-NOD).

베이스라인 모델을 기반으로 3D-NOD 방식을 적용한 모델을 ‘3D NOD+Distillation’로 표기합니다. Tab.1을 보면 ‘3D NOD+Distillation’이 ‘Distillation’과 ‘3DETR+CLIP’보다 더 높은 recall을 달성한 것을 확인할 수 있습니다. 이러한 결과는 3D-NOD가 학습 중에 더 많은 새로운 물체를 더 많이 발견할 수 있었기 때문에 더 높은 AP_{Novel}로 이어지게 됩니다.

학습 중에 새로운 물체 발견이 얼마나 영향을 주는지 분석하기 위해 전체 학습 과정에서 중간 중간 체크포인트를 가지고 모델을 evaluation 해보았다고 합니다. Fig.3을 봤을 때 파란색 곡선은 AP_{Novel}, 주황색 곡선은 AR_{Novel}을 표시합니다. 검은색 점선의 왼쪽은 베이스 모델의 학습 과정으로 1080 에포크를 학습했다고 합니다. 그러고 나서 베이스 모델에 3D-NOD 방식을 적용해서 검은색 점선의 오른쪽에 표시된 것처럼 추가적인 200 에포크를 추가적으로 학습합니다.

기본 라벨에 한정된 베이스 모델의 AP_{Novel}은 1000 에포크에서 거의 성능이 향상되지 않고 학습이 계속될수록 오히려 AR_{Novel}은 감소하기 시작하는데, 이러한 경향은 새로운 물체에 대한 어노테이션이 부족하기 때문에 클래스 forgetting 현상이 발생한 것이라고 분석하였습니다. 반면에 3D-NOD 방식을 추가하면 AP_{Novel}AR_{Novel}이 모두 크게 증가하면서 효과를 입증하고 있습니다.

Effect of Discovery-Driven Cross-Model Alignment (DCMA)

다음으로 여러 alignment 방식이 3D NOD+Distillation 모델에 미치는 영향을 살펴보도록 하겠습니다. 먼저 테이블에서 ‘3D-NOD+Distillation & PlainA’로 표시된, 일반적인 텍스트와 포인트 alignment 방식을 적용하였습니다. 일반적인 alignment라고 함은 3D-NOD로 발견한 상자를 사용하는 것이 아니라 기존 클래스의 텍스트의 카테고리 리스트를 alignment를 맞추는 것을 의미합니다. Tab.1을 보면 AP_{Base}가 3D-NOD+Distillation보다 높게 나타나면서 기존 클래스 텍스트가 모달리티 간의 feature을 alignment를 개선하는데 도움이 되는 것을 확인할 수 있습니다. 또한 3D NoDE는 마찬가지로 AR_{Novel}을 향상시키면서 새로운 물체를 발견하는데 긍정적인 영향을 주고 있습니다. 그러나 AP_{Novel}이 0.85% 더 낮아졌는데, 이러한 결과에 대해서는 3D-NOD에서 발견한 상자를 활용하지 않게 되면 모델이 새로운 클래스에 대한 구별력을 잃어버리기 때문이라고 분석하고 있습니다. 반면 발견한 상자 기반의 클래스별 cross modality alignment를 적용한 후의 모델인 ‘3D-NOD+DCMA’ 모델이 AP_{Novel}AP_{base} 두 성능 지표에서 가장 높은 성능을 보이고 있습니다. 이를 통해 일반적인 alignment에 비해 3D-NOD를 통해 더 큰 범위의 vocabulary를 사용함으로써 사용하는 alignment 방식이 더 구별력 있는 물체의 feature을 사용하도록 도와준다는 것을 확인할 수 있습니다.

Effect of the collaborative learning of 3D-NOD and DCMA

Tab.1을 보면 3D-NOD를 사용하지 않은 alignment 방식과 비교했을 때, 3D-NOD 방식이 모델 간의 alignment를 개선함으로써 새로운 클래스에 대한 분류 성능을 향상시키고 있습니다. DCMA가 물체를 찾는데 미치는 영향을 확인하기 위해, DCMA를 사요하지 않은 ‘3DETR+CLIP’ 모델에 3D-NOD를 적용해보았으며 이를 실험 테이블에서 ‘3DETR+CLIP+3D-NOD’로 표기합니다.

이제 Tab.2를 보면 완전한 모델인 3D-NOD+DCMA는 모든 성능 지표에서 비교 모델보다 더 나은 성능을 보이고 있습니다. 이는 설계한 DCMA가 물체 쿼리 임베딩에 대해서 보다 구별력 있는 특징 표현을 학습하는데 도움이 되면서 localization 성능을 향상시키고 있습니다.

The Sensitivities of Thresholds in 3D-NOD

3차원의 새로운 물체를 발견할 때 이미지 prior와 기하학적 prior를 활용하려면 두 개의 임계값이 필요한데, 이에 대한 ablation study를 진행하였다고 합니다. 0.0으로 표시된 첫번째 행은 contribution이 포함되지 않는 베이스라인 모델을 의미하며, 3D-NOD 방식이 다양한 범의의 임계값에서 안정적으로 개선을 보여주면서 선정한 임계값에 민감하게 반응하지 않으며 의존도가 낮다는 것을 보여주고 있습니다. Tab.3을 보면 다양하게 임계값 설정을 변경하면서 학습된 모델은 성능에 변동이 있는 것은 맞지만 3D-NOD를 사용하지 않고 학습한 모델보다 70% 이상의 차이를 보이며 일관된 성능 향상을 보여주고 있습니다.

3.3. Comparison with Alternatives

본 논문에서는 벤치마킹을 마지막에 하고 있는데, 해당 실험 살펴보고 리뷰 마치도록 하겠습니다.

OV-3DDET는 새롭게 등장한 task로 이전 연구가 거의 없기 때문에 세팅이 비교적 자유로워 기존 결과와 직접적으로 비교하기는 어려웠다고 합니다. 그래서 당시 최신 OV-3D classification 방식을 세팅에 적용해서 성능을 평가하였다고 합니다. 3DETR를 사용해서 수도 바운딩 박스를 생성하고 PointCLIP, PointCLIPv2 그리고 Det-CLIP2를 사용해서 OV DET를 수행합니다. 이 방식은 각각 Det PointCLIP, Det-PointCLIPv2, 그리고 Det-CLIP2로 실험 테이블에 표기되어 있습니다. 그 다음에 이미지를 입력으로 사용하는 브랜치를 추가하는데, 카메라 파라미터를 사용해서 3D 브랜치의 결과를 이미지 영역으로 사용해서 crop 합니다. 마지막으로 CLIP 사용해서 해당 영역에 대한 classification을 진행합니다. 이러한 파이프라인을 통해 Tab.4에서 3D-CLIP으로 표시되는 검출 결과를 만들어낼 수 있습니다. 이 세팅으로 실험을 진행한 결과 Tab.4에서 보이는 것처럼 본 논문의 방법론이 Novel과 관련된 성능 뿐만 아니라 모든 지표에서 높은 성능을 보이며 새로운 물체에 대한 localization과 classification이 개선된 것을 확인할 수 있습니다.

Author: 손 건화

2 thoughts on “[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

  1. 좋은 리뷰 감사합니다.

    해당 논문은 2D open vocabulary detection 모델을 사용하는 대신 기존의 데이터 셋을 활용하여 새로운 물체로의 확장을 고려한 논문으로 이해하였습니다.

    ‘3차원 영역에서는 기본 물체의 어노테이션에서 제공하는 3차원 박스의 기하학적 정보를 활용하여 클래스에 상관없이 박스 predictor을 학습’한다는 것은 class를 고려하지 않기 때문에 새로운 객체도 찾을 수 있다는 의미일까요? 그렇다면, 결국 데이터 셋에 포함된 형태에 해당하는(즉, 클레스에 국한된) 객체들만 찾도록 학습되지 않을까 합니다.
    혹은 해당 파트는 기존 객체를 인식하는 것이고 2차원 영역에서 CLIP을 이용하는 것이 새로운 객체로의 확장할 수 있도록 역할을 하는 것인 지가 헷갈립니다.

    또한, 수퍼 카테고리 리스트가 어떤 것을 의미하는 것인 지 궁금합니다. 수퍼 카테고리 리스트를 통해 물체 클래스에 대한 텍스트 description을 얻을 수 있었다고 하는데, 객체 하나가 수퍼 카테고리 리스트에 여러 항목에 해당할 수 있는 것인가요?? 즉, 수퍼 카테고리 리스트가 객체의 속성을 의미하여 중복하여 나타날 수 있고 이를 통해 텍스트 임베딩을 얻게 되는 것인 지 궁금합니다.

  2. 안녕하세요, 손건화 연구원님! 좋은 리뷰 감사합니다.
    experiment의 지표에 대해 궁금한 점 있는데, AP과 AR 옆에 있는 novel/mean/base가 어떤 뜻인지 간단하게 알려주실 수 있으실까요? 각각이 정확히 무엇을 의미하는건지 알 수 없어 설명을 이해하기 쉽지 않았습니다.
    감사합니다!

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다