[ECCV 2024] OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

안녕하세요, 마흔 세번째 x-review 입니다. 이번 논문은 2024년도 ECCV에 게재된 OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation 입니다. 23년도에 처음으로 3D detection에서 open vocabulary가 등장했는데 벌써 통합된 구조를 제안하는 논문이 나왔네요 ..

바로 리뷰 시작하겠습니다.

1. Introduction

3D detection은 비교적 이미지 도메인에 비해 연구가 연구 진행 속도가 한 발짝씩 느린 편인데, 현재 3차원 물체 검출 방식은 특정한 입력 모달리티에 대해 완전하게 어노테이션이 제공되는 데이터에 제한되어 진행되고 있습니다. 그래서 indoor든 outdoor든 주어지는 장면에 대해 학습 때 모델이 보았던 물체 카테고리에 대해서만 검출할 수 있게 되죠.

이런 관점에서 현재의 범용성을 가지는 3차원 물체 검출을 하는데 생기는 한계점이 크게 두 가지가 존재합니다. 먼저 방금 말씀 드린 것처럼 closed vocabulary 방식으로 보통 검출기가 동작하기 때문에 seen 클래스만을 대상으로 검출할 수 있습니다. 이미지에서처럼 3차원에서도 학습 때 보지 못한 새로운 물체를 인지하고 localization하기 위한 open vocabulary 3차원 검출 방식이 절대적으로 필요한 상황이죠. 그러나 이미지에 비해 데이터셋 스케일과 포함되어 있는 클래스 범위가 매우 제한적인 3차원 물체 검출 데이터셋으로는 새로운 물체를 찾는 일반화 성능을 갖추기 어려운 상황 입니다. 몇가지 데이터셋을 예시로 들어보면 SUN RGBD는 실내의 물체 중 대략 10개의 클래스를, ScanNet도 거의 16개 정도의 클래스만을 어노테이션 클래스로 제공하는 상황을 보아 scene에 나타나는 물체를 모두 아우르는 데이터셋을 구축하기 어려워 보입니다. 특히 3차원 도메인에서 사전학습된 이미지-텍스트 모델의 부족으로 open vocabulary와 관련된 문제 해결이 더더욱 힘들다고 합니다.

두번째로는 멀티 모달리티 데이터를 입력으로 사용하기 위한 통합된 모델 구조가 아직 없다는 것 입니다. 기존의 검출기는 주로 특정한 입력 모달리티, 가령 포인트 클라우드 혹은 이미지 아니면 두 데이터를 넣을 수 있는 선에서 설계되고, 또 특정 장면 (실내인지 실외인지)에 나누어 특정한 구조로 설계됩니다. 특히 open vocabulary 3차원 검출 같은 경우에는 통합된 하나의 멀티 모달리티 구조가 없기 때문에 다양한 모달리티와 정보를 가진 데이터를 효과적으로 활용하지 못합니다. 결국 검출기는 새로운 물체에 대해 일반화 성능을 가질 수 없다는 것 입니다. 따라서 현재 3차원 물체 검출에 있어서 저자는 멀티 모달리티 관점에서 open vocabulary 문제를 해결하기 위한 통합된 솔루션을 제공하는 것이 중요하다고 주장하고 있습니다.

그래서 본 논문에서는 Fig.1(a)과 같이 open vocabulary 3차원 물체 검출을 위한 통합 멀티 모달리티 구조인 OV-Uni3DETR을 제안합니다. 학습에서 3차원 바운딩 박스를 제공하는 포인트 클라우드, 포인트 클라우드와 align이 맞춰진 3차원 물체 검출을 할 수 있는 이미지, 그리고 2D 검출 가능한 이미지 등 멀티 모달리티와 멀티 소스 데이터를 활용할 수 있습니다. 여기서 중요한건 2D 이미지 사용으로 어노테이션이 된 클래스의 수가 훨씬 많이 때문에 open vocabulary 3차원 검출에 유리하게 활용할 수 있습니다. 이런 여러 모달리티의 데이터를 가지고 변환 모달리티 학습 방식이라는 것을 채택하여 사용한다고 합니다.

이러한 통합된 구조를 통해 본 논문의 방법론은 Fig.1(b)와 같이 indoor/outdoor scene 모두에서 모달리티 통합을 이루어 open vocabulary 3차원 물체 검출이 가능하여 3차원 검출기의 범용성을 갖추었습니다.

더 자세히는 방법론에서 살펴보도록 하고 본 논문의 main contribution을 정리하며 into 마치도록 하겠습니다.

멀티 모달리티 학습 방식을 갖춘 통합적인 open vocabulary 3차원 검출기인 OV-Uni3DETR 제안
indoor/outdoor 장면 모두를 위한 통합된 구조를 제시하며 모달리티 inconsistency와 swtiched modality 학습 방식을 제거함으로써 테스트 시 모달리티 전환이 가능해져 모든 모달리티의 데이터 활용 가능
2D-3D 사이의 knowledge propagation 제안, 대규모 2D vocabulary semantic 지식과 3D 기하학적 지식을 활용함으로써 학습에서의 다양성을 보장

2. OV-Uni3DETR

2.1. Multi-Modal Learning

멀티 모달리티 학습을 위해 포인트 $X_P$ 와 이미지 $X_I$ 를 사용하며 inference을 위해 test-time modality switchable한 상황을 처리할 수 있습니다.

먼저 복셀 베이스이 백본 네트워크로 포인트 클라우드 feature $F_P \in \mathbb{R}^{C\times X \times Y \times Z}$ 를 추출하고, 이미지 백본으로 이미지 feature $F_I \in \mathbb{R}^{C \times H \times W}$ 를 추출 합니다. 그 다음 $F_I$ 는 카메라 파라미터로 3차원 복셀 공간으로 투영한 $F’_I \in \mathbb{R}^{C \times Y \times Z}$ 형태로 변환 합니다.

이미지에 비해 포인트 데이터는 일반적으로 생각했을 때 더 많은 공간적인 정보로 구성되어 있기 때문에 학습된 멀티 모달리티 검출기가 이미지 feature을 보조적인 정보로만 다루면서 포인트 feature에 높은 의존도를 가질 가능성이 높습니다. 이렇게 학습되면 inference 때 포인트 데이터가 없을 경우에 성능 저하가 심각하기 때문에 이를 방지 하기 위해 BN이 포함된 3D conv를 활용한다고 합니다. 결국 멀티 모달리티의 feature는 $F_M=BN(conv(F_P)) + BN(conv(F’_I))$ 와 같이 생성되어 3D conv와 BN을 통해 여러 모달리티의 feature가 정규화될 수 있습니다. 이를 통해 feature 불일치와 이미지 feature가 suppression되는 현상을 방지할 수 있었다고 합니다.

그 다음 switch modality 학습 방식을 사용하는데, 구체적으로 Fig.2의 트랜스포머가 앞선 형성한 모달리티 feature( $F_M, F_P, F’_I$ ) 중에 미리 정한 확률로 무작위로 받아서 모델이 단일 모달리티 데이터만으로 검출할 수 있도록 동작합니다. 이런 랜덤 변환을 통해 모델은 학습 중에 이미지만의 feature을 받아서 이미지 feature의 낮은 의존도를 방지할 수 있습니다.

++ 트랜스포머는 3DETR를 사용하였습니다.

멀티 모달리티 구조는 결국 2D,3D 물체 검출을 위해 클래스와 이미지 박스, 그리고 3차원 박스를 예측합니다. 3차원 박스 regression에는 L1 loss와 DIoU loss, 이미지 박스 regression에는 L1 loss와 GIoU loss를 활용하였다고 합니다. open vocabulary 세팅에서는 새로운 클래스가 존재하기 때문에 학습이 어려워지는데, 저자는 uncertainty 예측 $\mu$ 를 추가하여 식(1)과 같이 L1 loss에 가중치를 부여하였습니다.

2.2. Knowledge Propagation: 2D $\rightarrow$ 3D

포인트 클라우드 데이터는 대규모 수집의 어려움으로 사전학습된 VLM이 포인트 클라우드 대상으로는 존재하지 않습니다. 포인트와 이미지 사이의 모달리티 차이가 이미지 레벨에서의 VLM을 사용할 때 3차원 검출기의 성능을 하라시키는 요인이 되기도 합니다. 그래서 본 논문에서는 사전학습된 2D open vocabulary 검출기의 semantic한 지식을 활용해서 새로운 클래스에 해당하는 3차원 바운딩 박스를 잘 생성할 수 있는 방식을 제안하며 생성된 3차원 박스는 학습에 사용할 수 있는 제한된 클래스의 GT를 보완할 수 있습니다.

먼저 2D open vocabulary 검출기를 사용해서 이미지 바운딩 박스나 인스턴스 마스크를 생성합니다. 이미지에서는 사용가능한 데이터와 어노테이션 정보가 훨씬 풍부하기 때문에 이렇게 생성한 박스는 더 많은 클래스를 더 정확한 정확도를 가지고 검출할 수 있습니다. 그 다음에 이러한 이미지 박스를 카메라 파라미터를 통해 3차원 공간에 사용해서 해당 물체에 대한 3차원 박스를 얻습니다. 그러면 사전학습된 이미지 검출기를 사용해서 어노테이션이 없는 새로운 물체도 새롭게 생성된 3차원 박스 셋에서 사용할 수 있습니다. 이렇게 large scale의 2D 검출기에서 나온 의미론적인 지식을 이미지에서 3차원 박스로 propagation하므로써 3D open vocabulary 검출에 도움을 줄 수 있게 됩니다.

2.3. Knowledge Propagation: 3D $\rightarrow$ 2D

이미지 바운딩 박스만 어노테이션이 된 이미지는 훨씬 더 많은 장면과 클래스를 포함하고 있기에 본 논문에서는 새로운 클래스를 인지해야하는 open vocabulary 관점의 3차원 검출을 향상시키기 위해 학습용으로 이러한 2D 검출 이미지를 사용하였습니다. 그런데 이러한 2D 검출 이미지는 3차원 바운딩 박스 어노테이션이 아예 없고, 카메라 파라미터를 알 수 없기 때문에 이미지 feature을 복셀 공간으로 변환하는 것이 불가능합니다. 그래서 해당 파트에서는 class agnostic한 3차원 검출기를 통해 기하학적인 지식을 3D-2D로 propagation하는 방법을 제안하고 있습니다. 3차원 바운딩 박스와 카메라 파라미터는 모두 2D 검출 이미지를 기준으로 예측합니다.

Camera parameter prediction

카메라 파라미터는 카메라 intrinsic 파라미터 K와 extrinsic 파라미터 $R_t$ 로 이루어져 있습니다. 찾아야 할 파라미터는 회전 행렬 $R[/latex의 축 [latex]u = (u_x, y_y, y_x)$ 를 기준으로 각도 $\theta$ 를 회전하고, $T$ 는 $T = [t_x, t_y, t_z]^T$ 로 구성되어 있어서 결국 찾아야할 extrinxic 파라미터는 총 7개 입니다. 이런 파라미터를 예측하기 위해 이미지 공간에서의 이미지 feature에 $[sin\theta, cos\theta, u_x, u_y, u_z, t_x, t_y, t_z]$ 8차원의 브랜치를 하나 추가하였다고 합니다. 이런 파라미터를 학습하기 위해 regression에 L1 loss를 추가하였고, 이 카메라 파라미터 예측 모듈은 3차원 검출 이미지에 대해 사전학습된 다음 2D 검출 이미지의 알 수 없는 카메라 매개변수를 예측하는데 활용합니다.

Generating 3D bounding boxe

2D 검출 이미지에서 물체 인스턴스에 대해 2D 바운딩 박스 $\{c_i, bb^{2D}_i\}^M_{i=1}$ 을 어노테이션 하는데, 본 논문에서는 이런 이미지 안의 물체에 대해 3차원 바운딩를 생성하는 것이 목표 입니다.

++ $c_i$ 는 i번째 물체 클래스와 $bb^{2D}_i$ 이미지 바운딩 박스, $M$ 은 2D 박스 개수를 의미합니다.

먼저 seen 물체에 대해서만 어노테이션된 3D 검출 이미지에 대해 class-agnostic한 3차원 검출기를 사전학습 합니다. 물론 여기서 3차원 검출기의 포인트 클라우드 브랜치는 제거해야 하고, 카테고리 태그 또한 class agnostic 학습을 위해 제거해야 합니다. 그런 다음에 이 사전학습된 검출기는 2D 검출 이미지에 대한 inference를 수행하여 사전학습된 카메라 파라미터 예측 모듈에서 예측한 파라미터를 사용해서 결국 class agnostic한 박스 $\hat{bb}^{2D}_i, \hat{bb}^{3D}_i\}^N_{i=1}$ 을 얻습니다. 이렇게 class agnostic 3차원 검출기를 사용하면 3차원 영역의 기하학적인 지식을 2차원 검출 이미지로 전달하여 3차원 위치 정보를 제공할 수 있기 때문에 결과적으로 3D supervision 정보의 부족 문제를 해결할 수 있습니다.

그러면 이제 class agnostic한 상자에 클래스 라벨을 할당해야 하는데, 이는 GT와 예측한 3D 박스 사이의 bipartite 매칭으로 수행하게 됩니다. 최적의 bipartite 매칭은 GT 2D 박스와 추출한 class agnostic 3D 박스 사이의 오버랩을 최소화해야 한다고 제안하는데, 이는 식(2)와 같이 정의할 수 있습니다. GT $bb^{2D}_i$ 와 예측한 2D class agnostic 박스 $\hat{bb}^{2D}_i$ 사이의 bipartite 매칭을 계산합니다.

bipartite 매칭 후에 3차원 박스에 클래스를 할당해서 일단 클래스별 3차원 박스 $\{c_i, bb^{2D}_i, \hat{bb}^{3D}_{\sigma(i)}\}^M_{i=1}$ 를 얻습니다. 이 박스가 학습을 위해 2D 검출 이미지의 GT로 사용하며 생성된 클래스별 3D 박스를 사용하면 2D 검출 이미지를 3D 검출 이미지와 동일한 방식으로 사용할 수 있습니다.

그런데 $\hat{bb}^{3D}_i$ 에는 노이즈가 존재해서 이걸 그대로 사용할 경우 예측 성능을 저하시킬 수 있어서 본 논문에서는 최종 출력 레이어를 이중 분기 구조로 설계합니다. 동일한 구조와 loss를 가진 별개의 출력 레이어 파라미터 셋을 가지는 걸 의미합니다. 3차원 검출 이미지와 포인트 클라우드는 분류와 regression을 위해 한가지 브랜치로 전달되고 2D 검출 이미지는 또 다른 하나의 브랜치로 전달되는 것이죠. 이렇게 하면 노이즈가 존재하는 3차원 박스가 정확하게 예측하는 다른 브랜치의 박스를 방해하지 않을 수 있다고 합니다. inference 시에는 이 2D 검출 이미지에 대한 브랜치를 제거하고 진행됩니다.

3. Experiments

3.1. Open-Vocabulary 3D Object Detection

Indoor 3D open-vocabulary detection

Tab.1은 46개의 클래스 세팅에서 SUN RGBD 데이터셋을 평가하고 있습니다. OV-Uni3DETR은 inference 때 포인트 만으로도 36개의 새로운 클래스에 대해 9.66%의 성능을 얻을 수 있으며 이는 동일한 데이터를 사용하는 CoDA의 2.95%보다 훨씬 향상된 성능을 보이고 있습니다. 이는 결국 본 논문의 방법론이 knowledge 전파에 따라 새로운 클래스를 잘 인지하고 있다는 것을 보여주고 있네요. 이미지만을 inference에 사용할 경우 $AP_{novel}$ 은 포인트를 사용하는 CoDA와 유사한 성능을 보여주면서 RGB 만으로 inference을 하더라도 이미지 feature가 붕괴되지 않는다는 것을 보여주고 있습니다. 포인트와 이미지를 모두 사용할 경우 CoDA보다 약 6% 높은 새로운 클래스에 대한 정확도를 얻을 수 있습니다. 결국 여러 모달리티의 지식을 통합하여 포괄적인 정보를 활용함으로써 open vocabulary 3D 검출기를 위한 성능 향상에 도움을 준다는 것을 입증하고 있습니다.

그 다음엔 동일하게 Tab.1에서 ScanNet에 대한 성능을 평가하고 있습니다. 마찬가지로 포인트만 사용하더라도 CoDA보다 높은 새로운 클래스에 대한 성능을 보이는데, 여기서 강조하고 있는건 이미지 AP가 포인트를 사용하는 CoDA보다도 훨씬 높다는 점 입니다. 이는 멀티 모달리티 구조와 switch modality 학습이 단일 모달리티 정보의 붕괴를 효과적으로 방지하면서 통합을 이룰 수 있었다는 걸 보여주는 실험 결과라고 이야기하고 있네요.

추가적으로 Tab.2를 통해 20개의 클래스로 평가하는 ScanNet 데이터셋에서 이전 OV3D 방법론인 OV-3DET와 동일한 세팅으로 본 논문의 방법론을 학습하고 평가해보았다고 합니다. 모든 클래스는 주석을 하지 않아서, 즉 seen 클래스는 없고 전부 novel 클래스로 간주합니다. 동일한 세팅을 위해 포인트 만을 학습하고 평가합니다. 여기서 25.33%의 성능을 보이는데, 이전 방법론들인 OV-3DET와 CoDA를 훨씬 능가할 수 있는 성능이네요. 이러한 결과는 seen 클래스가 없어도 다양한 세팅에서 좋은 검출 결과를 보이며 일반화 성능을 갖출 수 있다는 것을 보여주고 있습니다.

Outdoor 3D open-vocabulary detection

그 다음 일반화된 통합 구조를 제안한만큼 outdoor KITTI 데이터셋에서도 Tab.3과 같이 평가를 진행했습니다. 검증 데이터에서 중간 난이도의 물체에 대한 결과를 리포팅하고 있습니다. outdoor 3D 검출 데이터셋에 대해 open vocabulary 실험을 수행한게 본 논문이 처음인데, outdoor 포인트는 배경 포인트가 압도적으로 수가 많고 검출해야 하는 물체는 작고 수가 적어서 포인트가 훨씬 sparse 하여 새로운 물체를 찾는 것이 indoor보다 훨씬 어렵습니다. 이런 outdoor 장면에서도 본 논문의 방법론은 novel 클래스에 대해 19.57%의 성능을 달성하며 실내 뿐만 아니라 실외 장면에서도 물체 감지가 가능한 통합적인 구조를 달성하였다고 주장하고 있습니다.

3.2. Closed-Vocabulary 3D Object Detection

해당 섹션에서는 일반적인 closed vocabulary 3D detection 세팅에서의 결과를 보여주며 포인트 브랜치는 Uni3DETR에서 고안한 방식이기 때문에 여기서는 이미지만을 입력으로 사용하고, 기존 RGB 단일 입력 방식들과 비교한다고 합니다.

Indoor 3D closed-vocabulary detection

먼저 indoor에서는 $AP^{3D}$ 이 ResNet34를 백본으로 사용했을 때의 방법론들 중에 가장 높은 성능을 보이고 있습니다. 학습에 더 많은 RGB 이미지를 사용하는 Cube RCNN보다도 더 높은 성능을 보여주면서 close vocabulary 환경에서도 잘 워킹하고 있는 것을 실험적으로 보여주고 있네요.

Outdoor 3D open-vocabulary detection

outdoor는 KITTI 데이터에서 이전의 monocular 3D detection 방법론들과 비교하고 있습니다.

여기서도 마찬가지로 더 많은 이미지로 학습된 Cube RCNN과 비교해도 더 높은 성능을 보이면서 outdoor closed vocabulary 환경에서의 성능을 검증하고 있습니다.

3.4. Ablation Study

Multi-modal learning

마지막으로 멀티 모달리티 학습 방식에 대한 ablation study를 살펴보며 리뷰 마치도록 하겠습니다. switch 모달리티 학습이 없으면 단일 모달리티 inference 시에 검출 성능이 매우 하락하는 것을 확인할 수 있고, 특히 이미지만 사용하는 경우 switch 모달리티 학습은 $AP_{novel}$ 의 성능을 1.12%에서 5.41%까지 향상시키는데 도움을 줍니다. 랜덤 변환을 통해 모델은 학습 중에 이미지만의 feature을 받을 수 있기 때문에 이미지 feature가 suppression되는 것을 방지하고 포인트에만 의존하던 경향을 줄일 수 있습니다.

두번째로 BN을 사용한 3D Conv 역시도 성능 향상에 영향을 주는데, 그 이유는 BN과 3D Conv가 다양한 모달리티의 feature을 정규화하여 포인트와 이미지 feature 사이의 모달리티 차이를 줄일 수 있기 때문이라고 분석하고 있습니다.

또한 이중 브랜치 구조는 서로 다른 모달리티의 정보를 구분하는데 도움을 주면서, 노이즈가 많은 3차원 박스 생성을 줄임으로써 모든 모달리티의 입력에서 성능을 개선하는데 긍정적인 영향을 주고 있습니다.

4 thoughts on “[ECCV 2024] OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation”

이 상인 says:

08/25/2024 at 23:38

안녕하세요, 리뷰 감사합니다.
Open-Vocabulary 태스크는 잘 알고 있지만, 3D 도메인에서 활용된 경우가 처음이여서 읽어보니,
결국 2D Image 상에서 Open-Vocabulary의 Classification을 해결한 후, 3D Detection이 수행되는 연구라고 생각해도 괜찮을까요? 즉, Point Cloud만으로 (안될 것 같지만 제가 3D를 잘 모르기에)는 OV 상황에 대한 가정을 하기가 힘들까요?

정 윤서 says:

08/26/2024 at 00:43

안녕하세요 좋은 리뷰 감사합니다 !
인트로나 방법론에서 3차원 상에서의 대규모 사전학습 데이터가 부족하다는 이야기를 몇번 언급해주셨는데,,, 그럼 여기서 사용하는 이미지 레벨의 사전학습 모델은 FM을 사용한 것일까요 ? 맞다면 어떤 모델을 사용하였는지도 알려주시면 감사하겠습니다.
그리고 3차원 검출 이미지와 2D 검출 이미지를 구분지어 모델의 입력으로 사용하는거 같은데 이 둘의 차이점이 정확하게 무엇일까요..?? 단순 3차원 바운딩 박스가 이미지에 어노테이션으로 제공되는지 여부라면 이 두 이미지 셋을 나누어서 2D 검출 이미지를 knowledge를 전달하는데 사용하는 효과가 무엇일지 의문이 들어 질문드립니다.

감사합니다!

이 재찬 says:

09/01/2024 at 19:21

안녕하세요 건화님 좋은 리뷰 감사합니다!
point(3d) 및 image(2d) 에 관한 multi-modality 관점에서 open vocabulary 한 detection을 generalized하게 하기 위한 통합 솔루션이라는 것을 전체 맥락으로 이해했습니다. 그런데 세부 사항들에 몇가지 궁금증이 생겨 질문하게 되었습니다.

1. switch modality 방식
왜 Fm, Fp, FI 3개의 확률이 무작위여야하는지 궁금합니다. 추가로 이 랜덤 변환을 통해 모델이 학습 중에 이미지만을 feature로 받아서 이미지 feature의 낮은 의존도를 방지한다는 부분이 조금 이해가 안되어서 해당 부분에 대해서도 궁금한 점이 있습니다. 이미 앞단에서 Fm이라는 feature 불일치와 이미지 feature가 suppression되는 현상을 어느정도 방지했다는 모달리티 fusion feature를 만들어놨는데, 이런 의존도 개선 장치를 두 번 거쳐줘야할 만큼 이미지 feature가 point보다 의존성이 낮은 것이 3d detection 태스크에서 일반적인 사항인지 궁금합니다.

2. loss식(1) – μ
novel class에 대한 학습을 위해 loss식(1)에서 uncertainty 예측 μ를 loss식에 가중치로써 추가했음을 확인했는데, 해당 식의 맨 마지막 term에 μ가 하나 더 붙어 있는 이유에 대해서 궁금합니다. 추가로 이것이 Knowledge Propagation: 3D → 2D 에서 언급하신 camera parameter와 연관이 된 것이 맞는 것인지 궁금하고,, 혹시 찾아야할 extrinsic camera parameter가 7개인 이유…에 대해서 알려주실 수 있나요? 약간 latex 오타가 있으신 것 같기도 합니다.

3. knowledge propagation: 2d->3d
이미지 박스를 카메라 파라미터를 통해 3차원 공간에 사용한다는 것이? 사영한다는 뜻인가요?
해당 부분과 관련하여 knowledge propagation: 2d->3d에서 새로운 클래스의 객체에 대해 2d open vocabulary detector의 2d 검출결과를 바탕으로 카메라 파라미터를 통해 3d로 사영해서 3d bbox를 생성할 수 있다해도, 그것의 정확성이 괜찮은 것인지가 궁금합니다.

4. Ablation study
BN과 3d conv에 대한 견해로 다양한 모달리티의 feature를 정규화 한 것이 포인트와 이미지 feature 간의 모달리티 차이를 줄일 수 있기 때문에 성능이 향상되었다고 분석한다고 나와있는데, 위 2.1. Multi-Modal Learning 에서의 식을 보면 point, image 모달리티 feature를 3d conv 후 BN 하고, 단순히 더해주는 식이었는데, 이것이 모달리티 차이를 줄여준다는 것이 약간 논리비약이 있는 것 같단 생각이 듭니다. 왜냐면 실험 테이블에서도 3D conv가 체크된 multi-modality에서의 1번째, 3번째 행은 single-modality에서의 성능보다 Point와 Image 모두에서 성능이 낮게 나왔거든요. 제가 생각했을 땐 point, image 간의 모달리티 차이를 줄이려면 단순 BN 후 더해주는 연산에서 보다 더 고도화된 fusion 방식이나 embedding space를 맞춰주는 장치가 있어야하는 게 아닐까 생각이 드는데, 건화님의 생각은 어떠신지 궁금합니다.

감사합니다.

김 태주 says:

09/02/2024 at 00:05

좋은 논문 리뷰 감사합니다!

간단한 질문 하나만 하고 가겠습니다!

Q1. “class-agnostic한 3차원 검출기”가 전제인 것 같은데… class-agnostic한 3차원 검출기가 있나요?? 어떤 근거로 가능하다는 전제로 저자가 이야기 하는 건지 궁금합니다.

[ECCV 2024] OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

1. Introduction