[Arvix 2022] Boosting 3D Object Detection via Object-Focused Image Fusion

본 논문은 2022년 7월 최신 논문으로 SUN-RGB-D 데이터셋에서 SOTA를 달성한 모델이다. 기존의 point cloud만을 input으로 하는 모델들에 비해, image에서의 semantic 정보를 포함시켜 detection 성능을 boosting하기 위해 fusion방식을 적용한 DeMF module을 제안하였다. 

Introduction

3d object detection은 자율주행, robotics 등에서 중요한 역할을 하고 있다. 이런 3D object detection task를 풀기 위한 여러 가지 방법들이 있는데, 이들 중 pointnet, votenet, imvotenet 등 point cloud기반의 방법론들이 주목받아왔고 sota성능을 보였다. 해당 방법론들은 LiDAR point의 depth정보와 geometric 정보를 충분히 활용할 수 있기 때문에 상대적으로 좋은 성능을 보인 것으로 안다. 하지만 이런 3d point cloud데이터를 활용한 point 기반의 방법론들은 semantic 정보가 부족하여 object를 분류할 때 어려움이 있다는 단점이 존재한다. 아래 Fig 1을 보면 VoteNet은 point cloud기반의 방법론이고 본 논문에서 제안한 Ours(DeMF)는 point cloud와 image를 fusion한 방법론이다. point cloud기반의 방법론에서는 가려진 sofa를 구조적 형태가 비슷한 chair로 분류하였다. 이 그림의 결과를 통해 point cloud방식에서 semantic정보가 부족하다는 것을 알 수 있고, 다른 modality(rgb)의 정보를 추가하는 방법을 고안했다고 한다. 

이 전에도 image와 point cloud를 fusion하는 방법론들이 존재했다. 2D detector를 pre-train하여 frustum구조 내에서 proposal하는 방법은 3D bounding box를 예측하는 공간을 줄여주지만, 2D detector 성능에 크게 영향을 받게 된다. 또 다른 방법으로는 더 3D에 집중하는 방식도 있다. ImVoteNet의 경우 image의 geometric, semantic, texture 정보와 3d point feature를 모두 활용하는 방법인데, 해당 방식은 2d detector를 pre-train시켜야하여 모델이 무겁워질 수 있다는 단점이 있다. 앞선 방법론들의 적용된 방식들을 통해 image에서 어떻게 정보를 추출하고, 효율적으로 point feature와 결합하는 방식에 대해 고민하게 되었다고 한다. 

본 논문에서는 image에서 추출한 object-level 정보를 활용하고 이 정보들을 objects들이 존재하는 영역에 adaptive하게 적용할 수 있는 방법을 제안했다. 새로운 fusion 방식의 module인 DeMF(Deformable Attention based Multi-modal Fusion) module을 통해 3d point를 2d에 projection하여 그 점들을 통해 sampling location을 학습하도록 했다. 실험을 통해 이런 adaptive한 sampling stage가 object level image feature를 더 잘 추출하여 위치 정보에 효과적으로 집중할 수 있음을 보였다고 한다. 또한 SUN RGB-D dataset에서 sota 성능을 보였다. 

본 논문에서 제안하는 contributions는 아래와 같다.

1. 3D object detection에 도움이 되는 image feature가 무엇인지에 대한 분석

2. 분석을 통해 adaptive하게 object-level image information을 추출하여 fusion하는 DeMF module을 제안

3. SUN RGB-D dataset에서 sota 달성

Related work

point cloud 기반의 3d detection 모델은 크게 point-based와 voxel-based 이렇게 2가지로 나누어진다.

point-based 방법으로는 pointnet, pointnet++, point-RCNN, votenet 등이 있다. 이후에는 voting방식의 votenet을 기반으로 속도를 개선하거나 voting strategy를 개선하는 방법들이 등장했다. Group-Free모델은 voting방식을 제거하고 transformer를 적용하였다.

voxel-based 방법들은 points들을 일정한 크기를 가지는 voxel형태 안에서 처리하는 방법이다. 대표적으로 voxelnet이 있는데 voxel 방식들은 많은 memory와 연산량을 요구하는 단점이 있다. 이후 이런 단점을 보완하기 위해 sparse convolution을 적용한 모델이 등장하게 되었다.  

일반적으로 지금까지 3d object detection 모델들 중에는 point cloud를 기반으로 한 모델들의 성능이 다른 방법론들보다 좋은 성능을 보여주었다. 하지만 본 논문에서는 detection 성능을 끌어올리기 위해 image information을 활용하자는 생각을 바탕으로 image input을 통한 fusion module을 제안했다.

이전에도 image와 fusion한 방법론들이 존재하였다. image의 semantic한 정보들이 3D object detection 성능에 긍정적인 영향을 미칠 것이라는 생각이 있기 때문이다. 2D detector를 활용하여 2d image에서 detect한 결과를 사용하는 모델은 3d공간의 search space를 제한한다는 단점이 있었다. 최근에 ImVoteNet의 경우 2d detection결과를 voting하는데 도움을 주는 정보로 사용하여 좋은 결과를 보였었다. EPNet에서는 point backbone의 중간 레이어에 image feature를 fusion하는 방식을 사용하였다.

본 논문에서 제안하는 fusion module은 EPNet과 비슷하지만 2가지 측면에서 다르다고 한다. 먼저 fusion을 point backbone 맨 마지막에 한 번만 적용하고, 두번째로는 multiple한 위치에서의 image feature를 사용하여 receptive field를 넓혔다고 주장한다.

또한 Attention mechanism을 적용하였다. attention-based Transformer는 보통 NLP에서 많이 사용되었는데 점차 detection분야로 확장되었다. 본 논문과 관련이 있는 모델은 Deformable DeTR로 deformable attention을 통해 long-range relationship을 고려할 수 있고 필요없는 복잡성을 줄일 수 있다고 한다. Deformable DeTR에 대해 자세한 이해가 되지 않아 추후에 해당 논문에 대해서도 공부해보도록 해야겠다. 아무튼 deformable attention은 image 정보를 추출하고 해당 정보들을 point와 fusion하는데 효과적인 방식이라고 한다. 하지만 서로 다른 두 modality의 정보를 직접적으로 적용하는 것은 적절하지 않기 때문에 조정이 필요하다. 여기서는 fixed embedding대신의 points를 query로 사용하였고, reference point를 얻기 위해 point의 geometric mapping을 direct로 사용하였다. 

Method

<Revisiting deformable attention>

Deformable attention은 multi-head attention의 변형된 형태로, 기존 DETR에 존재하던 slow convergence문제를 해결하기 위해 등장했다. multi-head attention과 다르게 deformable attention은 오직 reference point 주변의 작은 부분에만 집중하여 computational cost를 줄이고 수렴 속도를 증가시킨다. deformable attention module의 output은 아래 수식과 같이 계산된다.

– q : query

– p : 2d reference point

– x : input feature map(x ∈ RC×H×W)

– m : attention head

– k : sampled key

query는 3d point가 된다. ∆pmk ∈ R2는 sampling offset point를 의미하고 p + ∆pmk은 주변 을 의미하게 되므로 x(p + ∆pmk)를 계산하기 위해서 bilinear interpolation이 적용된다. Amk는 m번째 attention head에 있는 k번째 sampling point의 attention weight를 의미하며 0과 1 사이 값을 가진다. 그리고 k개 point의 Amk를 모두 더하면 1이 되도록 normalize해준다. ∆pmk와 Amk는 query q에 대한 linear projection에 의해 계산된다.

<How Can Image Features Help?>

N0개 point set인 S ∈ RN0×3 와 이에 상응하는 RGB image x ∈ RH0×W0×3 가 주어졌을 때, 목표로 하는 것은 image information을 활용하여 point-based detection framework의 3d detection 성능을 올리는 것이다. 이때 image feature의 어떤 부분이 3D object detection의 성능 향상에 도움이 될 것인가에 대한 부분은 point-based detection framework가 가진 약점에 대해 분석하면 알 수 있을 것이다.

LiDAR point clouds는 불완전한 geometric structures를 가지고 semantic information이 부족하다는 단점이 있다. 특히 occlusions, 반사되지 않는 surfaces, sensor와 거리가 먼 물체 등의 경우에 이런 부족한 부분들이 나타나게 된다. 위의 Fig 1에서 보면, VoteNet은 object를 정확하게 분류하지 못하는 것을 알 수 있다. 아래 Fig 2는 VoteNet과 Ours 두 모델의 분류 결과를 비교한 confusion matrix이다. 

confusion matrix를 보면 point-based 방법론인 VoteNet의 분류 성능이 떨어지는 것을 더 확실하게 확인할 수 있다. (a)를 보면 VoteNet은 chair, desk 등에서 정확하게 분류하지 못하고 있다. 반면 오른쪽의 image를 fusion한 (b)방식을 보면 (a)보다 chair, desk 등에서 더 정확한 분류 성능을 보여준다. 이 결과를 통해 image feature를 point cloud에 fusion하는 방식이 detection 성능을 올려줄 수 있을 것이란 기대감을 주었고, fusion하는 방식에 대해 고민하게 되었다고 한다.

본 논문의 저자는 image에서 object-level의 image feature를 추출하는 것이 현재 point-based 3d detection 방법론들의 성능을 올리는데 중요한 역할을 할 것이라고 주장했다. object-level의 image feature를 fusion하게 된다면, 해당하는 point feature는 검출하려는 object가 무엇인지를 더 잘 알 수 있게된다. 이러한 결론은 이미 deformable을 적용한 2d detector에서 object-level feature를 사용하여 detection성능을 개선한 사례에서 나오게 되었다.

본 논문에서는 handcrafted features를 사용하지 않고 object-level information을 효과적으로 추출하는 Deformable Attention based Multi-modal Fusion(DeMF)라는 이름의 Fusion module을 제안하였다. 아래 Fig 3은 전체 pipeline을 나타내는 그림이다. 

그림 오른쪽의 fusion module을 보면 3d point는 우선 2d image plane에 projection되고, projection된 2d point를 reference로 하여 sampling된 locations는 적절하게 학습이 이루어지게된다. 이런 sampling locations들은 object의 두드러지는 semantic한 부분들에 집중하게 되고 아래 Fig 5에서 확인해볼 수 있다.

object-level information을 사용한 기존 fusion 방법론인 ImVoteNet과의 차이는, ImVoteNet의 경우 pre-trained된 2D detector가 필요헀지만 본 논문에서 제안하는 pipeline에서는 필요하지 않다는 것이다. 또한 ImVoteNet에서 semantic 정보로 사용했던 one-hot category information과 비교해보면 본 논문에서는 sampling points에서 feature를 뽑기 때문에 더 fine-grained하고 해당 object에 대한 정보가 더 많이 포함되어 있을 가능성이 높다. 위의 Fig 2로 올라가서 다시 확인해보면 (b)인 Ours 모델이 잘못 분류한 결과가 (a)에 비해 더 적다는 것을 확인할 수 있다. 

<Network Structure>

전체적인 network의 pipeline은 Fig 3에서 볼 수 있었다. 다시 확인해보면 1)image stream, point stream을 포함하는 two-stream backbone과  2)본 논문에서 제안하는 image information을 모으고 point features에 fusion하는 DeMF module과 3)detection prediction을 하는 feed forward network(FFN)로 크게 3가지 components로 구성되어 있다.

two-stream backbone

먼저 two-stream backbone에 대해서 보면, 각각 stream마다 RGB image와 point clouds를 input으로 입력받게된다. 각각의 input은 각 모달리티에 해당하는 stream을 통과하여 feature representation을 얻게되고 DeMF module로 들어가게된다.

Image stream은 x ∈ RH0×W0×3의 input image를 입력으로 받고 ResNet50을 backbone으로 하게된다. 그리고 deformable transformer encoder가 multi-scale feature map( {x}l=1L (L = 4))을 추출하게 된다. 각 encoder layer는 multi-scale deformable attention module과 feed forward network(FFN)으로 구성된다. multi-scale feature maps에서의 pixels 값들이 key, query, value값으로 사용된다. 모든 query pixel에서 reference point는 image의 width, height로 normalize된 해당하는 pixel의 2D coordinates이다. 추가로 모든 feature map의 channel 수는 256이다.

Point stream은 N0개 points를 가지는 set인 S ∈ RN0×3로 PointNet++을 backbone으로 사용하여 point feature를 추출하게 된다. 모든 points들을 processing하는 경우 불필요한 복잡도가 올라가기 때문에 sampling module을 추가하여 high-quality의 object candidates(center point)를 뽑도록 했다. 결국 N ≪ N0의 points들이 point stream을 통해 생성된다. point stream을 통과한 feature들은 {(zi , si)}i=1N 로 표현되는데, zi는 C-channel(256) vector representation이고 si는 해당하는 3D coordinates를 의미한다. point features와 coordinates는 마지막 final bounding box prediction으로 들어가게된다. 

Deformable Attention based Multi-modal Fusion

point features와 image features를 추출하고 난 후 DeMF(Deformable Attention based Multi-modal Fusion) module로 입력되어 image에서 추출한 object-level information이 point feature의 부족한 정보를 보완해 줄 수 있게 된다. DeMF module은 multi-scale deformable attention module을 기반으로 한다. 전반적인 DeMF module의 process는 아래 Fig 4에 나타나있다.

우선 self-attention module이 전달받은 point features(s {(zi , si)}i=1N) 정보들에 적용된다. 그렇게 enhanced된 point features들은 multi-scale deformable attention module을 통하여 multi-scale image feature maps와 interaction하며 object-level information을 추출하게 된다. 이런 cross-attention module을 통해 적절하게 image information을 aggregate할 수 있고 point features와 fusion할 수 있다. 이 과정은 반복되면서 feature 표현력을 향상시켜준다. 

– i : point feature

수식 (2)의 SelfAttn에 입력되는 두 parameter는 각각 query와 key값을 의미한다. 

수식 (3)에서 RefPoint는 3D coordinate를 2D coordinate로 projectiong하는 mapping function이다. 아래에서 Reference points에 대해 조금 더 자세히 살펴보자.

기존의 deformable attention은 모든 image에 대해 고정된 reference points를 사용했지만, 여기서는 fixed reference points를 사용하는 것이 point feature에 대응하는 image feature를 추출하는데 오히려 방해가 될 수 있다고 주장한다. 그리고 attention module이 두드러지는 3D points에 automatical하게 잘 attend할 것이라 생각한다. 따라서 2D images에서 reference point로 3D points를 mapping한 coordinate를 사용하는 것을 제안한다. 해당 방식이 더 relevant하고 informative한 영역에서 Image features를 추출할 수 있다고 한다.

mapping function(Ψ : R3 → R2)은 아래 수식 (5)와 같다.

ψ1~9까지 parameter는 서로 다른 sensor에서의 parameters이다. 모든 point features의 집합({(zi , si)}i=1N)에서, reference point의 coordinate(pi)는 아래 수식 (6)으로 계산된다.

이때 Φ는 normalization function으로 2D coordinate를 image의 width, height를 통해 [0,1]2 의 범위로 만들어준다.

<Training Details>

DeMF module을 통과하여 image feature를 통해 향상된 point features는 prediction 과정을 거치게된다. training 시, 중간의 features를 확인하기 위해 auxiliary loss를 사용하는 것이 효과적이라는 것을 알게 되었다고 한다.  parameter sharing을 하지 않는 prediction 과정과 loss function은 DeMF module의 모든 layer에 적용된다. 아래 수식 (8)에서 final loss를 알 수 있다. final loss는 모든 layers에서의 loss의 평균값이다.

– L : DeMF layer 수

또한 iterative object box prediction을 사용하는데, 이것은 이전 layer에서의 box predictions를 사용하여 linear layer를 통해 refined된 spatial encoding을 만들어내기 위한 과정이다. 이렇게 생성된 refined된 spatial encoding은 다음 layer의 input query로에 더해져 사용된다.

Experiments

본 논문에서는 SUN RGB-D benchmark 데이터셋을 이용하여 평가하였다. SUN RGB-D는 single view의 3D indoor 장면을 가지는 데이터셋이다. point 마다 semantic label을 가진 1만장의 RGB-D image를 포함하고 37개 categories가 포함되어 있는데, 본 논문에서는 10개의 categories에 대해서만 학습과 평가를 진행했다. 정확한 평가를 위해 학습과 평가를 5번씩 진행했다고 한다.

아래 Table 1은 fusion방식의 모델들과 SUN RGB-D에서 비교한 결과이다. 모든 방식은 Voting방법을 사용한 VoteNet을 기반으로 하는 모델들이다. fusion 방법론들 중 좋은 성능을 보였던 ImVoteNet과 비교했을 때 mAP가 상승한 것으로 보아, 본 논문에서 제안하는 RGB와 point cloud의 fusion방식의 우수성을 확인할 수 있다. 

아래 Table 2에서는 다른 sota모델들과 SUN RGB-D에서 비교한 결과이다. 여기서는 FCAF3D를 backbone으로하여 fusion module의 효율성을 입증하고자 하였다. 기존 FCAF3D와 본 논문에서 제안하는 DeMF fusion방식을 적용한 방식을 비교했을 때 mAP가 +3.2%, +2.3 % 상승한 것으로 보아 DeMF방식이 효과적이라는 것을 확인할 수 있다. 

아래 Table 3에서는 10개의 각 class별 3D object detection 결과를 정리한 것이다. 기존 VoteNet보다 본 논문에서 제안한 DeMF module을 적용하였을 때 DeMF module을 적용한 경우, geometric 형태가 비슷한 dresser나 bookshelf나 desk같은 object에서 높은 성능 향상(+19.8%, +8.1%, +7.9%)을 보였다. 

아래는 ablation study이다. 아래 Table 4에서는 image 정보의 중요성을 확인할 수 있는 ablation study 결과이다. 본 논문에서 제안하는 DeMF module을 적용하지 않은 경우보다 적용한 경우 높은 성능 향상을 확인할 수 있다.

우선 가로선 위에 부분을 보면, DeMF module을 적용하지 않은 경우 point cloud기반의 VoteNet에 self-attention만 적용하였을 때 성능향상이 미미했다. 하지만 point cloud에 RGB를 함께 사용한 ImVoteNet에서 더 높은 성능을 보여주면서 image information의 중요성을 입증할 수 있었다. 

그리고 가로줄 아래 부분에서, 본 논문에서 제안하는 DeMF module을 VoteNet과 ImVoteNet에 적용한 결과가 DeMF를 적용하지 않았던 경우보다 높은 성능 향상을 보여준다. DeMF module의 adaptive learning방식이 효과가 있다는 것을 알 수 있고, automatical하게 object의 useful information에 효과적으로 집중할 수 있다는 것을 확인할 수 있다. 또한 VoteNet과 ImVoteNet에 DeMF module을 적용한 결과가 큰 성능차이를 보이지 않기 때문에 ImVoteNet에 DeMF를 적용했을 때 성능 비교를 추가로 하지 않았다고 한다.

이전의 다른 multi-modal detectors보다 DeMF moudle을 적용한 방식이 image에서 더 넓은 receptive field를 가지기 때문에 object-level information을 더 잘 알아낼 수 있다고 한다. 아래 Table 5에서는 DeMF module의 hyperparameter수에 대한 ablation study이다. head의 수를 증가하고 head당 sampling location의 수가 증가하면 넓은 receptive field로 인해 mAP가 증가하는 것을 확인할 수 있다. 또한 multi-scale feature map을 사용하면 서로 다른 feature level의 details를 포착하여 sampling location할 수 있기 때문에 성능 향상을 이룬 것을 알 수 있다. 가로 4번째 줄에서 가장 좋은 성능을 보이는 것을 확인할 수 있다. 

아래 Table 6은 sampling location이 object의 중요한 정보를 automatical하게 catch할 수 있는지를 알아본 실험이다. adaptively learning방식으로 sampling location을 한 경우가 fixed grid를 사용한 경우보다 높은 성능을 보이는 것을 확인할 수 있다.

reference points를 생성하는 것도 model이 어디에 focus를 해야하는 지 알려주는 지표이기 때문에 최종 성능에 중요한 영향을 미친다. reference points를 얻는 방법에는 2가지가 있는데, 본 논문에서 적용한 방식인 mapping function을 이용한 방식과 point feature로 예측하는 방식으로 나누어진다. 전자의 경우 65.3 mAP를 보였고 후자의 경우 62.7 mAP를 보였다. 이를 통해 2D plane에서 point feature가 정확한 object의 location을 예측하는데 어려움이 있는 것을 알 수 있다.

아래 Fig 5는 2D image에서 sample locations를 visualize한 것이다. 자세히 보면 어떤 samples는 reference point에 가까이 몰려있고, 어떤 samples들은 object의 경계에 존재하는 것을 확인할 수 있다. 이런 samples정보들이 point feature에 meaningful한 object level information을 전달해준다. 

아래 Fig 6에서는 SUN RGB-D에서의 Votenet과 DeMF를 적용한 Ours의 결과를 나타낸다. 먼저 dresser의 성능 score가 VoteNet에서는 0.24밖에 안되지만 DeMF module을 적용하게되면 0.99로 올라간다고 한다. 또한 마지막의 검정색 sofa를 보면 부족한 point cloud정보로 인해 VoteNet에서는 geometrical 정보가 비슷한 chair로 오분류하였다. 하지만 DeMF module을 적용한 Ours에서는 sofa로 잘 분류한 것을 확인할 수 있다.

Conclusion

본 논문에서는 multi-modal을 사용한 새로운 3D detection방식을 design하였다. DeMF module은 적절한 object-level information을 추출하고, LiDAR-based 3D detection framework에서 추출한 point features와 fusion하는 방식이다. 결과적으로 SUN RGB-D dataset에서 sota를 달성하였다. 또한 DeMF module은 flexble한 방식으로 다양한 point cloud base의 detector에 적용할 수 있다는 장점이 있다. 

Author: 도경 김

8 thoughts on “[Arvix 2022] Boosting 3D Object Detection via Object-Focused Image Fusion

  1. 상세한 논문 리뷰 감사합니다.

    3차원 포인트 클라우드와 2차원 영상 특징을 각 모달리티 별 공간 정보를 고려하여 어떻게 융합했는지가 궁금했는데, deformable detr 기반이네요.

    해당 리뷰가 제안한 방법 중 reference point 부분이 제일 인상 깊었습니다. DETR 기반의 방법론을 이용하여 센서 퓨전을 적용할 때 해당 논문의 기법을 참고하면 좋을 것 같네요.

    간단한 질문 하나하고 마무리 하겠습니다.
    그럼 reference point에서 사용된 포인트 클라우드 정보는 무슨 기준으로 선별된 걸까요?

    1. 읽어주셔서 감사합니다.

      reference point에 사용된 point cloud정보는 3d point cloud를 처리하는 방법론 중 하나인 VoteNet을 통과한 point feature입니다. 모든 3d points에 대해 적용하면 많은 연산량을 필요로 하기 때문에, voting을 통해 가장 object center라고 생각되는 points에 voting하여 해당 point를 reference point로 사용했습니다.

  2. 안녕하세요. 상세한 리뷰 덕분에 전체 내용을 완전히 이해하기는 아직 배경지식이 부족하여 어려웠지만, 그 흐름을 잘 잡을 수 있어 좋았습니다.

    리뷰 중간에서부터 궁금증으로 남은 점이 있었는데, deformable-attention이 Multi-head attention과 다른 점으로 reference point 주변 부분에만 attention을 연산하는 것으로 말씀해주셨는데 (computational cost가 줄어든다는 점에서 위와 같이 해석했습니다), 그렇다면 reference point가 어떤 것이지..? 하는 점이 궁금증으로 남았습니다.
    그러다 리뷰를 계속 읽다보니, reference point가 3D를 2D space로 projection 시킨 점으로 잡는다?라고 봤는데, 해당 부분에 대해 조금 의문점이 들었습니다. 물론 3D point cloud와 같은 점들이 Sparse하긴 하지만, 해당 점을 2D space로 projection 한 점이 reference point(제가 이해한 바로 reference point는 semantic information을 가지고 있을 것이라고 예측한 점이라고 이해했는데 맞을까요?)이라는 말인데, 아무리 sparse하다지만 결국 attention 연산의 메커니즘을 생각해보면 실로 장점이 있을지는 의문입니다.
    해당 내용에 대해서는 DETR과 Deformable DETR을 참조하는 것이 좋을까요? (금주에 읽어볼 논문 리스트지만, 혹여 미리 팁을 얻을 수 있을까하여 질문을 남깁니다 😀 )

    1. 읽어주셔서 감사합니다.

      reference point란 아래 부분의 Fig 5를 보시면 쉽게 이해하실 수 있는데요, 3d point cloud에서 object의 center point로 추정되는 점을 2d space에 projection한 것을 의미합니다. 3d space에서 object의 center를 찾는 것은 어려운 task입니다. points들이 object surface에 분포하기 때문에 빈 내부공간의 center point를 추정하기 위해 기존에 존재하는 voting방식의 votenet을 이용하여 center point라고 생각되는 점에 voting하게됩니다. reference point가 semantic한 정보를 가지고 있다기보다는, 이렇게 구한 reference point에 해당하는 object를 detect하기 위해 semantic한 정보를 포함하는 image feature를 활용하여 reference point 주변 point에 image feature를 fusion하여 어떤 points가 object를 detect하는데 중요한 points인지 deformable attention을 주어 학습하는 방식입니다.

      DETR과 Deformable DETR은 사실 아직 저도 자세히 보고 이해하지 못해서 추후 읽어봐야할 것 같습니다..ㅎㅎ

  3. 좋은 리뷰 감사합니다.

    method의 초반부에 reference point 주변의 작은 부분만을 집중하여 연산량을 줄일 수 있다고 하셨는데, 이는 deformable attention에 의해 이루어지는 것인가요??

    또한, 실험 결과를 보면, 가장 좋은 성능을 리포팅하고 괄호 안에는 평균값을 작성하였다고 하는데, 이는 10개의 카테고리만을 이용하여 학습과 평가를 진행한 실험을 5번 반복하였기 때문이라고 이해하였습니다. 그렇다면 같이 리포팅되어있는 다른 방법론들은 어떻게 평가를 진행한 것인지 알려주실 수 있나요??

    1. 읽어주셔서 감사합니다.

      reference point 주변 부분에 집중한다는 것이 deformable attention을 통해 주변에 중요한 points에 집중하도록 학습된다고 이해하신 것이 맞습니다.

      ()가 없는 방법론들에 대해 따로 논문에서 언급되어있지는 않습니다. 제가 생각하기로 ImVoteNet을 기준으로 생각해보면, 실제 논문 성능(63.4)과 본 논문에 reporting된 성능(64.4)이 다르기 때문에 아마 best scores를 reporting한것이 아닌가라는 추측을 해보았습니다.

  4. 안녕하세요 ! 좋은 리뷰 감사합니다.

    Method 파트에서 bilinear interpolation이 적용된 x(p + ∆pmk)가 Fig 3에서 projection된 2d point를 reference한 sampling location을 뜻하는 것이 맞을까요 ?
    DeMF module의 역할이 결국 image feature map과 point feature map을 fusion하여 point feature 만으로는 부족했던 정보를 image feature map을 통해 보완해주기 위함이라고 이해했는데 이러한 흐름이 맞는지 궁금합니다.

    1. 댓글 감사합니다.

      x(p + ∆pmk)가 Fig 3에서 object의 center point로 예상되는 부분의 주변 points들의 sampling location을 의미하며 말씀하신 내용이 맞습니다.

      DeMF가 point feature와 image feature를 fusion한 방법론으로 이해하신 흐름이 맞습니다. 기존에는 point cloud만을 input으로하는 방법론들이 우세하였지만, 최근에 fusion기반 모델들의 성능이 좋은 결과를 보이고 있습니다.

      감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다