[CVPR2022 Oral] Surface Representation for Point Clouds

이번 리뷰 논문은 CVPR 2022 oral 페이퍼인 RepSurf에 대해 다루고자 합니다. 해당 논문은 point cloud에 대한 새로운 표현 기법을 제안하며 이를 통해 대부분의 포인트 클라우드 기반의 방법론에서 성능 향상을 보인 논문입니다. 향후 3차원 비전 분야에 강한 파급력을 가질 논문이며, 특히 dense한 point cloud(e.g. RGBD)에 관심이 많으신 분들은 필수로 보셔야할 논문으로 판단됩니다.

Intro

Point cloud는 표현 가능한 공간 대비 불규칙한 특성과 희소한 특성을 가지고 있습니다. 이전 연구들은 point cloud의 희소하고 불규칙적인 특성을 해소하기 위해서 많은 연구들이 진행되어져 왔습니다. 가장 대표적인 방법론이 PointNet과 PointNet++이 가장 대표적인 방법론에 해당합니다. PointNet은 point 측면에서의 MLP를 적용하는 방법을 제안 하여 global한 정보를 적응적으로 추출할 수 있도록 하였습니다. 후속 논문인 PointNet++에서는 local한 정보를 보다 자세히 보기 위한 set abstraction(SA)를 제안하였습니다. 하지만 두 방법론 모두 독립적인 포인트에 대해 학습하며 local shape 측면에서는 이해하지 못한다는 단점이 있습니다. 이러한 한계로 인해 PointNet이 아닌 local shape에 집중한 방법론들도 존재합니다. Local structure infomation을 학습하기 위해서 이전 몇몇 연구들은 유클리디안 거리 정보를 활용하거나, attenton을 이용하여 관계성을 이용하는 방법, 포인트간의 graph를 이용하거나 volxelization을 이용한 방법론들이 존재합니다. 하지만 이러한 방법론들은 사전 전처리를 위해 많은 계산량이 필요하며, 무엇보다 날 것의 포인트의 위치 정보를 소실한다는 문제점이 존재합니다. 저자는 이러한 문제를 해소하기 위해 포인트로부터 명시적으로 local shape를 표현하는 방법 RepSurf를 제안합니다.

저자는 포인트 그룹 간의 표면(지역적 형태 정보)를 표현하기 위해 local shape에 해당하는 표면 함수를 예측하기 위해 테일러 급수로 부터 영감을 얻습니다. 이를 기반으로 빠른 인퍼런스를 보장하는 삼각 표면의 정보를 가진 triangular RepSurf와 K개의 이웃된 포인트로부터 보다 명식적인 표면 정보에 대해 표현 가능한 Unbrella RepSurf를 제안합니다. 저자는 두 방법론 모두 기존의 방법론의 성능과 계산량, 추론 속도 모두 뛰어넘는 결과를 보여주었으며, 3차원 물체 인식, 3차원 물체 검출, 3차원 영상 분할에서도 SOTA를 달성한 결과를 보여줍니다.

Method

앞서 설명한 바와 같이 해당 방법론의 베이스 방법론은 테일러 급수에 해당합니다. 테일러 급수는 어떤 미지의 함수 f를 다항 함수로 근사시키는 기법에 해당합니다. 미분 계수와 일정 범위 안의 변수 값들로 통해 f를 근사시키기 때문에 정확한 함수를 찾기보단 local한 부분에 대해 빠르게 근사 시키기 위한 수학적 기법으로 많이 사용됩니다. 근데 여기서 local한 정보와 주변의 여러 포인트, 그리고 점을 미분하면 그점의 normal vector라는 점을 잘 생각해보시면, 앞서 설명한 포인트를 이용한 local shape를 표현하기에 있어 테일러 급수가 가장 정합하다는 것을 이해할 수 있습니다. Fig 2는 테일러 급수를 이용하여 2d curve(1변수; 왼쪽 그래프), 3D surface(2변수; 오른쪽 그래프)를 표현하는 것을 볼 수 있습니다.

위의 말에 대해 어느 정도 이해하셨다면, 거의 다 이해하신겁니다. 저자는 이러한 컨셉을 이용하여 1개의 메인 점과 2개의 이웃된 포인트로부터 2차원의 삼각 평면 정보를 주어지는 triangular RepSurfa를 제안합니다. 해당 방법은 아래와 같습니다.

위의 알고리즘에 대해 간단하게 설명을 드리자면, 우선 메인이 되는 포인트와 이웃되는 2개의 포인트를 KNN을 통해 뽑아 상대적인 거리를 계산합니다. 그 후, 3개의 포인트(삼각형)의 중심 값을 계산한 centroids를 예측합니다. 그 다음, 3개의 포인트 간의 외적을 통해 normal vector + nomralization([1, -1]) 수행하여 normal vector를 계산합니다. 마지막으로 noraml vector와 centrodis 값 간의 곱으로 표면 함수의 스칼라에 해당하는 위치 정보 positions 정보를 획듭합니다. 최종적으로 세개의 값들을 결합하여 아웃풋 값으로 활용합니다.

++ TODO… umbrella RepSurf