안녕하세요 1번째 X-Review 작성자 손우진입니다. 처음 작성하는 리뷰라 미숙한 점이 있을 수 있습니다. 독자분들 모두의 피드백은 저의 실력향상과 올바른 길로가는 거름이라 생각하고 성심껏 답변하고 받아드리겠습니다! 언제든 질문 부탁드립니다. 그럼 거두절미하고 첫번째 논문리뷰 시작하겠습니다

(2022 CVPR에 발표된 논문으로 pose Estimation 에서 RGB이미지만으로 occlusion에 강인함을 제안한 논문입니다)
Introduction
이번 리뷰는 제가 처음으로 작성하는 6DoF 관련 논문 리뷰이며, 앞으로도 이 분야의 논문을 자주 보게 될 것 같아 먼저 간략하게 6DoF 포즈 추정이 무엇인지 소개한 뒤 본격적으로 논문을 설명드리겠습니다.
로봇 비전, 자율주행, 증강현실 등 다양한 컴퓨터 비전 응용에서는 카메라가 관찰한 이미지로부터 실제 물체를 인식하고 조작하는 기능이 필수적입니다. 이를 위해서는 단순히 물체를 ‘어디에 있는지’ 뿐만 아니라 ‘어떤 방향을 향하고 있는지’ 즉 3차원 공간에서의 위치(Position)와 자세(Orientation) 를 함께 알아야 합니다.
이처럼 3축 위치(x, y, z)+3축 회전(roll, pitch, yaw) 을 모두 추정하는 것을 6DoF포즈 추정이라고 합니다. 결국 이 문제는-> real world의 물체를 카메라 좌표계로 투영하고 그것의 위치와 방향을 정확히 해석하는 것에 핵심이 있습니다.
그렇다면 object pose estimation에서 물체의 방향과 위치를 정확히 추론하는 일은 핵심이라는 점에 공감하실 수 있을 것입니다. 이를 위해 다양한 방법론이 제안되어 왔으며 일부는 깊이 정보를 포함한 센서(depth sensor) 를 활용해 높은 신뢰도를 확보하기도 했습니다. 하지만 depth sensor는 비용, 환경 제약, 반사/투명체 문제 등으로 인해 항상 실용적인 해결책은 아닙니다. 이에 따라 본 논문은 단일 RGB 이미지만을 활용하여 6DoF 포즈를 추정하는 문제에 집중하고 있으며 특히 가림(occlusion) 상황에서도 견고하고 일관된 예측이 가능한 RoPE 프레임워크를 제안합니다. 서두가 너무 길었습니다. 본격적으로 리뷰 시작하도록 하겠습니다
RGB만을 가지고 pose를 추정하게 되면 depth 정보가 없어 여러 한계들이 존재합니다. 그 중 저자는 특히 가림(occlusion) 상황에서의 예측에 주목합니다. 물체의 일부분이 보이지 않거나 다른 물체에 의해 가려질 경우 정확한 포즈 추정이 어려워지는 문제로 특히 기존의 대표적인 two-stage 방식에서도 충분히 해결되지 않는 영역입니다. 기조 two-stage 대표방식인 pvnet,BB8등 2D-3D의 대응점을 이용해서 모델의 학습후에 PnP알고리즘으로 해결하는 방법은 정확도도 높을 뿐더러 PnP알고리즘으로 보완될수있습니다. 하지만 이런 two-stage 방식은 본질적으로 occlusion에 취약하다는 한계점이 존재합니다. 때로는 PnP알고리즘에 너무 의존할수도 있을수도 있다고 생각이듭니다. 저자는 이러한 한계를 극복하기 위해 occlude-and-blackout (OBA) 배치 증강 기법을 도입하여 occlusion에 강한 feature들을 학습하도록 유도하고 추가적으로 일관된 랜드마크 예측을 위해 (전체 형태와 어긋나지 않도록 배치되는 것) Multi-precision supervision(MPS)를 설계했습니다.
Method

가장 핵심이되는 파이프라인은 위와같습니다. 2D랜드마크 예측은 HRNet으로 사용하고있습니다.그렇다면 occlusion에 대한 강인함과 랜드마크의 일관성을 향상시킬수 있었던 방법을 설명드리겠습니다.
OBA


우선 앞서언급했듯이 occlude-and-blackout batch augmentation입니다
물체는 보통의 경우는 쉽게 학습을통해 예측을 할수있지만 위의 사진처럼 외부의 개입으로인해 가려짐이 생길수있고 다양한 유형의 가림 상황이 있을 수 있습니다. 그래서 occlusion에 대해서도 강인함을 얻기위해 Random erasing, hide-seek 등 다양한 augmentation을 활용합니다(물론 이런 기법들이 pose estimation에 맞춤으로 나온것은 아닙니다). 그래서 RoPE논문에서는 이런 증강기법들의 영감을 받아 해당 기법과 유사하게 RoI align을 통해 객체의 바운딩 박스를 추출하여 박스내의 grid로 분할하여 noise나 random patch로 부분을 대체하였습니다. 이런한 방식은 데이터의 다양성뿐만 아니라 overfitting을 방지하고 일반화성능을 높이는데 효과적입니다.
–학습시에는 위 파이프라인과 같이 한 배치안에서 같이 학습이됩니다.–
MPS

두번째로는 MPS(Multi-precision supervision)입니다. 위 파이프라인(figure 2)에 heatmap이 3개인 점을 주목해주세요. 기존의 heatmap-based 는 하나의 가우시안 히트맵을 사용합니다. 이때의 분산값은 예측 성능에 큰 영향을 주는 하이퍼파라미터입니다. 분산이 작을수록 위치는 정밀하게 예측되지만 전체적인 구조를 반영하지못합니다. 따라서 occlusion에 강해지기위해서는 구조적인 일관성이 중요하여 서로 다른 분산을 가진 세개의 heatmap을 동시에 학습합니다. 조금 더 구체적으로 말씀드리자면 위 그림처럼 단일 정밀도(single precision)로 학습할 경우 feature map의 특정 영역은 오직 하나의 랜드마크 예측에만 사용됩니다. 즉 feature tensor의 일부가 지역적인 정보(local feature) 만 반영하게 되고 물체 전체 구조와의 관계는 학습되지 않습니다. 반면 MPS 구조에서는 하나의 feature가 여러 수준의 heatmap supervision을 동시에 받습니다. 이로 인해 같은 feature 구간이 여러 랜드마크 예측에 관여하게 되고 네트워크는 보다 구조적이고 일관된 표현 즉 holistic representation을 학습하게 됩니다. 특히 occlusion 상황처럼 일부 랜드마크가 보이지 않을 때에도 다른 랜드마크들과의 상대적 관계를 바탕으로 예측을 보완할 수 있어 구조적으로 안정적인 포즈 추정이 가능해집니다.

학습된 heatmap은 예측한 heatmap을 softmax 된것과 GT heatmap을 통해서 확률 분포간의 차이를 출이는 Jensen-shannon divergence를 사용합니다.
landmark filtering
그렇다면 이렇게 학습된 네트워크를 통해서 keypoint를 예측하게 되는데요 high precision(분산이 작아 위치정확도는 높지만 노이즈에 민감)을 통해서 예측된 2D keypoint 와 mid-precision(분산이 보다 넓어 형태 파악에 강하지만 위치 오차가 클수있음-> Xm)을 통해 예측된 keypoint를 통해서 서로 유사한 경우에만 신뢰성있는 keypoint라 생각하고 선택되어집니다.

위 식을 통하여 pnp(3개의 점, 1개의 검증용 점)solver로 값이 가장 작은 4점을 pnp solver로 넘겨지게 됩니다. 이러한 filtering 방식(high-precision 예측과 mid-precision 예측이 서로 유사한 점만 선택하는 방식)은 refinement 없이도 예측 품질을 사전에 확보하는 방법에 큰 기여를 하게 됩니다.
Experiments
먼저 주요 실험 은 Table1 과 Table2 입니다 dataset은 LINEMOD와 Occluded-LINEMOD입니다

LM데이터셋에서 각 refinement 단계를 포함하는지 여부에 따라 두 그룹으로 나누어서 비교하였습니다. 평균 ADD(-s) (예측된 6DoF 포즈로 정렬한 3D 모델과 정답 포즈로 정렬한 3D 모델 간의 평균 거리를 측정하는 지표) 에서 refinement의 유무에 상관없이 가장 좋은 성능을 달성하는 결과를 확인할 수 있습니다.

그리고 occluded LINEMOD에 대한 실험 결과인데요 refinement 없이 학습된 방법 중에서 ADD(-s) 기준 두 번째로 높은 성능을 기록하면서 occlusion에 강인함을 보였습니다. 여기서 의문점이 드는 것이 occlusion에 강인하다고 해서 SOTA의 성능을 달성할 것처럼 논문에서 얘기를 했지만 그러지는 못해서 의문점이 듭니다 ):
다음은 ablation result입니다

OBA 와 MPS를 사용했을때 나오는 실험결과인데요 위에서 부터 MV2 는 OBA 와 MPS 를 사용하지않는 결과입니다 keypoint예측에서 다소 예측점이 맞지않는 정량적결과를 보실수있습니다 그에 비해 OBS,MPS를 사용했을경우에는 높은 ADD(-s) 와 정량적 결과를 보실수있습니다.
Conclusion
논문에서 ROPE라는 프레임워크를 제안했고, 이는 가림(occlusion) 상황에서도 강인한 object pose estimation을 가능하게 합니다.가림에 강인한 특징(feature)을 학습하도록 유도(OBS)하고, 동시에 전체적(holistic) 표현 학습(MPS)을 하는것이 강인한 자세 추정을 달성하는 핵심임을 보였습니다. LINEMOD, Occluded-LINEMOD 널리 사용되는 벤치마크 데이터셋에서의 평가 결과 ROPE는 후처리(refinement) 없이도 SOTA를 능가하거나 이에 필적하는 성능을 보였습니다.
제가 준비한 첫번째리뷰는 여기까지입니다. 감사합니다. 끝으로 독자여러분들의 질문은 언제나 환영입니다^^.