안녕하세요. 손우진입니다.
제가 오늘 가져온 논문은 IROS 2025에 accept된 논문입니다. 근데 제가 본 논문은 arxiv ver2로 올린 논문이더라구요… 내용이 좀 많이 빠져있어서 어떻게 accept 된거지 했는데 내용들을 생략해서 올린걸 제가 본 것 같습니다. 많이 비어있어서 이해하는데 어려움이 있었지만 열심히 작성해보겠습니다.
우선 ,제목을 보는 순간 그냥 지나칠 수가 없었습니다. 로봇 비전 쪽에서 너무나 당연하게 받아들여져 왔던 질문 “6D pose estimation이 잘 되면, 로봇은 정말 물체를 잘 잡을 수 있는가?”를 다루고 있기 때문입니다.
보통 6D pose estimation의 성능을 ADD, ADD-S, rotation error, translation error 같은 정량적인 지표로 평가합니다. 그리고 이러한 지표의 error수치가 충분히 낮아지면 “이제 manipulation에도 쓸 수 있겠다”고 가정해 왔습니다.
하지만 이 논문은 그 가정 자체를 직접 실험합니다. 단순히 수치가 좋아졌는지가 아니라, 그 포즈 추정 결과를 실제로 믿고 로봇이 집었을 때 과연 성공하는가를 확인하고자 합니다.
좀 재밌는 부분은 논문이 새로운 포즈 추정 모델을 제안하지도 않고, 그리핑 알고리즘을 새로 설계하지도 않으면서, 오히려 그 사이의 간극을 실험하는 것만으로 iros에 붙었는데 그 만큼 필요한 연구가 아니였을까 하는 생각도 듭니다.
다만 아쉬운 점은 모든 실험이 MuJoCo 시뮬레이터 환경에서만 수행되었다는 점입니다. 실제 로봇 환경에서의 실험까지 포함되었다면, 시뮬레이션 결과와의 차이에서 더 흥미로운 분석이 가능했을 것이라는 아쉬움은 남습니다.
Introduction
최근 로봇 비전 분야에서는 6D pose estimation 성능이 향상되면서 이를 실제 로봇 조작에 활용하려는 시도도 점점 늘어나고 있습니다.객체의 위치와 방향을 정확히 추정할 수 있다면 그 정보를 기반으로 로봇이 물체를 안정적으로 집고 조작할 수 있을 것이라는 흐름이라고 볼 수 있습니다.하지만, 생각했던 것과 달리 단일 RGB 이미지로부터 예측된 포즈가 실제 그리핑을 얼마나 잘 지원할 수 있는지에 대해서는 명확하게 검증된 연구가 많지 않습니다.
이 논문에서 저자들이 던지는 질문도 바로 이 부분입니다. RGB 기반의 6D pose estimator가 예측한 객체의 pose가, 실제 로봇 그리핑 성공으로 이어질 수 있는가입니다. 대부분의 로봇 시스템이 RGB-D 센서에 의존하고 있는 상황에서, 저자들은 상대적으로 저렴한 RGB 카메라만을 사용하는 설정이 실제 조작 작업에서도 충분히 유효한지를 살펴보고자 합니다.
우선 저자가 하고자 하는 실험의 목적은 비교적 명확합니다. 포즈 추정 성능을 더 개선하는 것이 아니라 기존에 널리 사용되어 온 포즈 평가 지표들이 실제 로봇 조작을 얼마나 잘 설명하는지를 검증하는 데 초점을 둡니다. 보통 ADD, ADD-S, MSSD, rotation error, translation error와 같은 정량적인 지표를 통해 6D pose estimation의 성능을 평가해 왔고,
이러한 지표의 오차가 충분히 낮아지면 “이제 manipulation에도 쓸 수 있겠다”고 가정해 왔습니다. 하지만 이 논문은 그 가정 자체를 직접 실험해 보고자 합니다.

위 그림은 이러한 문제의식을 직관적으로 보여주는 예시입니다. 초록색으로 표시된 포즈는 6D pose estimator의 예측 결과이며, 기존의 ADD(-S)나 MSSD와 같은 지표 기준으로는 양호한 결과에 해당합니다. 그럼에도 불구하고, 이 포즈들을 그대로 신뢰하여 그리핑을 수행했을 때 모든 시도는 실패로 이어집니다. 이는 포즈 정확도가 반드시 그리핑 성공을 보장하지는 않는다는 점을 보여주는 대표적인 사례입니다.이와 같은 사례들이 이 논문의 핵심 문제의식이라고 할 수 있습니다. 단순히 포즈 추정 오차의 크기뿐 아니라 오차의 종류와 방향이 실제 그리핑에 어떤 영향을 미치는지 그리고 우리가 익숙하게 사용해온 포즈 평가 지표들이 이러한 실패를 얼마나 잘 예측할 수 있는지를 재검토할 필요가 있다는 것입니다. 저자들은 기존 BOP 벤치마크에서 정의된 ADD(-S), MSSD와 같은 지표에 더해 회전 오차와 이동 오차를 분리하여 분석함으로써 포즈 오차와 그리핑 성공 사이의 관계를 보다 직접적으로 살펴보고자 합니다.
그래서 저자들은 포즈 추정 오차의 영향만을 최대한 분석하기 위해, 실제 로봇 환경이 아닌 시뮬레이션 환경을 선택했다고 합니다. 이는 단순히 센서 노이즈나 여러 변수를 제거하기 위함이라기보다는, 예측된 포즈와 정답 포즈 사이의 변환 오차를 계산하고, 그 오차를 그대로 그리핑 동작에 적용하기 위함이라고 설명합니다. 시뮬레이션 환경에서는 물체를 항상 ground-truth pose에 고정한 상태에서, 그리퍼가 오직 추정된 pose만을 신뢰해 움직이도록 설정할 수 있기 때문에 시뮬레이션 환경을 선택했다고합니다. 개인적으로는, 실제 환경에서 동일한 실험을 수행하려면 데이터셋 구축과 정밀한 ground-truth 확보가 필요하기 때문에, 기존 BOP 데이터셋에서 제공하는 GT pose를 그대로 활용할 수 있는 시뮬레이션 환경을 선택한 측면도 있지 않았을까 생각됩니다.
Method
저자들은 포즈 추정 결과가 실제 그리핑 성공으로 어떻게 이어지는지를 분석하기 위해, 비교적 단순하지만 의도가 명확한 실험 구성을 사용합니다.
핵심은 포즈 추정 오차를 정량적으로 계산하고, 그 오차를 그대로 그리핑 동작에 적용한 뒤 성공 여부를 관찰하는 것입니다.

실험 단계는 위 그림에 나타난 것처럼 총 4단계로 비교적 단순하게 구성되어 있습니다. 이 과정은 open-loop 방식으로 수행되며, 그리핑 도중 추가적인 시각 피드백이나 보정은 사용하지 않는다고 합니다. 즉, 한 번 예측된 pose를 끝까지 그대로 신뢰하여 그리핑을 수행하고, 실행 중에는 포즈나 동작을 수정하지 않습니다.이를 통해 포즈 추정 결과 자체가 그리핑 성공에 미치는 영향을 최대한 직접적으로 관찰하고자 했다고 설명합니다.

그러기 위해 먼저 각 객체와 그리퍼 조합에 대해 reference grasp를 정의합니다. 이 reference grasp는 객체의 ground-truth pose를 기준으로 설계된 그리핑 동작으로, 포즈가 정확할 경우에는 성공이 보장되는 grasp라고 설명합니다. 이때 저자들은 서로 다른 특성을 갖는 두 종류의 그리퍼를 사용하여, 그리퍼 구조에 따른 포즈 차이를 함께 분석합니다. 하나는 일반적으로 널리 사용되는 parallel gripper이며, 다른 하나는 언더액추에이티드 핸드(underactuated hand)입니다. 저자들은 이 두 그리퍼가 객체 형상과 포즈 오차에 대해 서로 다른 실패 양상을 보일 것으로 가정하고 실험을 구성했다고 합니다.
다음 단계에서는 시뮬레이션 환경에서 객체를 데이터셋에 제공된 ground-truth pose에 고정한 상태로 배치합니다. 이후 그리퍼는 예측된 pose를 기준으로 reference grasp를 수행하도록 지시됩니다. 이 과정에서 그리퍼는 사전 정의된 단계(Stage I–III)를 따라 물체에 접근하고 파지한 뒤 들어 올리는 동작을 수행하며, 그리핑이 완료된 이후 객체가 지지면으로부터 충분히 들어 올려진 상태로 약 15초 동안 안정적으로 유지되는 경우를 성공적인 grasp로 정의합니다.
즉, 실제로는 물체가 정확한 위치에 있지만, 그리퍼는 오직 추정된 pose만을 신뢰해 움직이게 되며, 이 과정에서 발생하는 차이가 곧 포즈 추정 오차로 인한 그리핑 실패로 해석됩니다.이러한 설정을 통해 포즈 추정 오차가 실제 그리핑 결과에 미치는 영향을 직접적으로 관찰할 수 있도록 실험이 구성되어 있습니다.
그렇다면 이러한 실험 설정에서, 저자들은 포즈 추정 오차를 어떻게 명시적인 변환으로 정의하는지 수식정으로 정리해보았습니다.(물론 이해가 어려우실거같은데 바로 실험파트로 넘어가셔도 무방합니다..개인적으로 좌표계변환이 아직은 서툴어서 정리하는 차원에서 작성하였습니다)
우선 로봇 좌표계 수식을 읽을 때는 오른쪽에서 왼쪽으로 해석하면 이해가 편합니다. 여기서 T는 일반적인 pose 변환 행렬(SE(3))로, 하나의 좌표계를 다른 좌표계로 변환해 주는 연산자라고 생각하면 됩니다.즉, 어떤 점이나 자세에 이 행렬을 곱하면, 해당 좌표가 다른 기준 좌표계로 옮겨집니다.

O는 object의 좌표계이고 W는 world 좌표계입니다. 식 (1)은 ground-truth object 좌표계를 기준으로 예측된 object 좌표계가 얼마나 어긋나 있는지를 나타내는 상대 변환을 정의합니다. 구체적으로는 GT object 좌표계로 변환한 뒤, 예측된 변환 행렬을 통해 다시 world 기준으로 매핑함으로써 GT와 예측 포즈 간의 상대적인 오차를 계산합니다.
(논문에서 사용되는 world 좌표계는 로봇의 베이스 좌표계가 아니라, 데이터셋에서 객체 포즈가 정의된 기준 좌표계로, 실질적으로는 카메라 좌표계에 해당한다고 이해하시면 될 것 같습니다.)

그 다음으로 저자들은, 식 (1)에서 world 좌표계 기준으로 정의된 포즈 오차를 ground-truth object 좌표계 기준으로 다시 표현합니다. 식 (2)는 단순히 좌표계를 바꾸기 위한 형식적인 변환이 아니라, 포즈 오차를 실제 그리핑 동작과 직접적으로 연결하기 위한 단계라고 이해할 수 있습니다. grasp trajectory는 객체 좌표계를 기준으로 정의되기 때문에, 포즈 오차 역시 동일한 object 좌표계에서 표현되어야 reference grasp에 일관되게 적용할 수 있기 때문입니다.
수식을 오른쪽에서 왼쪽으로 해석하면, 먼저 ground-truth object 좌표계를 world 좌표계로 변환한 뒤, world 기준의 포즈 오차를 적용하고, 다시 이를 ground-truth object 좌표계로 되돌리는 구조를 가집니다. 결과적으로 식 (2)는 객체 자체의 좌표계에서 보았을 때, 예측된 포즈가 얼마나, 어떤 방향으로 어긋나 있는지를 나타내는 상대 변환을 정의합니다.
이처럼 포즈 오차를 object 좌표계 기준으로 정리함으로써, 이후 단계에서는 이 오차를 reference grasp에 그대로 적용하여포즈 추정 결과가 실제 그리핑 동작에 어떤 영향을 미치는지를 수식적으로 다룰 수 있게 됩니다.

그럼 이제 이를 simulation 의 좌표계로 변환을 합니다. 먼저 시뮬레이션 world 좌표계의 점들을 gt object 좌표계로 변환합니다 그다음 오차 변환을 적용한 후 object 좌표계에서 시뮬레이션 world 좌표계로 되돌립니다. 그렇게 되면 객체 기준에서 정의된 포즈 추정 오차를, 시뮬레이션 환경에서 실제 그리퍼가 움직이는 좌표계 기준의 오차로 변환한 것이라고 이해할 수 있습니다.
앞선 식 (3)을 통해, 포즈 추정 오차는 시뮬레이션 world 좌표계 기준에서 표현되었습니다. 이제 남은 것은 이 오차를 실제로 그리핑 동작에 적용하는 단계입니다. 이를 위해 저자들은 reference grasp trajectory에 포즈 오차를 직접 합성하는 방식으로 최종 그리핑 계획을 구성합니다. 이 과정은 식 (4)에서 다음과 같이 정의됩니다.

먼저 맨 우측항 부터 설명드리면 GT pose 기준으로 설계된 reference grasp trajectory를 의미합니다. 그리고 식 (3)에서 구한 오차행렬을 구함으로써 실제 그리핑 계획을 구성하게됩니다. 결과적으로 식 (4)는, reference grasp에 포즈 추정 오차를 그대로 주입한 그리핑 동작을 정의합니다. 이로써 그리퍼는 추정된 pose를 정확하다고 가정한 채 open-loop 방식으로 움직이게 되며, 이때 발생하는 그리핑 실패는 오직 포즈 추정 오차만으로 분석 할 수 있다고 합니다.
Experimental Results
앞선 Method 섹션에서는 포즈 추정 오차를 명시적인 변환으로 정의하고, 이를 reference grasp에 직접 적용함으로써 포즈 오차만의 영향을 분리해 관찰할 수 있는 실험 설정을 구성하였습니다.
이제 실험 결과에서는, 이러한 설정 하에서 어떤 종류의 포즈 오차가 실제 그리핑 실패를 유발하는지, 그리고 기존에 사용되던 포즈 평가 지표들이 그리핑 성공 여부를 얼마나 잘 설명하는지를 분석합니다.

Fig. 4는 네 가지 포즈 오차 지표에 대해 그리핑 실패율의 누적 분포를 보여줍니다. 이때 점선은 parallel gripper, 실선은 underactuated hand의 결과를 의미하며, 동일한 포즈 오차 지표에 대해 두 그리퍼가 보이는 실패 양상을 비교할 수 있도록 구성된 그래프입니다.
x축은 각 포즈 지표 값을 기준으로 실험 시도들을 작은 값부터 큰 값 순으로 정렬했을 때의 누적 비율(density)을 나타내고, y축은 해당 구간까지 포함했을 때의 평균 그리핑 실패율을 의미합니다.
저자들은 곡선의 AUC(Area Under the Curve)를 통해 각 지표의 실패 예측력을 비교합니다.
결과를 보면, rotation error는 두 그리퍼 모두에서 실패 예측력이 가장 낮은 지표로 나타납니다. 반면 translation error는 가장 강력한 실패 예측 지표로 확인되며, ADD(-S)와 MSSD 역시 translation error와 매우 유사한 경향을 보입니다.
이는 저자들이 지적하듯, 이들 지표가 본질적으로 위치 오차에 크게 의존하기 때문입니다. 또한 전반적으로 underactuated hand(실선)는 parallel gripper(점선)보다 낮은 실패율을 보여,
동일한 포즈 오차라도 그리퍼 구조에 따라 실제 그리핑 결과가 달라질 수 있음을 확인할 수 있습니다.

Table I은 YCB-V 데이터셋에 대해, 여러 포즈 추정기에서 얻은 객체별 포즈 오차 지표와 그리핑 성공률을 정리한 결과입니다. 표에 보고된 rotation error, translation error, ADD(-S), MSSD, MSPD, 그리고 두 그리퍼의 성공률은 모두 여러 실험 시도에 대한 중앙값(median)으로 계산되었습니다. 이는 일부 극단적인 실패 사례가 평균값을 왜곡하는 것을 방지하기 위한 선택으로 볼 수 있습니다. 단, translation error의 90th percentile 값만은 예외적으로 중앙값이 아닌 상위 10% 구간의 오차로 보고됩니다.
표를 통해 가장 먼저 확인할 수 있는 점은, 전반적으로 underactuated hand가 parallel gripper보다 높은 성공률을 보인다는 점입니다. 동일한 포즈 추정 성능을 가지더라도, 그리퍼 구조에 따라 실제 그리핑 결과가 크게 달라질 수 있음을 보여줍니다.
또한 객체 형상에 따른 차이도 뚜렷합니다. Cracker box, Sugar box와 같은 단순한 프리즘 형태의 객체들은 비교적 큰 포즈 오차에도 불구하고 높은 성공률을 유지하는 반면, Soup can, Mustard bottle, Gelatin box와 같이 곡면이나 비대칭 요소를 포함한 객체들은 상대적으로 낮은 성공률을 보입니다. 이는 Fig. 4에서 관찰된 바와 같이, 단순한 회전 오차보다는 위치 오차가 그리핑 실패에 더 큰 영향을 미친다는 경향이 객체별 결과에서도 유지됨을 보여줍니다.
제가 놀랐던 것은 , RGB 기반 포즈 방법론 들이 생각보다 높은 그리핑 성공률을 보였다는 점입니다. 물론 저자들은 각 객체 모델 조합에 대해 정확히 몇 번의 그리핑 시도를 수행했는지를 명확히 제시하고 있지는 않지만, 그럼에도 불구하고 instance 기반 RGB 6D pose estimator들이 실제 그리핑으로 이어질 수 있을 정도의 성능을 보였다는 점은 놀랐습니다. 특히 단순한 형태의 객체들에서는, 비교적 큰 포즈 오차에도 불구하고 안정적인 그리핑이 가능하다는 점에서,
RGB 기반 포즈 추정이 조작 시나리오에서도 충분히 의미 있는 수준에 도달했음을 보여준다고 해석할 수 있습니다.
또 하나 중요한 분석은, translation error가 발생하는 방향성에 대한 저자들의 관찰입니다. 저자들은 포즈 추정 오차를 축 방향으로 분해해 분석한 결과, 전체 translation error의 최소 80% 이상이 카메라의 viewing direction, 즉 depth(z) 방향에서 발생한다고 보고합니다. 이는 입력으로 depth 정보가 제공되지 않는 단일 RGB 기반 포즈 추정의 구조적 한계에서 기인한 결과로 해석됩니다. 그렇다 하더라도 Depth없이 저정도의 정확성을 보여줬다는 것은 단일 rgb 기반도 많이 연구되고있는 것 같습니다.

Table II는 LM-O 데이터셋에 대해 객체별 포즈 오차와 그리핑 성공률을 정리한 결과입니다. YCB-V에 비해 LM-O는 형상이 복잡하고 파지가 까다로운 객체들로 구성되어 있으며, 그 결과 전반적인 그리핑 성공률이 크게 감소합니다.
특히 Egg box와 같은 객체는 포즈 오차가 작아 보이더라도 parallel gripper에서는 거의 성공하지 못하는 반면, underactuated hand는 상대적으로 더 높은 성공률을 보입니다.
아무래도 물체에따라 작으면 그 오차도 커져서 grasping하는데 어려움이 있는 것 같습니다. 이러한 분석은 제가 차후에 데이터셋 찍게된다면 물체들도 고려할때 좋을 것 같습니다 ..ㅎ
마무리하자면 저자들은, 회전 오차보다는 위치 오차 특히 depth 방향의 translation error가 그리핑 실패를 지배하는 주요 요인임을 명확히 보입니다. 기존의 ADD(-S), MSSD와 같은 포즈 평가 지표들이 실제 그리핑 성공을 설명하는 것처럼 보이는 이유 역시, 이 지표들이 본질적으로 translation error에 강하게 의존하기 때문임을 실험적으로 분석합니다.
무엇보다 이 논문의 가장 큰 기여는, 포즈 추정 성능 평가와 실제 로봇 조작 성능 사이에 존재하는 간극을 정량적으로 드러냈다는 점입니다. 단순히 포즈 오차가 작다는 이유만으로 manipulation이 가능하다고 판단하는 것은 위험하다는 생각이 듭니다 객체 모형, 그리퍼 구조, 그리고 오차의 방향성까지 함께 고려해야 할 것 같습니다
비록 시뮬레이션 환경에서만 실험이 수행되었다는 한계는 존재하지만, 이 논문은 RGB 기반 6D pose estimation이 실제 그리핑에 사용되기 위해 무엇이 충분하고 무엇이 부족한지를 명확히 정리해 준다는 점에서 의미 있는 연구라고 생각합니다.
안녕하세요, 우진님. 좋은 논문 리뷰 감사합니다.
제가 결과적으로 이 논문을 이해했을 때는 그리퍼와 포즈 추정 오차에 대한 관계를 실험해보는 논문이라고 이해하였는데, 리뷰에서 보이기로는 포즈 오차 중 translation error, 특히 depth 방향이 지배적임을 보였는데,
이 경우 pose estimation 단계에서 depth 불확실성을 줄이는 방향이 더 중요한지,
아니면 grasp planning 단계에서 해당 오차에 강건한 접근 궤적을 설계하는 것이 더 현실적인지 궁금합니다.
다시 한번 좋은 리뷰 감사합니다.
우진님 좋은 리뷰 감사합니다.
먼저 6D Pose Estimation 결과를 실제로 로봇 파지에 적용하였을 때 어떤 결과를 보이는 지 실험하는 연구라는 점에서 흥미롭습니다.
traslation error가 더 중요하게 동작한다는 것으로 이해하였는데, 맞을까요? ADD(-S) 성능이 실제 파지 성공률과 어떤 관계를 갖는지, 최소한 어느정도의 ADD(-S)가 필요한 지 궁금하였는데, 이에 대한 분석은 없는 것 같아서 아쉽습니다..
Fig. 3.을 보면 물체별로 reference grasp가 주어지는데 그리퍼 종류가 물체마다 한가지씩 있는 것으로 보이는데, Table 2에는 물체별로 두 그리퍼를 모두 실험을 진행하였는데, 물체마다 2가지 그리퍼의 reference를 갖는것일까요?
안녕하세요 우진님 리뷰 감사합니다.
manipulation이 되냐 안되냐 측면에서는 정량적인 지표를 겨루는 최신 모델들은 이미 성공했다고 생각했는데, 첫 초록색 6d pose estimation 결과가 ADD(-S) 기준으로는 양호하다는 말에 조금 충격을 받은 것 같습니다..
그래도 최근 model free 6d pose estimation 연구들이 예시 수준의 grasping이 성공할 정도의 성능은 보장한다고 생각하고 있었는데, introduction에 삽입된 figure는 어떤 모델의 결과인지 궁금합니다.