[CoRL 2025] DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

안녕하세요 이번에 리뷰할 논문은 CoRL 2025 oral paper인 DexUMI입니다. DexUMI는 로봇 없이 로봇 데이터를 취득한다는 UMI(Universal Manipulation Interface)의 철학을 Dexterous Hand에 적용시킨 논문이라고 생각합니다. 하지만 기존 UMI는 2지 그리퍼 구조로 하드웨어 측면에서도 규격화 되어 있는 반면, Dexterous Hand 구조는 다양한 하드웨어가 존재하기 때문에 서로 다른 자유도, kinematics 등등 고려해야 하는 요소가 많이 늘어나게 됩니다. DexUMI는 이러한 문제를 해결하고 Dexterous hand에 UMI를 적용하기 위해 Hardware, Software 적인 측면을 모두 고려한 framework라고 생각하시면 될 것 같습니다. 읽으면서 작년에 CoRL에서 실제 poster 발표를 들었던게 생각이 났습니다. 그때는 무슨 말인지 하나도 몰랐는데 지금 논문을 읽다보니 그때로 돌아가서 저자랑 이야기 해보고 싶네요! 그럼 시작해보겠습니다.

Introduction

간단하게 배경 소개하고 넘어가겠습니다. 로봇 분야에 있어서 로봇 데이터는 정말 중요한 요소입니다. 다른 도메인처럼 Internet scale의 데이터를 활용할 수 없으며, 데이터를 취득하기에도 비싸고 큼지막한 로봇을 사용하기에 부담이 되는 상황입니다. 이런 문제를 해결하고자 나온 논문이 UMI란 논문입니다. 로봇 없이 portable하게 로봇 데이터를 사람이 직접 취득할 수 있다는 점에서 큰 파장을 불러온 논문입니다. 이 철학을 그대로 가져온 DexUMI framework는 하드웨어와 소프트웨어로 구성되어 있는데요, 차례차례 살펴보겠습니다.

  • Hardware : 이 부분에서는 로봇과 사람간의 kinematics gap을 해결한 부분이라고 생각하시면 됩니다. 쉽게 설명해보면 사람 손과 로봇 손은 근본적으로 운동학적 부분에서 차이가 있습니다. 자유도, 모터의 rom 등등 사람 손과 동일한 로봇 손이 나오기 전까지는 맞출 수 없는 부분이죠. 따라서 논문에서는 사람이 wearable device를 착용하여 데이터를 취득함으로써 특정 로봇손의 feasible한 motion을 얻을 수 있도록 하였습니다. 또한 wearable device를 착용하여 데이터를 취득할 경우 teleoperation 같이 원격 조작을 수행할 경우 얻을 수 없는 manipulation 대상과의 접촉 정보 즉 haptic feedback을 사용자가 직접 느끼면서 데이터를 취득할 수 있다는 장점이 있습니다.
  • Software: 이 부분에서는 visual observation gap을 해결한 부분이라고 생각하시면 됩니다. 실제 모은 데이터를 가지고 모델을 학습시킬 때 모델은 visual 정보에 정말 민감한 모습을 보입니다. 이러한 부분을 해결하기 위해 기존 데이터의 사람 손을 segmentation하고 로봇 손으로 inpainting 하는 과정을 거쳐 visual gap을 해소하게 됩니다. 정말 간단하게 해결한 것 같습니다.

Hardware

Exoskeleton Mechanism Design

하드웨어 부분입니다. 하드웨어 설계에 있어서 착용감도 정말 중요한 요소이며 joint mapping 구조를 가져가는 DexUMI이므로 로봇 손과 wearable device간의 joint 각도에 따른 fingertip position 또한 정확하게 mapping이 되어야겠죠. 논문에서는 위 두가지를 동시에 만족하기 위해 최적화 방식을 사용했다고 합니다.

최적화 변수는 아래와 같습니다. wrist 기준으로의 joint postion (j), 각각의 link 길이 (l)로 이루어져 있습니다. 처음 값은 URDF 기준으로 정해진다고 합니다.

최적화 함수는 아래와 같습니다.

w는 Exoskeleton 과 target robot hand의 wrist 기준 fingertip workspace입니다. S는 이를 가장 유사하게 하는 P를 구하는 최적화 함수입니다. F는 각각의 FK입니다. 첫번째 식은 Exoskeleton이 robot hand의 workspace를 포함하도록 하게 하는 식이며, 두번째 식은 아래와 같은 식을 보장시키며, Exoskeleton의 workspace가 robot hand workspace안에 머물게 함으로써 robot hand가 실제로 불가능한 동작을 수행하는 것을 방지합니다.

또한 최적화를 진행할 때 링크의 길이가 너무 짧아지거나 하면 착용할 때 불편할 수 있고, 엄지의 경우 joint position에 따라 사람 손과 충돌이 발생할 수 있으므로 따로 제약조건을 지정해준다고 합니다.(경험적으로 정해준다고 하네요) 따라서 Fig3에서 보시는 것과 같이 workspace는 유지하면서 사람 손과의 충돌 방지를 위해 엄지의 joint postion의 위치가 정해진 것을 볼 수 있습니다.

Sensor

Sensor는 policy learning을 위한 정보를 알기 위해 정말 중요한 역할을 합니다. robot action을 기록하기 위해 쓰이며, wrist motion, observation을 기록하기 위해 사용됩니다. policy learning에 사용되는 정보를 기록하므로 사람과 로봇 간의 차이를 최소화 하는 것이 중요한 부분이라고 하네요.

Joint action을 모으기 위해 Alps encoder가 사용되었다고 합니다. 손 관절에 들어가기 때문에 작으면서 정확도가 높은 엔코더를 사용했다고 합니다. 하지만 joint friction과 motor backlash 등등 때문에 엔코더로 측정한 각도 값과 실제 로봇 손의 모터 값은 non-linear 하다고 합니다. 이를 해결하기 위해서 논문에서는 별도의 regression model을 학습시켜 mapping 시켰다고 하네요. mapping 시킨 이후에는 inpainting을 위한 paired dataset을 취득한다고 합니다.

Wrist pose tracking 과정은 iPhone 의 ARKit을 사용한다고 합니다. data를 모을 때만 사용한다고 하네요. UMI 구조에서 iPhone의 ARKit을 사용하는 구조가 정말 많이 보이는 것 같습니다. 6D 정확도 측면에서 괜찮은가 봅니다.

OAK-1으로 wrist view를 취득한다고 합니다. 손목 아래 부분에 부착 된다고 하는데 이로인해 object와의 상호작용이 정확히 보인다고 하네요. hand manipulation을 학습 시킬 때 손목 아래 부분에 카메라를 부착하는 경우가 많은 것 같습니다. UMI 구조여서 third view를 사용하지 못한다는 점이 아쉽네요.

또한 사용하는 robot hand와 같은 구조의 tactile sensor를 Exoskeleton에 부착하여 tactile information도 취득한다고 합니다. xHand는 electro-magnetic tactile sensor를 inspired는 Force sensitive Resistor 구조의 tactile sensor를 사용한다고 하네요.

Software

visual gap을 줄이기 위해서 software 부분에서는 inpainting이 사용됩니다. 우선 사람손과 로봇 손을 segmentation 하기위해 SAM2가 사용되는데요 SAM2가 항상 prompt를 요구해서 처음 Exoskeleton 착용하고 시작할 때 항상 같은 hand gestures 로 시작한다고 하네요 그래서 모든 demo에서 same prompt를 사용할 수 있다고 합니다. 그 후 사람 손과 Exoskeleton을 지우기 위해 flow-based 방식인 ProPainter가 사용된다고 합니다. 그 후 paired dataset을 이용하여 로봇 손을 합성한다고 합니다. 이렇게 만들어진 data를 가지고 policy를 학습한다고 하네요.

Evaluation

평가는 cube pick & place / carton opening / tea picking with tool / kitchen 에서 가스레인지 돌리기, pick & place pan, 소금 집어서 뿌리기 등이 진행되었습니다.

또한 ablation으로 relative action과 absolute action을 비교하였고(UMI 논문에서 사용된 relative trajectory입니다.) tactile의 유무와 visual information 처리방식을 바꿔가며 비교하였습니다. (mask는 inpainting 처리 없이 데이터 취득에는 사람 손을 마스크 처리하고, deploy 시에는 로봇 손을 마스크 처리하는 식으로 진행했다고 합니다.) 평가시에는 object들은 환경에 무작위로 배치 된다고 합니다.

처음 table 1을 보고 놀란점은 third view가 없는데 어떻게 이렇게 성공률이 높을까 였습니다. pick and place 과정에서도 pick 까지는 이해가 되더라도 place 과정을 어떻게 판단해서 목표 지점까지 가는지 놀라웠습니다.

또한 논문에서는 relative action이 absolute action보다 더욱 단순한 distribution 을 가지므로 학습하기 쉽다고 말하며, 또한 key event에 도달할 때까지 delta action이 계속 누적되는 reactive behavior를 학습하기 때문에 finger close on contact task에서 absolute action보다 우위를 가져갈 수 있다고 합니다.

또한 Tactile sensor는 relative action을 사용할 때만 성능 향상을 보인다는 것을 발견했고, 수동으로 제작했기 때문에 정확도 측면에서도 별로 좋지 못한 모습을 보여줬다고 합니다. 하지만 salt 를 집어 올리는 작업을 수행할 때 Tactile sensor의 중요성을 볼 수 있었다고 합니다.

Task를 수행할 때 그릇에 근접할 수록 visual information 이 가려져 사용할 수 없었음에도 불구하고 Tactile sensor의 유무가 salt를 집었는지 정확히 확인할 수 있었다고 합니다. (Tactile sensor를 사용하지 않았을 경우에는 공중에서 집는 경우도 많았으며 아무것도 못집는 경우가 많았다고 합니다.)

로봇 없이 로봇 데이터를 취득하는 UMI의 철학을 그대로 가져갔다고 하지만 inpainting을 수행하기 위해 로봇이 필요하다는 아이러니한 논문이었던 것 같습니다. 추후 연구에는 image generation model을 사용할 수 있다고는 언급하였습니다. 또한 로봇 손이 사람 손보다 2배 크다면 workspace를 맞추기 힘들기 때문에 위에서 말한 최적화가 불가능 할 것 같습니다. 이상으로 리뷰를 마치겠습니다.

Author: 최 인하

3 thoughts on “[CoRL 2025] DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

  1. 안녕하세요 인하님 리뷰 감사합니다.

    DexUMI에 tactile 센서까지 부착이 되어있었군요,, 그런데 Tactile sensor는 relative action일때만 성능 향상에 기여했다는 점이 좀 신기한데, 저자의 추가 설명은 없었나요? UMI에서 제안한 relative action의 핵심은 누적 오차를 줄이는 것이었는데, tactile 센싱이 추가 정보를 주긴 하지만 불안정해서 오차를 만들어냈기 때문에 그런 것일까요?

    1. 안녕하세요 영규님 좋은 질문 감사합니다.

      저도 읽으며서 고민했던 부분입니다. 우선 저자들은 그 부분에 대해서는 언급이 따로 없었습니다. 영규님이 말씀하신 것 처럼 불안정한 tactile sensing이 추가적인 정보를 주긴하지만 noisy한 정보로 인한 오차가 absolute action에게는 더욱 치명적이지 않았나.. 싶습니다.

      감사합니다

  2. 안녕하세요 인하님 좋은 리뷰 감사합니다.
    텍타일 센서가 relative action을 사용할 때만 성능 향상을 보였다고 하셨는데 이 부분이 왜 relative action과 더 잘 맞는지 궁금했습니다. 리뷰에서는 relative action이 key event에 도달할 때까지 delta action을 누적하는 reactive behavior를 학습하기 쉽다고 설명해주셨는데, 그러면 tactile 정보가 물체를 제대로 잡았는지 판단하는데 실질적으로 사용되는 구조인건지 궁금합니다. 감사합니다.

Leave a Reply