[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

안녕하세요. 이번에 가져온 논문은 저번에 리뷰한 DexUMI와 비슷한 논문인 DEXOP입니다. 이 논문도 로봇 없이 Dexterous mnipulation을 로봇에게 어떻게 학습시킬까? 라는 큰 질문으로 시작된 논문입니다. DexUMI와 다른점은 Fig(1)에서 보는 것과 같이 Hand를 직접 제작하여 사용했다는 점입니다. 위와 같은 linkage 구조를 사용하여 사람의 움직임을 passive hand에 전달합니다. 이로인해 시연자는 직접적인 force feedback을 느낄 수 있기 때문에 좀더 자연스러운 조작이 가능해집니다. 여타 다른 VR teleoperation에 비해서도 시각적인 부분에서 이점을 가져갈 수 있을 것 같습니다. 하지만 첫인상은 매우 무거워 보이고 투박해 보여서 장시간 데이터를 취득할 수 있을지는 의문이네요. 바로 리뷰 시작해보겠습니다.

Introduction

현재 로보틱스 분야는 다른 vision, language 분야와는 다르게 데이터가 현저히 부족한 상황입니다. 데이터를 모으기 위해서 이전 방식들은 VR teleoperation , Human video, simulation 등을 활용하였습니다. 하지만 각각의 방식들은 무시할 수 없는 단점이 존재합니다. sim 같은 경우에는 대량의 데이터를 여러 환경에서 병렬적으로 생성할 수 있다는 장점이 존재하지만 sim2real gap이 존재합니다. Human video 같은 경우에는 미래에는 활용 가치가 높아 보이나 현재는 alignment 문제 혹은 force feedback, tactile feedback 부재 같은 문제가 존재합니다. VR 과 같은 여타 teleoperation device 같은 경우에는 직접 로봇을 조작하여 데이터를 취득함으로 위에서 말한 방식들과 비교해서 보다 더 양질의 데이터를 취득할 수 있다는 장점이 존재하지만, 사람이 직접 데이터를 취득하므로 scaling이 어렵고 force feedback 같은 부분을 놓칠 수 있다는 단점이 존재합니다. 또한 데이터를 취득하기 위한 로봇이 존재해야겠죠.

이러한 부분을 극복하기 위해서 DEXOP 논문은 다음과 같이 제시합니다.

  • Making Data Collection Natural: 위에서 설명한 것 처럼 DEXOP는 linkage를 사용함으로써 robot hand로 부터 직접적인 force feedback을 시연자가 느낄 수 있습니다. 그리고 사람이 손 pose를 로봇에게 그대로 전달 할 수 있죠. 언급은 안했지만 VR 같은 경우는 사람 손의 움직임을 로봇 손에게 전달해줄 때 retargeting 알고리즘을 사용하므로, kinematics gap을 줄이기 힘들다는 단점이있습니다. 그리고 로봇이 없어도 된다는 큰 장점이 또 존재합니다.
  • High Transferability of Collected Data: 이 부분은 요약하면 hand의 전체 부분에 tactile sensor를 부착했다고 합니다. 그로 인해 더욱 고품질의 데이터를 형성할 수 있다고 하며 다양한 contact rich한 task에서 좋은 성능을 보인다고 하네요.
  • Enhancing the diversity of accomplished tasks: 이 부분은 설계적인 부분입니다. 손가락 부분에 살짝 튀어나온 fingernail을 설계하였는데 이로 인해서 얇은 동전 줍기 등이 수월해졌다고 합니다. 또한 각 손가락의 abduction 관절을 추가함으로써 각각의 fingertip간 거리적인 관계를 알 수 있었고 이로인해서 In-hand manipulation 작업이 수월하게 진행되었다고 합니다. 마지막으로 palm에도 tactile 데이터와 pad를 추가해서 더욱 물체를 견고하게 잡을 수 있었다고 하네요.

이런 방식으로 DEXOP는 portable하고 손쉽게 좋은 퀄리티의 manipulation data를 얻을 수 있다고 합니다.

Hardware Design

위의 그림은 DEXOP-12의 kinematic chain입니다. ring, middle, index의 DIP 관절이 제외되었고, thumb의 MCP 관절이 제외되었습니다. 이러한 관절이 있는 것이 task 수행능력을 높이는 것은 맞지만 논문에서는 설계 복잡도의 증가가 너무 커서 제외했다고 하네요.

DEXOP의 전체적인 설계는 위의 그림과 같습니다. 설계에 있어서 철학은 시연자가 조작할 때 편안함을 느껴야 된다! 인 것 같습니다. 만약 로봇 손을 먼저 설계하고 wearable exoskeleton을 설계한다면 사람이 시연하기에 불편할 수 있겠죠. 따라서 이 둘을 함께 설계하거나, wearable exoskeleton을 먼저 설계하고 로봇 손을 설계하는 방식으로 설계했다고 합니다. 이 부분에 있어서는 크게 동의합니다.

wearable exoskeleton 을 제작할 때는 palm을 기준으로 link들이 연결되는 구조로 설계 되었습니다. palm 기준으로 link 구조로 설계하지 않고 자유롭게 fingertip cot이 떠다니는 구조로 설계 된다면 사람 손의 움직임을 전달하는 link 를 설계할 수 없다고 합니다. (해가 존재하지 않기 때문입니다.) 따라서 논문에서는 wearable exoskeleton(이하 exo) 구조를 passive robotic hand와 kinematic chain을 동일하게 가져갔으며 이를 4절 링크 구조로 연결하여 사람 손의 움직임을 잘 전달 할 수 있도록 설계했다고 합니다.

설계 하면서 몇가지 문제점이 있었다고 합니다. 첫번째는 검지, 중지, 약지의 경우 사람 손과 exo 구조와의 충돌이 무조건 발생한다고 합니다. 각 관절간의 작업 공간이 겹치고, exo와 사람 손의 기구학적 구조가 매우 유사하기 때문이라고 합니다. 따라서 exo link(연결 link 와는 다른 link입니다)는 fingercot 옆에 얇게 설계했다고 합니다. 두번째 문제는 사람 엄지 손의 TM 관절은 매우 가깝게 위치해서 동일하게 설계될 경우 엄지의 exo와 사람의 움직임과의 충돌이 계속 발생한다고 합니다. 따라서 의도적으로 TM 관절의 거리를 넓혀서 설계를 수행했다고 합니다.(Fig(4)에서 오른쪽 아래 그림)

위에서 설명한 것 처럼 exo 구조는 passive hand와 동일한 kinematic 구조를 가져가고, 4절 링크를 이용해서 사람 손의 움직임을 passive hand에 전달한다고 했습니다. 이 부분에서는 이 링크 구조에 대해서 조금 더 풀어서 설명해보겠습니다.

4절 링크는 고정된 상태로 유지되는 ground frame이 필요한데요. 이를 구현하기 위해서 저자들은 standoff를 사용해서 exo와 passive hand의 base 부분을 연결합니다. 이로인해 둘간의 고정된 길이가 생기고 이를 ground frame으로 사용한다고 합니다. 이 때 stand off의 길이는 exo와 passive hand의 충돌을 피할 수 있는 최소 거리로 설계했다고 하네요.

검지, 중지, 약지는 같은 구조의 4절 링크를 가져가며 두개의 phalanges를 구동한다고 합니다. 즉 하나의 4절 링크만으로 손가락 전체를 움직이는 것이 아니라 proximal phalanx와 distal phalanx를 각각 전달하기 위한 구조가 따로 있는 것입니다. 첫 번째 4절 링크에서는 exo의 MCP joint와 passive hand의 MCP joint 사이의 고정된 거리가 ground frame 역할을 합니다. 여기서 exo의 proximal phalanx는 input link가 되고 passive hand의 proximal phalanx는 output link가 됩니다. 쉽게 말하면 사람이 손가락을 굽히면서 exo의 proximal phalanx가 움직이면 이 움직임이 link를 통해 passive hand의 proximal phalanx로 전달되는 구조입니다. 이때 노란색으로 표시된 curved link는 exo의 PIP joint와 passive hand의 PIP joint를 연결합니다. 이 link는 coupler link 역할을 하며 두 PIP joint 사이의 거리를 일정하게 유지해줍니다. 이렇게 첫 번째 4절 링크를 통해 PIP joint 사이의 상대 위치가 고정되기 때문에 그 다음에 distal phalanx를 움직이기 위한 두 번째 4절 링크를 구성할 수 있게 됩니다.

두 번째 4절 링크에서는 첫 번째 4절 링크의 coupler link가 ground frame 역할을 합니다. 그리고 exo와 passive hand의 distal phalanx에 있는 짧은 축들이 각각 input link와 output link가 됩니다. 이 구조를 통해 사람 손가락의 distal phalanx 움직임까지 passive hand로 전달할 수 있습니다. 파란색으로 표시된 coupler link 역시 곡선 형태로 설계되어 있는데 이는 손가락이 움직일 때 주변 구조물과 충돌하지 않도록 clearance를 확보하기 위한 설계라고 합니다.

엄지의 경우는 검지, 중지, 약지와 구조가 다릅니다. 엄지의 TM joint는 서로 수직인 두 개의 회전축을 가지는데, 여기서 exo와 passive hand의 abduction joint는 같은 축상에 정렬되어 있습니다. 따라서 하나의 coupler link를 이용해서 TM joint의 flexion 축과 abduction 축을 동시에 구동할 수 있다고 합니다. 즉, 하나의 link 구조를 통해 엄지 TM joint의 2 자유도를 제어하는 방식입니다. 하지만 엄지의 IP joint는 TM joint의 두 축과 평행하지 않습니다. 따라서 TM joint를 제어하는 link 구조만으로는 IP joint까지 제어하기 어렵습니다. 이를 해결하기 위해 논문에서는 두 번째 spatial 4-bar linkage를 추가했다고 합니다. 여기서 spatial 4-bar linkage란 평면상에서만 움직이는 일반적인 4절 링크가 아니라, 3차원 공간상에서 움직임을 전달하는 4절 링크 구조라고 보면 됩니다. 노란색으로 표시된 coupler는 서로 수직으로 배치된 두 개의 joint를 통해 distal phalanx에 연결됩니다. 이 구조 덕분에 TM joint가 어떤 자세에 있더라도 IP joint의 bending motion을 제어할 수 있다고 합니다.

Tactile Sensor

논문에서는 EyeSight Hand에서 사용된 tactile sensor의 설계를 채택한다고 합니다. passive hand에 vision based tactile sensor인 GelSim을 부착한다고 하네요. 각 tactile sensor는 220° fov를 갖는 어안 카메라를 사용한다고 합니다. 손바닥에는 2개가 들어간다고 하네요.

In-the-wild Data Collection

Dexop는 AirExo논문에서 제시한 exoskeleton 구조와 결합도 가능하며(저희가 이번 과제에서 했던 생각과 비슷한 것 같습니다.) IMU, SLAM도 사용하여 hand의 global pose도 취득할 수 있다고 합니다.

Experiment

Comparison with Teleoperation

논문에서는 DEXOP의 사용성을 평가하기 위해서 4명의 참가자를 통해서 평가를 진행했다고 합니다.

위와 같은 task를 진행하였다고 합니다. task를 보았을 때 전체적으로 haptic feedback의 중요성을 어필 할 수 있는 task를 준비한 것 같은 느낌이었습니다. 비교는 teleoperation 방식과 비교를 수행하였습니다. 이 때 teleoperation 방식은 UR3 로봇 팔을 이용해서 수행했다고 합니다.

결과는 위와 같습니다. DEXOP가 분당 task를 처리하는 양이 teleoperation과 비교해서 압도적으로 높은 모습을 볼 수 있습니다. 저는 bottle opening이 box packaging보다 haptic feedback의 중요성이 더 두드러진다고 생각하는데 teleoperation이 bottle opening에서 괜찮은 결과를 보여주는게 의아했습니다.

논문에서는 또한 Dexop를 통하여 Data를 모으고 실제 모델을 학습시켜 성능을 확인하였습니다. 하지만 이 때 DEXOP로 취득한 데이터만 가지고 학습을 진행한 것은 아니고 AirEXO-2 구조처럼 exo-skeleton에 DEXOP를 부착시키고 얻은 데이터를 사용했다고 합니다. 모델은 ACT가 사용되었고, wrist cam, tactile image, joint state가 입력으로 사용된다고 합니다. 휴머노이드 팔의 delta joint position, hand의 absolute joint position 출력 값이라고 합니다.

수행한 task는 전구 끼우기입니다. 논문에서는 다음과 같이 task를 정의했습니다.

  • Grasp Base : 로봇은 정지 상태의 전구 베이스를 잘 잡아야 합니다.
  • Grasp Bulb : 깨지기 쉽고 미끄러운 전구를 잡는 과정에서 로봇의 파지 능력을 평가합니다.
  • Bulb Insertion : 전구를 끼우는 곳에 정확히 전구를 올리는 과정입니다.
  • Bulb Installation : 이 부분이 정말 어려울 것 같은데 전구를 돌려서 끼우는 과정입니다. 촉각 센서 정보만으로 가능하다는 것이 신기했습니다.
  • Grasp Lamp Shade : lamp의 덮개를 잡는 과정입니다.
  • Cover Bulb : 덮개를 씌우는 과정입니다.
결과는 위와 같습니다. 소량의 teleoperation data가 dexop 데이터와 같이 co-training 되었는데 논문에서는 자체적으로 만든 airexo skeleton이 오차가 있어서 학습이 제대로 되지 않았다고 합니다. 따라서 로봇을 직접 조작하는 teleoperation data도 같이 사용했다고 합니다.

Dexop 데이터를 co-training 한것이 성능이 가장 좋았고 데이터를 모으는 시간도 합리적이었다고 합니다. 또한 저자들은 이러한 설계에서 센서 노이즈가 정말 성공률에 많은 영향을 미친다고 말하며 이러한 노이즈가 심할 경우 dexop 만으로는 학습 데이터로 사용될 수 없다고도 이야기 합니다.

감사합니다.

Author: 최 인하

2 thoughts on “[RSS 2025] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

  1. 인하님 좋은 리뷰 감사합니다.

    해당 논문의 저자들이 손 끝에 fingernail을 설계하여 얇은 물체도 줍기 수월하도록 하였다고 하는데,
    실험을 진행한 task 자체는 이를 활용하거나 어필하기 어려운 시나리오인 것 같습니다.
    저자들이 이를 어필하기 위한 별도의 설험이나 작업은 없었는 지 궁금합니다.

    또한, 어찌보면 굉장히 정교하고 고난이도의 조작이 될 것 같은데, 손톱 부위에도 별도의 센서가 있어야하지 않을까 하는 생각이 듭니다. 이에 대한 인하님의 생각이 궁금합니다.

    1. 안녕하세요 승현님 좋은 질문 감사합니다

      프로젝트 페이지에 따로 fingertip nail을 사용해서 task를 수행한 정성적인 영상 결과가 있습니다. 예를 들어서 바닥에 떨어진 동전을 줍는 task가 직접적으로 이를 이용하는 task가 아닐까 싶습니다.

      센서가 도움이 될 것이라는 부분은 동의합니다. 하지만 저희가 바닥에 떨어진 동전을 주울 때를 생각해보면 fingertip nail의 감각보다 각 관절간의 force 관계가 더 중요한걸 알 수 있습니다. 따라서 별도의 센서를 부착하기 보다는 손가락과 바닥면과의 작용 반작용, 세밀한 조작을 위한 관절간의 힘을 고려해야 된다고 생각합니다. (그리고 표면이 너무 작아 센서를 활용할 수 있을지 의문입니다)

Leave a Reply