Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans

안녕하세요, 이번주 X-review는 오늘 워크샵에서 들은 내용들이 자료가 따로 공유되지는 않을 뿐더러 휘발되기 전에 받아적은 내용들 토대로 정리를 하기 위해 워크샵을 총정리하는 글을 적어보려고 합니다. 이번에 Oral Paper들을 보며 human video를 통해 Robot Learning을 시키며 데이터를 scaling 하는것이 나아갈 방향이라고 생각해 들어봤습니다. 제가 사전 지식도 부족하고 방법론 자체는 정말 가볍게 다뤄주셔서 자세한 방법론에 대한 내용이 담겨있진 않지만 사람에게서 어떻게 데이터를 뽑아서 로봇에게 전달할건가?에 대한 방향성이나 진행된 실험들에 대한 내용을 담아보려고 합니다.

Human to Robot (H2R)

로봇이 인간으로부터 학습하려면 촉각, 힘, 시선등을 멀티모달 센싱 기술을 통해 데이터화 하고 이를 장기적으로 대규모로 축적할 수 있는 데이터 수집 인프라가 필요하고, 대량으로 모은 데이터를 활용하려면 인간의 의도, 장기 목표, 의사결정 과정을 모델링할 수 있는 고도화된 행동 이해 또한 필요하다고 합니다. 이를 위해 데이터와 인간 모델을 바탕으로 모방학습, affordance 학습등을 통해 실제 로봇 기술로 전환하는 알고리즘 또한 필요하다고 합니다. 워크샵에서는 발표자 분들이 위 내용들을 각각 소주제로 많은 내용들을 다뤄주셨습니다. 하나씩 정리해보도록 하겠습니다

Robot learning from Human Video with Tactile

해당 세션에서는 human video에서 촉각 정보를 어떻게 추가할 수 있는지에 대해 다뤄주셨습니다. 실험을 통 사람의 촉각을 마비시키면 사람 또한 세밀한 task 조작 능력이 급격히 떨어지는 것을 관찰할 수 있었고, 이를 통해 시각·촉각 등 다양한 감각이 로봇의 조작 능력에 필수적이라고 합니다. 현재의 로봇 데이터들은 시각적인 데이터만 제공하는데, 이는 occlusion에 매우 취약할 뿐만 아니라 physical properties를 표현하는데 한계가 있다고 합니다. 이에 비해 촉각은 더 빠르고 확실하게 affordance 인식을 가능하게 합니다. 로봇을 학습 시킬때는 ‘인간이 어떻게 하는가’를 기준으로 학습시켜야 하고, 이를 이해하는데 효과적인 방법이라고 합니다.

다만 인간의 tactile 데이터를 활용할 때는 인간과 로봇의 tactile 데이터 간 mapping이 중요하다고 합니다. 공통된 latent에서 손상되지 않은 정보들로 학습을 하는게 중요하고, 특히 로봇에도 동일한 tactile 센서를 부착해 human video 데이터와 로봇 데이터로 co training을 하면 unseen에 대한 성능이 좋아진다고 합니다. 이 연구는 앞으로 tactile grounding을 통한 embodiment gap 해소, 시뮬레이션을 포함한 RL 학습 등으로 확장될 계획이라고 하네요.

Q&A에서는 tactile 데이터의 스케일링 가능성, 재질에 따른 영향에 대해 질문이 들어왔는데 web data로는 tactile 데이터를 추론하기 힘들기 때문에 scaling에는 조금 무리가 있고, 재질에 따라서도 예를 들어 박스가 종이가 아니고 플라스틱인 경우 더 미끄럽고 모서리가 흐물거리지 않기 때문에 변수들이 발생할 수 있을 것 같다는 답변을 들었습니다. 확실히 human video를 가지고만 학습할때는 vision정보 외의 데이터가 필요할 것 같다는 생각이 들었습니다.

Human in the Loop Robot Learning

이 부분을 들으면서는 로봇을 효율적으로 학습 시키는 방법중에 사람이 직접 개입하는 과정이 들어갈 수 있다는 인사이트를 얻을 수 있었습니다. RL을 학습하는 경우 reward의 variance를 기준으로 uncertainty를 측정해 학습이 어느정도 진행된 후에 애매한 순간이 왔을 때 agent가 인간에게 정답을 달라고 요청하면서 학습을 진행한다고 합니다. 애매한 구간마다 이를 반복하며 학습을 완료했을 때는 policy가 정확해져셔 더이상 human을 필요로 하지 않고, 이렇게 학습하면 훨씬 더 정확하고 빠르게 학습이 가능했다고 합니다.

IL을 진행하면서도 Diffusion Policy를 예로 들며 학습을 진행한 후 inference 단계에서 uncertainty를 추정할 수 있는 모듈을 통해 사람에게 애매한 경우에 도움을 요청하고 사람이 수정한 데이터를 통해 fine tuning을 진행한다고 합니다. 자세한 방법은 다루지 않았기 떄문에 디테일은 모르지만 사람이 실제로 로봇의 학습에 개입할 수 있다는 점을 알게 됐습니다. 해당 방법을 고도화하기 위해서는 더 정밀한 uncertainty 측정 모듈을 개발해야 한다고 합니다.

Datasets for Open-World Robotic Foundation Models

해당 발표에는 Physical Intelligence에서 pi 0.5에 참여한 분이 Open-World Robotic Foundation Models을 위한 데이터셋 설계와 학습 전략을 중심으로 말씀하셨습니다. 로봇이 diverse한 대규모 데이터셋으로 학습한다면 generalist가 될 수 있다는 점을 언급하며 human video 또한 ego4D와 같은 diverse한 데이터셋이 있기 때문에 scalable하다고 말씀하셨습니다.

그러다 갑자기 Teleoperation 데이터로 VLM을 finetuning하여 로봇 액션을 예측하는 RT-2와 같은 방법으로 general한 액션을 하려 했다고 소개하며 pi-zero, pi-0.5에 대한 설명을 해주셨습니다. pi-zero 모델은 대규모 인터넷 데이터로 pretraining된 VLM을 시작점으로 하고, 400 시간의 cross-embodiment 로봇 데이터로 추가 학습했다고 합니다. 여기서 pi-zero는 10,000시간 이상의 실험실 데이터 + 3,600시간의 open-x 데이터를 사용했으며, pretraining이 없으면 제로샷이 불가능하다는 점이 실험적으로 확인되었다고 합니다. OXE도 엄청나게 대규모 데이터이고, 당연히 제일 큰 데이터셋인줄 알았는데 pi zero를 학습시키기 위해 1만 시간 이상의 데이터를 확보했다는 것을 보고 충격먹었습니다..

이후 pi-0.5는 새로운 장면·객체에서도 잘 동작하는 로봇을 목표로, 단순한 lab이나 회사 환경이 아닌 다양한 집, 다양한 제어 난이도의 환경에서 취득한 데이터로 학습을 진행했다고 합니다. 이를 위해 모바일 환경의 데이터, 정적 환경 데이터, 웹 데이터를 수집해야 했고, 이는 단순히 10,000시간 이상의 데이터가 아니라 정말 다양한 데이터를 모으는데 집중했다고 합니다. 특히 가정 환경의 경우 정말 갈 수 있는 모든 집을 다 돌면서 데이터를 취득했고 100개가 넘는 환경에서 데이터를 취득했다고 합니다. 이러한 데이터가 제로샷 성능의 핵심이며, Web 데이터와의 Co-training은 OOD강건성을 높여준다고 합니다.

여기서 또 중요한게 어떻게 이렇게 다양한 데이터들을 하나의 모델이 잘 학습할 수 있을까? 였다고 합니다. 이를 위해 FAST가 등장했다고 합니다. Action부분은 pi zero를 그대로 사용했기 때문에 pretraining 하는게 진짜 중요한 것 같습니다. 또한 pi 0.5를 학습시킬 때 실험을 진행했는데, 로봇의 작업 환경에 대한 zero shot 성능이 점점 증가하다가, 환경 다양성이 100개가 넘는 순간부터 seen environment와 성능이 같아지고, 해당 최대 성능이 그대로 유지됐다고 합니다. 따라서 강연해주신 분은 앞으로 environment에 대한 강인성을 갖는 환경 다양성의 수는 100개로 기준을 정하고 데이터를 취득하려고 한다고 하셨습니다. (100개면 근데 진짜 너무 많은 것 같습니다..)

여기서 더 충격이었던 점은 현재의 트렌드대로 진행될 경우 앞으로 몇년 안에 지금 pizero와 pi0.5를 학습시키는데 사용한 1만시간 이상의 데이터셋도 small scale 데이터셋이 될것이라는 점이었습니다. Lighting, Background, object에 대한 다양한 case들이 전부 real dataset으로 구축될 것이고, 이는 human video 데이터셋이 가지는 이점에 포함되지 않을 것이라고 합니다.

다만 human data가 가지고있는 잠재력을 생각해보면 사용자의 선호도를 반영한 low level action이나 long tailed task를 해결하는데 있어서 로봇 데이터가 가질 수 밖에 없는 한계를 보완할 수 있을 것이라고 합니다. 또한 VLM의 시공간 추론 능력은 완벽할 수 없기 때문에 인간 지식을 바탕으로 설계된 데이터셋인 만큼 어떻게든 나중에 사용될 것이라고 하네요,, (다만 커버된다고 하는 부분이 시뮬레이터의 강점이었어서 좀 뭐지 싶었습니다) 또 현재 여기서 말하는 대규모의 데이터셋은 teleoperation 데이터셋인데, teleoperation 특유의 costly한 문제는 다루지 않는 것 같았습니다.

Ego-centric 과 Third-person 뷰 데이터중 무엇이 더 의미있을까? 에 대한 질문이 들어왔고 1인칭 데이터가 로봇 관점과 유사해 유리하지만, 데이터가 충분히 커졌을 때는 3인칭도 여전히 도움이 될 것이라고 답했습니다. 다른 강연자분들도 해당 질문에 모두 ego-centric이 당장은 훨씬 유의미하고 우세하다는 답변을 주셨습니다. 그만큼 embodiment gap을 해소하는 것은 힘든거구나,, 싶은 생각도 들었습니다.

Learning From Human Demonstrations : With and Without Motion Capture Data

해당 세션도 좀 흥미로웠습니다. Motion Capture Data 없이 human video를 만들어 학습하는 방법을 제시해주셨는데, 흥미롭게도 Video Diffusion을 이용한 방법이었습니다. Human Video는 강력한 이점을 가지고 있지만 영상을 세밀하게 control하기 힘들고 다양한 환경에서 촬영하려면 번거롭다는 문제를 제기하셨습니다. 그러면서 Image generation을 통해 환경을 만들고 Video Diffusion을 활용해 text로부터 human video를 합성하자는 아이디어를 제시하셨습니다. 요즘 유튜브에서 AI가 만든 영상과 실제 영상이 구분하기 힘들어지는 만큼 이것또한 정말 가능할 것 같다는 생각이 들긴 했습니다.

이와 더불어 human video의 강점으로 dynamic affordance를 언급하셨습니다. 예를들어 사람이 마트에가서 카트를 밀기 위해 손잡이를 잡는 방향과 더불어 휴머노이드의 경우에는 full body control을 해서 카트를 밀어야 하기 때문에 human video를 통해 전체적으로 어떻게 잡고 움직여야 하는지까지를 배울 수 있기 때문에 이점이 크다고 하셨습니다. 사실 휴머노이드 뿐만 아니라 manipulator를 통해서도 어떤 물체를 조작하는 것은 단순히 grasping만 영향을 미치는게 아니기 때문에 human video가 역할을 톡톡히 할 것 같았습니다.

In-Context Robot Learning from Human Video

바로 이어서 human video를 통해 사람의 부드러운 동작을 배워보자는 아이디어로 말씀을 해주셨는데, 아이디어가 좀 신선했습니다. LLM 프롬프팅을 기반으로 keypoint를 통해 instant learning을 하는 방식이었습니다. 라벨링되지 않은 대규모 1인칭 비디오 데이터를 활용해, 사람들이 일상에서 수행하는 행동 패턴을 알아내도록 프롬프팅하여, 그 패턴으로부터 로봇의 행동을 유도하는 원리였습니다. Aria와 같은 스마트안경을 통해 더욱 passive하게 확장될 수 있다는 점을 강조했습니다.

이를 가능하게 하는 핵심 아이디어중 하나는 3D keypoint였는데요, 사람의 손을 그리퍼와 같이 keypoint화 한 뒤 사람 손을 hand tracking하는 transformer를 활용해 human video를 통해 action을 정의하고, language instruction이 들어오면 해당 instruction에 해당하는 video를 retrieval해 3차원 좌표계에 표현된 DINO 기반의 keypoint를 그리퍼가 그대로 영상의 사람 손처럼 따라하는 방법이었습니다. 이를 위해 Keypoint Action Transformer를 학습시킨다고 합니다.

이 접근의 장점은 언어에 대한 일반화능력, distractor에 대한 대응이 기존 단일 정책 학습보다 용이하다는 점입니다. 반면 단점으로는 latency, DINO 기반 keypoint 자체의 한계로 인한 시각적인 손실, 낮은 정밀도가 있다고 합니다. 그럼에도 불구하고 데이터 효율성이 매우 높고 향후에 scalable 하다는 장점이 있다고 합니다.

Is large-scale human data collection ready yet?

마지막으로는 Is large-scale human data collection ready yet? 이라는 주제로 panel discussion을 진행했습니다. 컴퓨터 비전을 주로 연구하시던 분들과 로봇 러닝을 주로 연구하신 분들의 견해가 갈린다는 점이 인상깊었습니다.

먼저 제기된 문제가 현재 대규모 데이터는 존재하지만, 로봇 학습에 즉시 활용하기에는 여전히 제약이 많다는 점이고, 특히 조작 시 필요한 6D pose와 고품질의 3D 모션 데이터가 부족하고, 무엇보다 tactile 데이터가 턱없이 부족하다는 점이었습니다. Web data는 촉각 센서 데이터가 존재하지 않기 때문에 tactile에 대한 데이터로는 사용할 수 없다는 점에 대해 어떻게 생각하는지? 에 대한 말씀을 하셨습니다.

이에 대해 우선 touch에 대한 부분이 로봇을 학습시키는데 무조건 도움을 줄거라는 강한 bias를 가지고 있는데, 사실 아직도 어떻게 로봇 학습에 긍정적인 영향을 미치는지에 대해서는 완벽하게 정의하지 못했다고 합니다. 사람의 손을 tracking 하면서 접촉됐는지 안 됐는지에 대한 추론을 할 수 있지 않은가? 에 대한 질문에도 현재의 비전 모델들이 그렇게 완벽하지는 않다는 답변을 받았습니다. 센서를 사용하지 않을 경우 tactile 정보가 중요해지는 복잡한 task에 대해서 더욱 불완전한 tactile 데이터를 얻을 수 있기 때문에 한계가 명확히 들어날 것이라고 말씀하셨습니다.

이때 physical intelligence에서 오신 분이 현재의 VLA 모델들은 2D keypoint만으로도 유의미한 성능향상이 있고, egocentric한 데이터가 정말 많이 모인다면 touch sensor 없이도 physics를 배울 수 있을 것이라고 언급하셨습니다. 또 human video를 모으기 전에, human video로부터 우리가 무엇을 얻을것이냐?를 먼저 확실히 정해야 할 것이라고 하셨습니다. 또 아직 vision 데이터로 VLA같은 경우는 LLM처럼 특정 성능에 수렴하는듯한 한계에 다다르지 않았기 때문에 더 지켜봐야 한다고 합니다. 그러면서 human video는 기존의 로봇 데이터에 조금 섞어서 co training 하는 것만으로도 그 역할을 할 수 있을 것이라고 하셨습니다.

Conclusion

영어로 진행되는 강연을 받아적다보니 내용이 중간에 좀 비어있어서 매끄럽지 않을 수는 있지만 human video를 통한 로봇 학습에 대해 인사이트를 충분히 얻을 수 있었던 것 같습니다. 우선 egocentric한 데이터를 취득하는 방향으로 정해진 것 같고, 일상생활의 비디오를 통해 학습할 수 있는 만큼 scaling측면에서 굉장한 강점을 가지고 있는 것 같습니다. 일반화 성능에도 영향을 미칠 수 있고, RL로도 확장이 가능하지만 또 human video로부터 무엇을 얻을 수 있는지, 어떤 방향으로 H2R이 나아가야 하는지가 정해지지는 않은 것 같아서 더 많은 연구들이 나와야 할 것 같습니다. 잘 활용할 수 있을 때의 장점이 명확한 만큼 현재 computer vision 기술이나 robot learning의 fundamental 등 완성되지 않은 부분들로 인한 활용의 어려움이 존재하는 것 같습니다. 제 생각에는 일단 사람의 행동이 표현된 영상이라는 점과 다양한 modality가 추가로 결합될 수 있다는 점, long tail task 문제를 해결하거나 pretrain 된 VLM 자체를 개선하는 등 활용성이 굉장히 크기 때문에 지속적인 발전을 통해 결국에는 활용해야 하는게 아닌가.. 하는 생각이 들었습니다.

마지막에 뜬금없는 얘기지만 CoRL paper list를 보며 X-Sim으로 H2R을 좀 늦게 접하고 해당 분야에 대한 지식과 인사이트를 얻기 위해 워크샵에 참석했는데 기존에 제가 관심있어하던 시뮬레이션 관련 워크샵에 참석하지 못한게 갑자기 글을 쓰면서 뒤늦게 후회가 되긴 합니다 ㅠㅠ 근데 반대의 선택을 했어도 똑같이 후회했을 것 같긴 합니다..

Author: 김 영규

3 thoughts on “Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans

  1. 안녕하세요 영규님 CoRL에 다녀와서 이렇게 거기서 들었던 내용이나 그에대한 생각을 잘 정리해주셔서 해당 분야에 대해서 잘 모르는데도 불구하고 재밌게 읽었던 것 같습니다.

    사실 해당 글을 읽으면서 human video에 촉각정보를 넣는 법을 다뤄줬다는 부분을 듣고 human video가 어떤 형태의 데이터인지가 궁금하단 생각이 들었습니다. 그래서 저는 human video가 다양한 모달리티의 정보가 들어있는 데이터라고 생각했는데 마지막에 human video를 가지고만 학습할때는 vision정보 외의 데이터가 필요할 것 같다는 생각이 들었다고 언급하셔서 아직까지는 human video는 비전 정보만 가지는 데이터인지 헷갈리기도하고 또 비디오에서 시점이 그럼 로봇 시점으로 된 데이터인지 궁금합니다. 감사합니다.

    1. 안녕하세요 우현님 글 읽어주셔서 감사합니다.

      우선 human video는 여러 형태로 존재할 수 있지만 제가 학회에 참석하면서 본 거의 대부분의 human video는 인간이 각종 manipulation을 하는 egocentric한 RGB/RGB-D 영상이었습니다. (연구에 따라 RGB를 활용하기도 하고 Depth까지 활용하기도 합니다.)
      기존의 Robot Learning 연구들은 teleoperation을 통해 workspace에 존재하는 카메라의 영상과 action라벨이 pairing된 데이터로만 학습을 했었는데, 이렇게 액션이 라벨링된 로봇 teleoperation 데이터가 dextrous한 행동을 학습하기에는 부족하다는게 메인 포인트였습니다. 그렇기 때문에 추가적인 모달리티가 필요하고 그 유력후보가 현재는 tactile 센서입니다.
      Human video에 대해서 조금 더 이야기를 해보자면 결국 teleoperation 데이터는 로봇이 있는 환경에서만 취득할 수 있고, 설사 로봇이 없는 환경에서의 데이터 취득이 가능한 기술을 개발하더라도 “active한 사람 (로봇 데이터를 모으고 싶은 사람)”이 직접 취득을 해야하기 때문에 근본적으로 scaling하기 어렵다는게 결론이었습니다.
      따라서 일상에서 쉽게 얻을 수 있는 사람이 행동하는 human video를 통해 로봇이 학습할 수 있는 방법을 찾아 data scaling을 하자! 입니다.

  2. 안녕하세요 영규님 흥미로운 리뷰 감사합니다.
    글도 디테일하게 잘 써주셨을 뿐 아니라 제가 관심 있는 주제여서 더욱 재밌게 읽었던 것 같습니다!!
    이번 질문은 읽으면서 제 생각이 맞는지에 대해서 질문해보겠습니다! 질문이 뭔가 많을 것 같습니다..

    1. tactile sensor를 통해서 로봇이 vision data만 가지고 학습하는 것 보다 인간의 의도와 생각을 더욱 효과적이게 받아 들일 수 있다는 점이 흥미로웠습니다. 하지만 여기서 궁금한 점이 몇가지 있습니다. 조사하는 과정에서 실제로 dexhand를 보면 손 끝 부분에만 tactile sensor가 존재하는 경우가 많았던 것 같습니다. 하지만 인간의 경우 손 끝만으로 작업을 하는 경우는 드문데, dexhand의 손바닥 부분에 tactile 센서가 붙지 않는 이유가 있을까요? 앞으로의 dexhand는 손바닥에도 tactile 센서가 붙는 방향으로 발전할까요? 영규님의 생각이 궁금합니다!!

    2. 제가 알기로는 휴머노이드가 걸을 수 있게 된 시점도 얼마 되지 않은 것 같습니다. 바닥의 지형 힘의 정도를 고려해서 걷는다는 점에서 hand의 경우와 비슷한 것 같다는 생각이 들었습니다. 아직은 제가 잘 모르지만 같은 방향성으로 hand도 발전할 것 같은데.. 영규님이 생각하는 로봇의 hand 조작과 걷는 과정 두 분야의 큰 차이점이 무엇이라고 생각하는지 궁금합니다. 같은 방향으로 발전할 수 있을까요?

    3. teleoperation 과정에서 embodiment gap을 해소하기 위해 로봇의 시점과 사람의 시점 두가지를 고려해서 맞춰주는 방식을 많이 사용하는 것 같습니다. 이번 질문은 그냥 제 생각인데 3인칭 뷰를 학습에 같이 사용하면 안되는건가요?? 예를들면 위에서 말씀하신 대로 마트에서 카트를 미는 상황이라고 가정을 하면 휴머노이드는 fully body control을 수행해야 됩니다. 카트를 잡는 상황은 1인칭 시점에서 학습이 가능하지만 카트를 미는 과정 등을 학습할 때는 3인칭 시점이 더욱 효과적일 것 같다는 생각이 들어서 궁금증이 생겼습니다.

    4. 그리고 이건 제가 잘 몰라서 하는 질문일 수도 있는데, 1인칭 뷰를 학습에 사용할 때 주변의 정보를 같이 학습할 수는 없나요? 실제로 마트에는 다양한 사람이 카트를 밀고 있을텐데 어떻게 보면 저에게는 1인칭 시점이지만 다른 사람들이 카트를 어떻게 미는지 볼 수 있고 그 부분을 학습할 수 있으면 둘 다 가능한거 아닌가? 라는 생각이 들었습니다. 즉 카트를 잡는 방식은 1인칭 데이터를 통해 학습을 진행하고, 카트를 미는 fully body control 방식은 다른 사람들이 카트를 미는 방식을 보고 학습을 진행하면 안되는건가요?? 이렇게 하면 1인칭 뷰를 통해 두 마리의 토끼를 잡을 수 있는 거 아닌가 생각이 들었습니다!!

    어쩌다 보니 길게 질문을 남긴 것 같네요… 도움 되는 리뷰 감사합니다!!!

Leave a Reply to 김 영규 Cancel reply

Your email address will not be published. Required fields are marked *