2025년 상반기를 마무리하며

저에게 이번 상반기를 한마디로 요약하자면 physical ai 시대로 변해가는 흐름을 대응하는 첫 시즌이였다고 볼 수 있습니다. 그렇기에 이중적인 의미에서 숨이 벅차는 상반기였다고 생각합니다.

제 글을 읽는 연구원들은 제가 혹은 저희 팀이 어떤 연구를 진행하고 있는지 아시겠지만 명시적으로 모르시는 분들을 위해서 설명을 드리자면, 저희 팀은 다양한 physical ai 분야 중에서 시각 인지와 언어 정보를 활용한 조작에 집중하고 있습니다. 작년에는 다른 연구 상반기에 제 주요 분야를 로봇 조작으로 변경하면서 저도 처음부터 시작하는 것과 다름이 없었기에 해당 분야의 최근 동향에 대해 많은 조사와 관심을 가졌습니다. 이에 따라 나온 결론에 맞춰 순차적으로 적응하기 위한 계획은 준비했고 지금은 이를 기반으로 저만의 original contribution을 만들기 위한 노력을 가하고 있습니다.

이번 회고록에서는 시각-언어 인지를 활용한 로봇 조작을 분야를 조사하면서 얻은 생각과 이에 적응하기 위한 계획에 대한 결과를 공유하고 더 나아가 이후 트렌드 방향에 대한 견해와 제 연구 방향성에 대해서 공유하고자 합니다.


조작 관점에서의 physical ai

최근 조작 관점에서의 physical ai는 figure ai, boston dynamics, tesla optimers 등 휴머노이드를 이용하여 놀라운 조작 수준을 보여줘 사회적으로 큰 반향을 일으키고 있습니다. 이러한 기술들은 휴머노이드 같은 로봇 하드웨어의 발전도 같이 왔지만, 무엇보다도 VFM과 VLM와 같은 대규모 모델의 등장이 가장 큰 영향을 주었다고 생각합니다. 이러한 대규모 모델들은 인지, 판단, 제어로 구성된 로봇 조작에 필요한 독립적인 모듈 간의 간극을 메워주고 일반화된 성능을 보여주는 계기가 되었습니다.

앞서 언급한 바와 같이 조작 관점에서의 physical ai는 인지, 판단, 제어의 간극이 대규모 모델로부터 줄여졌다고 이야기 했습니다. 저는 이에 따라서 인지, 판단, 제어가 얼마나 유기적으로 연결 되는가에 따라 구분이 분류가 가능하다고 생각하였습니다. 그렇기에 이를 기반으로 독립적인 모듈로 구성된 1단계와 인지-판단-제어가 연약하게 연결된 2단계, 인지-판단-제어가 직접 연결 3단계로 나누어 순차적으로 적응하기 위한 단계를 계획했습니다.

먼저, 1단계에서는 인지, 판단, 제어를 독립적인 모듈로 보고 개별적인 작업을 수행하는 방식을 이용합니다. 해당 단계에서는 인지 모듈로 Grounding-Dino로 시각 인지를 수행하고, 파지점에 대한 판단은 grasping point를 찾는 모델인 CGNet을 이용합니다. 그 다음, grasping point를 6D pose goal로 두고 motion planner 툴인 MoveIt!을 활용하여 제어를 수행합니다.
해당 단계에서는 각 모듈이 독립적으로 구성된 환경에서 대규모 모델을 추가한 방식이기 때문에 기존 방식에서 안정적인 결과를 보여줄 수 있으며, 개별적인 개선이 가능합니다. 허나, 복잡하고 긴 템포를 가진 태스크에서는 모듈 별로 학습이 되어야만 한다는 단점을 가지고 있습니다. 조작이 서로 유기적인 연결을 가지고 있다는 점에서 치명적인 단점이 될 수 있습니다.

2단계에서는 인지-판단-제어를 LLM이 직접 제어하는 agentic 방법론인 voxposer를 베이스로 삼아 구현하였습니다. 해당 방법론은 LLM이 agent로 조작을 위한 전반적인 계획을 추론하여 각 모듈 별로 유기성을 갖출 수 있다는 장점을 가집니다. 또한, 풍부한 지식을 가진 agent가 조작을 위한 affordance를 추론하기 위해서 agent를 기반으로 영역을 언어로 예측하고 이를 VFM을 활용해 위치를 추론한다는 점이 가장 큰 장점으로 작용합니다. 허나, 3차원 공간에서의 제어에 대해서는 이해를 가진 모듈이 없기 때문에 공간 정보에 대한 이해 능력을 크게 떨어진다는 단점이 존재합니다.

3단계에서는 인지-판단-제어를 직접적으로 추론하는 VLA와 VA에 적합한 학습 데이터를 만들고 직접 학습 및 추론을 수행하였습니다. 사람의 인지-판단-제어 능력을 모방 학습을 통해 유기적으로 학습하고 추론하기 때문에 암시적으로 모델링이 가능하다는 장점을 가집니다. 이러한 장점은 이전 단계에서 복잡한 태스크에 대한 이해 능력을 부여하는 데에 큰 장점을 가집니다. 허나, 현재 수준으로는 데이터에 의존적 특성을 데이터가 턱 없이 부족한 현 시점에서는 긴 템포를 갖춘 태스크에서는 약한 모습과 데이터와 다른 분포를 가진 환경에서는 강인성을 보여주지 못한다는 단점을 가집니다.

조작 관점에서의 physical ai: 관련 연구 동향

이후 연구 방향은 3단계에서 활용 가능한 모방 학습 데이터를 효율적이고 쉽게 취득 가능한 방법에 대한 연구와 조작에 대한 계획과 이에 따른 affordance를 풍부한 지식으로 추론 가능한 2단계와 물리적인 특성을 암시적으로 학습하는 3단계가 결합된 연구들로 발전될 가능성이 높습니다. Hi-Robot이 이에 대한 대표적인 연구라고 볼 수 있습니다.

효율적인 데이터 학습과 취득. 3단계의 데이터 부족 문제를 해소하기 위한 연구들도 활발하게 진행되고 있습니다. 기존의 정형성을 갖춘 딥러닝 데이터와는 다르게 physical ai는 데이터 증강이 어려운 문제가 있습니다. 이러한 문제를 쉽게 해결 가능한 방법으로는 real2sim2real 방법론이 있습니다. 해당 방법론에서는 모방 학습을 취득된 데이터 환경을 real2sim을 통해 시뮬레이션에 복원하고 시뮬레이터 환경의 배경 혹은 객체를 증강하는 방식으로 데이터를 늘리는 방식들로 확장되고 있습니다.

또 다른 접근 방법으로는 universal manipulation interface; umi라는 기법과 같이 하드웨어적인 측면에서 데이터 취득을 용이하게 만드는 방법들이 있습니다. 해당 접근 방법은 기존 모방 학습은 teleoperation을 수행하기 위해서 setup이 복잡하고 로봇이 반드시 있어야 한다는 제약 조건이 있었습니다. umi 류 기법들은 로봇 없이 모방 학습에 바로 적용 가능한 인터페이스를 만드는 것을 목적으로 합니다.

이러한 동향을 기반으로 데이터 측면에서는 시뮬레이터와 UMI류를 결합하는 방향으로 흘러가 환경 강인하고 데이터 증강이 가능하며, 데이터 취득이 용이함으로 진행될 것으로 보입니다.

조작에 대한 계획 및 affordance를 이해하는 모방학습

현 수준에서의 모방 학습은 현실 세계의 데이터를 어떻게 효율적으로 모방하고 얼마나 빠르게 작동하는지에 대해 집중되고 있습니다. 그렇기에 단속적인 환경에서는 강인성 실험을 보이지만 긴 텀을 가진 태스크에서는 환경 강인성 실험이 적음 경향을 보입니다. 추후 연구에서는 긴 텀에서도 더 나아가 새로운 지시, 새로운 객체, 새로운 환경에서도 강인성을 갖추기 위한 연구가 진행될 것으로 기대가 됩니다. 해당 방향으로 나아가기 위해서는 조작 태스크에 따른 affordance에 대한 이해 능력이 필요합니다. 아마 가까운 거리에서는 모방 학습들이 affordance를 이해하기 위한 연구들이 진행될 것으로 사료 됩니다.

조금 더 먼 미래를 바라보면 affordance를 이해하는 모방학습이 등장하더라도 해결해야하는 문제점이 아=직 남아 있습니다. affordacne를 주입하여 이해한다고 하더라도 3차원 공간의 물리적인 조작에 대한 직접적인 모델링이 안된 상태이기 때문에 이를 위한 많은 연구들이 진행될 것으로 예측합니다.

+ 현 시점의 모방 학습은 생성형 모델인 flow matching을 이용하여 액션을 예측합니다. flow의 특징이 T 만큼의 모션을 직접 모델링이 가능하다는 장점을 가집니다. 이러한 특징을 이용하여 경로를 객체와 상호작용(e.g. 회피, 조작…)이 가능하도록 하는 연구들이 진행될 것 같습니다.


추후 연구 방향

가까운 시일 내에는 모방 학습이 affordance ~ 속성 정보를 모방 학습에 주입하는 연구들을 진행하고자 합니다. 생각보다 해당 움직임이 빠르게 보이는 상황이라… 조금 더 먼 시점의 아이디어를 고민하고 있습니다. 혹여 조금이라도 아이디어가 떠오르신 분이 계시다면… 아이디어 좀 주시면… 좋을 것 같습니다.

또는, image-to-3d를 이용하여 빠르게 real2sim을 수행하여 데이터를 증강하는 방법도 같이 이끌어 가고자 합니다.

Author: 김 태주

4 thoughts on “2025년 상반기를 마무리하며

  1. 연구실의 미래. 연구실의 빛. 연구실의 태양을 뵙습니다.

    제 25년도 하반기도 김태주 연구원님이 그랬듯이 모빌리티 쪽의 연구를 수행할 수 있는 플랫폼을 구축하고 싶은데 지금의 실험 환경을 만들었던 노하우가 글에 담겨있지 않아서 아쉽네요. 이 부분은 제가 추후에 제 논문 마무리 지으면 찾아가서 자문을 구하겠읍니다.

    한가지 궁금한 점은 1~3단계로 나누어서 physical ai에 대해 소개해주셨는데 김태주 연구원님은 이중에서 어느 단계의 framework을 단기적으로 연구하실 계획이신가요? 즉 추후 연구 방향은 몇단계 framework을 위한 연구인가요? 3단계인가요??

    캄사합니다.

    1. ….

      지금 실험 환경 구축에 대한 이야기도 풀고 싶긴 했는데… 사실 삽질의 향연이라… 풀만한 이야기가 딱히 없는 것 같아요. 찾고 적용해보고 디버깅하고 디버깅…디버깅… 다시 찾고 적용하고… 반복… 하하…

      제가 경험한 삽질이라면 참고하시라고 제 경험을 공유해주는 건 가능할 것 같긴 합니다.
      —————————-
      Q1. 한가지 궁금한 점은 1~3단계로 나누어서 physical ai에 대해 소개해주셨는데 김태주 연구원님은 이중에서 어느 단계의 framework을 단기적으로 연구하실 계획이신가요? 즉 추후 연구 방향은 몇단계 framework을 위한 연구인가요? 3단계인가요??

      A1. 1~3단계는 미니 챌린지에서 이미 수행한 내용입니다. 해당 내용이 안담겨나 보네요. 하하..
      아마 2단계와 3단계를 결합한 방향으로 나아갈 것 같아요. 아니면 1단계로 다시 돌아갈 수 있을 것 같아요. 현 시점에서는 이게 정답이라기 보단… 각 단계 별 장단점이 크기 때문에 상호 보완이 되도록 섞는 방향이 될 것 같아요.

  2. 로봇 조작의 최신 동향을 잘 정리해주셔서 감사합니다.

    모방학습에 붙일 수 있도록 속성 정보를 활용한 affordance 연구를 빠르게 진행해보도록 하겠습니다..ㅎㅎ
    그리고 개인적으로는 affordance 성능이 아직은 불완전하다고 생각합니다. 따라서, affordance를 고려한 로봇 조작의 성공을 어떻게 평가할 것인지도 중요한 문제가 될 것 같습니다. 이에 대해 혹시 생각하시는 바가 있으실까요?

    1. Q1. 따라서, affordance를 고려한 로봇 조작의 성공을 어떻게 평가할 것인지도 중요한 문제가 될 것 같습니다. 이에 대해 혹시 생각하시는 바가 있으실까요?
      A1. 아마 UAD를 따라가거나… 새로운 방법을 제시해야하는데… 근데 아직 어떻게도 설계가 안된 상황이라 평가를 고민하기에는 이른 것 같아요.

Leave a Reply

Your email address will not be published. Required fields are marked *