CoRL 2025 참관기

이번주는 CoRL 2025 참관기를 적어보려고 합니다. 9월 말에 참석했던 학회였고, 올해 초에 재찬이가 발표하러 간 학회 말고는 처음으로 제대로 참석한 학회라 기대도 많이하고 설렘도 가득했었는데, 학회에서 많은 것을 얻고 나올 수 있어서 정말 만족감도 최상이었던 것 같습니다. 평소에 접하기 힘든 내용들을 접하고 인사이트를 얻어간것도 큰 의미가 있지만, 학회장 현장의 열기와 논문 저자들하고 얘기도 많이 해보고, 회사 사람들하고 얘기도 많이 해보면서 연구에 대한 열의(?)가 생긴것 같아서 몸은 지쳤지만 충전된 느낌을 받았습니다. 참관기 겸 해서 현장에서 접한 정보들과 느낀점을 정리해보려고 합니다.

Overview

이번 CoRL 2025는 휴머노이드 학회와 하루 일정이 겹치며, Manipulation, Perception, Planning, Locomotion, Humanoid & Hardware의 다섯 가지 큰 주제를 중심으로 진행되었습니다. Oral과 Poster 세션, Workshop까지 이 주제들로 세분화되어 있었고, 로봇 러닝의 전체 구조 속에서 어떤 요소들이 작동하는지, 그리고 각 분야가 어디까지 와 있는지를 폭넓게 볼 수 있었습니다. 그동안 로봇 분야의 흐름을 체계적으로 정리해본 적이 없었던것 같은데, 이번 학회를 통해 각각의 기술과 연구들이 어떤 맥락 속에서 연결되어 있는지, 어떤 문제에 집중하고 있는지를 나름 구체화 할 수 있었던 것 같습니다. 특히 로봇 manipulation의 데이터의 질적, 양적 부족 현상은 모든 세션에 걸쳐서 공통적으로 등장하는 얘기였습니다. 

로봇이 세상을 인지하고, 판단하고, 행동하기까지의 전 과정을 구성하는 연구들을 접하면서 학회 기간 내내 제 머릿속에 남은 질문은 ‘그래서 나는 어떤 연구를 하는 사람인가?’ 이었습니다. 자기소개를 하거나 지금 어떤 연구를 하고 있는지에 대한 질문을 받을 때마다, 저는 마치 미리 녹음된 답변을 반복하고 있는 듯한 느낌을 받았습니다. 아마 아직 공부와 경험이 충분하지 않기 때문이겠지만, 다른 연구자들과의 대화를 통해 그 차이를 명확히 느낄 수 있었습니다.

워크샵 발표자나 포스터 저자들은 자신이 직접 겪은 문제를 바탕으로 연구를 정의하고, 그 문제를 해결하기 위한 여러 시도와 시행착오를 이야기했습니다. “이런 상황에서 이런 문제가 있었고, 이렇게 해보니 이런 한계가 있었다. 그래서 이 방향이 유효하다고 생각했다.” 이런 서사는 단순한 기술 설명이 아니라, 연구의 맥락과 이유가 담긴 이야기였다고 생각했습니다. 쉽게 말하자면 짬차이 같은데 저는 그 차이가 ‘내가 어떤 연구를 하는지‘에 대한 깊이 차이고, 앞으로 로봇과 더 친해지고 공부를 하거나 논문을 읽을때도 항상 “이 기술이 해결하고자 한 문제는 무엇인가?”를 먼저 파악하는 태도가 필요하다고 느꼈습니다. 물론 논문에 이러한 내용들이 적혀있는걸 모르고 넘어간건 아니지만, 대하는 태도가 달라져야 하지 않나 싶었습니다 ㅎㅎ,,

연구를 계속 한다면 단순히 새로운 모델이나 알고리즘을 따라가기보다, 근본적인 문제를 정의하고 그 해결책을 탐구하는 연구자가 되어야 한다는 점을 피부로 느낄 수 있었던 것 같습니다. 앞으로는 조금 더 깊이, 조금 더 멀리 보는 시선으로 공부하고 연구를 이어가고자 합니다. 그러다보면 최상급 논문은 못 쓰더라도 최소한 확신을 갖는 연구를 좀 덜 지치면서 할 수 있지 않을까 싶었습니다. 아래 부터는 좀 디테일하게 어떤 내용을 접했는지 다루겠습니다.

Workshop

워크은 manipulation 부분의 상당수 Oral 포함 많은 논문들이 Human Data로 학습하는 방법을 주장해서 human data에 관심이 많아진 터라 Human to Robot이라는 주제로 진행된 워크샵을 들었습니다. 해당 워크샵을 관통하는 주제는 “현재의 Real world Teleoperation 데이터의 구조와 양으로는 사람들이 원하는 로봇 manipulation을 할 수 없다” 였습니다. 현재의 LLM이나 VLM들의 수준이 사람들이 원하는 수준인데, LLM, VLM이 학습한 양만큼 데이터를 모으려면 현재의 속도로는 너무 힘들고, 무엇보다 현재의 vision 기반의 데이터만으로는 애초에 dextrous한 manipulation이 불가능하다는 의견도 있었습니다. 

결론적으로 워크샵에서 얻은 인사이트는 크게 로봇은 인간 기준으로 존재하는 3차원 세계에서 상호작용해야 하는 만큼 데이터를 구성하고 학습하는데 있어서 ‘로봇이 어떻게 행동하는가?’에 집중하지 말고 ‘인간은 어떻게 생각하고 행동하는가?’의 접근이 필요하다는 점과 데이터를 수집하는 과정이 너무 고비용이기 때문에 ‘현존하는 데이터를 어떻게 효율적으로 사용할지와 앞으로 어떻게 데이터를 scalable하게 만들것인가?’ 였습니다.

해당 주제로 다양한 접근이 있었는데, 인간은 manipulation시에 촉각에도 굉장히 의존한다를 실험으로 밝히고 로봇에 tactile 센서를 추가해 vision + tactile로 학습을 시켜야하는 필요성과 그 방향을 제시한 연구도 있었고, egocentric한 비디오로부터 현존하는 VLM, LLM의 지식을 이용해 학습없이 action을 시키는 연구도 있었습니다. 

다만 physical intelligence에서는 조금 다른 시선으로 이야기를 했는데, pi zero에서 pi 0.5로 넘어갈 때 환경 다양성에 대한 데이터를 충분히 모았을 때, unseen 환경에서의 성능이 학습 환경에서의 성능과 동일해지는 지점이 있는것을 눈으로 확인 했고, 얼마나 다양해야 이러한 성능에 도달할 수 있을까?에 대해서는 전혀 예측할 수 없는 상황에서 이루어낸 만큼 현재의 teleoperation 데이터를 다양한 방향으로 다각화하고 그 수를 늘려서 계속 연구를 진행할것이라고 했습니다. 로봇 데이터 중에서는 가장 방대하다고 생각한 Open Embodiment X 가 3600시간 정도의 데이터인데, 이미 pi zero를 학습할 때 1만시간의 데이터를 취득했고, 몇년 뒤에는 1만시간의 데이터는 정말 작은 양이 될것이다. 라는 말을 자신있게 하면서, human video는 개인의 preference에 맞게 tuning하거나 정말 long tail인 경우에만 유용할것이라고 자신있게 말하는 모습을 보며 기업의 힘은 대단하구나..도 느꼈습니다.

다만 어쨌든 로봇 학습을 위한 데이터의 확장성에 대한 연구는 그 필요성을 모두가 공감하고 각자의 방법대로 연구를 하고 있지만 정답이 정해지지 않은 만큼 계속 핫할것 같다는 생각이 들었습니다.

Keynotes, Talks

키노트에서도 많은 분들이 나와서 말씀을 해주셨는데, 역시나 주류는 로봇 학습 데이터에 관한 내용이었습니다. 현재 로봇의 데이터를 모두 증량시키는데만 집중하는데, 로봇이 실제 세게를 만지면서 느낄 수 있어야한다는 내용의 tactile 센서 모달리티 추가에 대한 필요성을 어필하시는 분도 계셨고 더 나아가 다양한 tactile 센서들간의 domain gap을 해소하고 하나로 통합할 수 있는 방법을 연구하고 있는 분도 계셨습니다. 첫째날 워크샵 이후 남은 일정들을 진행하면서 키노트를 들으면서 든 생각은 다지 손을 이용한 dextrous manipulation은 생각보다 정말 어려운 일이고, 지금까지의 manipulation과는 근본적으로 다른 영역이구나를 느꼈습니다. Physical AI라는 말을 많이 들었지만 그게 왜 중요한지, 현재는 왜 완벽한 physical AI가 존재할 수 없는지와 더불어 해결하기 위해 나아갈 방향을 조금 엿볼 수 있었던 것 같습니다. 

완전 연구 얘기는 아니지만 또 기억나는 분은 Diamond Sponsor Talk 세션에 말씀을 나눠주신 bitrobot 공동 창업자였습니다. 세계 각국에서 teleoperation 장비를 가지고 마치 게임처럼 주행 데이터를 모으고, 보상으로 비트코인을 나눠주는 플랫폼 사업으로 시작했다고 하는데 직접 연구는 진행하지 않지만 과거의 CoRL에서 인터넷을 통해서 멀리있는 로봇을 작동할 수 있는 연구를 보며 해당 사업을 계획했다고 합니다. 현재 RoboArena 연구도 후원을 하며 진행하고 있고, 연구자들은 연구를 하고, 연구자들의 그림자에서 연구에 도움을 주는 자기같은 사람들이 있음을 알아달라고 하셨는데 아이디어가 참 참신하고, 로봇 연구라는 큰 틀 안에서 정말 다양한 방법으로 사람들이 기여하고 수익을 창출할 수 있구나 라는 생각도 하게 되었습니다.

또 현재의 teleoperation 데이터는 근본적으로 scaling 할 수 없는 형식이고, 그 이유가 로봇이 있는 자리에서만 로봇 데이터를 취득할 수 있기 때문이고, 로봇 없이 human video를 통해 데이터를 취득할 수 있다 하더라도 로봇을 위한 데이터 형식의 비디오를 찍는 active한 사람들, 즉 로봇을 연구하는 사람들만 유의미한 데이터를 취득할 수 있기 때문에 meta의 aria와 같은 스마트안경을 사람들에게 보급해 passive한 방식으로 데이터를 scaling할 수 있어야 한다고 주장하신 분도 계셨습니다. 누군가 그 스마트 안경을 어떻게 사람들한테 보급할거냐고 묻는 질문에는 연구 집단이 필요성만 잘 어필한다면 산업 쪽에서는 구글 삼성 메타 애플과 같은 대기업들이 알아서 제품을 잘 만들어 줄것이다 라는 대답도 인상적이었습니다. 꼭 이런 점이 아니더라도 로봇 연구는 연구쪽과 산업쪽이 서로 엄청 밀접하게 연결돼있겠구나 라는 생각을 다시 하게 되었던 것 같습니다.

Poster, QnA

저번에 재찬이가 발표할 때 따라갔던 KROS에서도 저자들과 소통하며 얻는게 많았었는데 이번엔 규모도 더 크고 저 또한 궁금한 부분이 명확한 만큼 사람들과 소통하며 얻은 지식이 정말 많은 것 같습니다. 처음으로는 운좋게도 제가 베이스로 삼으려려하는 X-sim 저자가 포스터 준비할 때 우연히 마주쳐서 대화하게 됐습니다. 우선 해당 논문을 어떻게 내게 되었는지에 대해 질문했습니다. 저자는 Real to sim to Real 논문을 쓰긴 했지만 시뮬레이션과 Real to Sim을 많이 공부해보지도 않았고, human data를 어떻게 활용할 수 있을지에 대한 고민을 주로 했다고 합니다. 그러다 물체 중심으로 학습을 시키려면 어떻게 해야할까?에 대한 고민을 하다 real to sim to real로 할 수 있겠다 싶어서 적용했다고 합니다. 그 과정에서 ‘물체 중심의 학습’이라는 포인트를 어필하기 위한 다른 부가적인 요소인 real to sim 방법이나 시뮬레이터 채택의 기준은 지식이 없는 상태였기 때문에 무조건 공부하기 쉬운 방법과 빠르게 결과를 낼 수 있는 방법으로 골랐다고 합니다. 그러면서 저한테 아이디어가 떠올랐다면 과정들은 어지간하면 off the shelf로 빨리빨리 진행해서 논문을 내는게 좋은 것 같다는 말을 했습니다. 이 때 로봇 러닝 학회에 논문을 내려면 로봇 러닝 관점에서의 문제정의를 하고 그 포인트를 빠르게 해결하는게 중요하겠구나, 라는 생각을 하기도 했습니다. 문득 로봇 러닝은 어떤식으로 이루어지고 있는지, 문제점은 무엇인지 잘 살펴보지 못하고 미니챌린지때부터 이어진 논문 탐색들이 너무 근시안적으로 진행된것은 아닌지 되짚어보게 됐던 것 같습니다.

또 Real to Render to Real 저자와 포스터에서 이야기하고고 Garfield, Robot see Robot do 저자와도 명찰이 너무 익숙한 이름이라 말을 걸어서 이야기를 해봤습니다. 각각 다른 시간에 만나서 대화를 했는데, 이야기를 하다보니 셋 다 같은 연구실이라고 합니다. 이야기를 들어보니 서로 다른 분야에 집중하고 관심이 있지만, 각자의 논문을 쓸 때 작업물을 많이 공유하고 평소에 어떤 문제가 있는지, 어떻게 해결하면 좋을지 등등에 대해서도 이야기를 많이 한다고 합니다. 저희 팀에서도 각자의 연구 분야가 서로 어떻게 합쳐질 수 있을지, 타인의 시선에서 봤을땐 어떤 생각이 드는지 등등 소통을 더 해야겠다는 생각을 하게 됐습니다. 이번에 Oral이 된 논문도 혼자만의 생각이 아니라 다같이 이야기하면서 아이디어도 얻고, 실제로 Real to Sim 부분의 핵심인 부분은 해당 논문의 저자에게 정말 많이 도움을 받았다고 합니다. 그 과정에서 제가 안될것 같다고 결론내린 SuGaR를 통한 3DGS => mesh 만들기는 어떻게 했냐? 라고 물어보니 그냥 논문이랑 코드 보고 좀 수정하니까 됐다는 답변을 들어서 좀 충격이긴 했습니다..

NVIDIA나 텐센트 로보틱스에서 포스터 발표하는 분들 등등 기업에서 오신 분들과도 이야기를 해보았는데, 여기서 생각보다 어떤 한 문제에 대한 생각이나 접근방법이 아직은 많이 다르다는 것도 알게 됐습니다. 텐센트 로보틱스에 계신분께 기업들이 지금 시뮬레이터를 통한 학습 플랫폼을 많이 만들고있는데, 다들 sim to real에만 집중하고 real to sim에는 집중하지 않는 것 같은데, 그 이유가 궁금하다고 했을때 돌아오는 답변은 데이터가 다양하고 양이 많다면 일반화 능력을 갖기 때문에 특정 환경을 그대로 시뮬레이터에 올리는것 보다 그 환경에서조차 잘 작동하는 일반화된 policy를 학습하는게 더 맞는 방향인 것 같다. 그렇기 때문에 그런걸 커버할 수 있을만큼 다양한 환경을 만들 수 있는 플랫폼을 내는게 맞다.라는 답변을 들었습니다. 다만 LightWheel이라는 기업은 digital twin이 중요하고, 실제로 기업 수요도 많기 때문에 시뮬레이션 환경을 현실과 같게 구성하는것은 정말 중요하고, real to sim을 통해서 데이터를 취득하고 있다고 말했습니다. 또 이야기를 나눈 분이 시뮬레이터 담당 직원분이셔서 추가적인 이야기를 나누었는데, 시뮬레이션 환경에서의 로봇 러닝 데이터 품질을 좌우하는 것은 환경에 존재하는 mesh 자체의 퀄리티라고 하셨습니다. 따라서 고품질 asset 생성이 핵심이라는 말씀을 해주셨습니다. NVIDIA같은 경우는 isaac sim을 정말 밀면서 왜 이번에 새로 공개될 GR00T에서는 world model을 활용한 방식으로 개선했냐? 시뮬레이터 쪽에서의 추가적인 방법이나 개선은 없었냐?를 물었는데 개인적인 의견이지만 현재의 시뮬레이션 물리엔진으로는 contact rich하거나 dextrous한 task에 대한 시뮬레이션이 힘들 것 같다는 충격적인 답변을 받았습니다. 이번에 keynote에서도 world model의 지식을 implicit, explicit하게 다양하게 활용할 수 있는 방법들을 소개했었는데, 앞으로는 world model을 정말 눈여겨봐야 하는구나, 라는 생각도 하게 됐습니다. Deepmind에서 오셨던 분은 비디오 모델을 잘 활용해야 한다고 하셨는데, world model과 같은 맥락으로 physical AI라고 할 수 있는, 세계의 물리 현상이 그나마 잘 모델링된 모델들을 활용해야 하는건가? 라는 생각도 하게 됐습니다.

이 외에도 대동에서 오신 분과 UMI를 통해 얻은 시행착오나 다른 데모, 포스터에서도 많은 분들이 연구를 진행하면서 경험한 팁이나 생각들을 많이 공유해주셨는데, 학회의 진정한 장점이 평소에 접하기 힘든 사람들에게 나름 사적인 대화를 통해 궁금한 점을 물어보고 그들의 생각, 경험치를 얻어갈 수 있는 부분인 것 같습니다.

Conclusion

4일간 느낀것과 주입된 내용들이 너무 많아서 내용을 다 담지는 않았지만 그럼에도 글이 좀 두서없이 작성된 것 같은 느낌이 좀 드는데요. 느낀점을 마지막으로 정리하자면 대화를 진행하면서 연구에 대한 열정도 생기고 언젠가는 경험치를 쌓고 논문도 빨리 내서 사람들이 대화하다 어떤 주제로 연구했나? 어떤 논문을 냈나? 질문을 주었을 때 그에대한 답변도 하고 더 나아가서는 누군가에게 도움을 줄 수도 있는 사람이 되면 참 좋겠다는 생각도 많이 한 것 같습니다. 또 내용에 많이 담지는 않았지만 기업들의 데모를 보면서, 특히 양팔 로봇으로 옷을 개고 정리하는 모습과 같은 데모를 볼때도 진짜 언젠간 꼭 한 번 해보고 싶다는 생각도 많이 들었습니다. Tactile 센서와 world model 활용 연구들도 학회 전반에 걸쳐 무조건 관심가져야 하는 부분인게 느껴진 만큼 얼른 논문 쓰고나서 접해보고 싶기도 했습니다. 다만 자꾸 보고싶은 분야만 많아지고 제대로 집중한건 없는건가 싶으면서 글을 쓰는 지금도 이게 맞는건지 저게 맞는건지 왔다갔다 하는것 같아서 좀 걱정이기도 합니다.. ㅎㅎ; . 마지막쯤엔 지치기도 많이 지쳤지만 여러모로 정말 소중한 시간이었던 것 같습니다. 경험의 기회를 제공해주신 교수님께 정말 감사하다는 말씀 드리면서 마치도록 하겠습니다.

Author: 김 영규

Leave a Reply

Your email address will not be published. Required fields are marked *