안녕하세요. 9월 27일~10월 2일까지 4일간 진행된 CoRL 학회 참관기 입니다. 우선, 해당 학회는 robot learning 학회로, 최근 핫한 연구 분야인 로보틱스 학회입니다. 먼저 이런 학회에 참여해볼 수 있는 좋은 기회를 주셔서 교수님께 감사하다는 말씀 드리고 시작하겠습니다.😊
해당 학회는 첫날의 workshop 말고는 포스터와 Oral 발표 등이 병렬적으로 이루어지 않고, 정해진 스케쥴대로 진행이 되어 따라가기 좋았던 것 같습니다. 그리고 CVPR이나 KCCV 학회에 참여할 때 마다 느끼지만, 학회는 지식 교류의 장이기도 하지만, 네트워킹이 정말 활발히 이루어진다는 것을 느꼈습니다. 프로그램 중간중간 coffe break 시간이 있어서 많은 연구자들이 해당 시간을 이용하여 이야기를 나눌 수 있도록 구성되어있었습니다. 워크샵이 진행된 첫날은 정신없이 지나가서 이후 3일동안 이루어지는 포스터 세션에서는 다른 연구자들과 소통을 해야겠다고 다짐했던 기억이 있습니다.ㅎㅎ 그러나 제 언어 능력의 한계로 인해, 포스터 발표 내용에 대한 간단한 설명과 질의응답 중심으로만 대화가 이루어져, 깊이 있는 논의로 이어지지 못한 점은 많이 아쉬움이 남습니다.
Workshop
첫날은 여러 주제로 구성된 워크샵들이 병렬적으로 이루어졌습니다. 워크샵은 어떤 주제에 대해 비슷한 연구를 하는 사람들을 모아 이런 분야를 잘 발전시켜나가보려는 목적으로 진행이 되는데요, 저는 오전에 Robotics World Modeling워크샵에 참여하였습니다. 해당 워크샵은 시각적/물리적 이해를 포함하는 world model을 어떻게 구축할 수 있을지, 로봇 분야에 대규모 사전학습된 모델을 어떻게 적용할 수 있을지, 학습 기반 방식과 물리학적 사전 지식은 어떻게 결합할 수 있는지, 로봇 작업에 대한 world model에 대한 평가는 어떻게 하고, 벤치마킹을 어떻게 할 수 있는지에 대하여 다루었습니다. 그 중 기억에 남는 것은 정리해보겠습니다. 우선 해당 워크샵의 핵심 키워드는 WFM(World Foundation Model)으로, WFM은 단순히 언어나 이미지 뿐만 아니라 물리 세계의 동적 변화와 상호작용을 시뮬레이션하고 예측할 수 있는 모델을 의미합니다.
미시간대 Bernadette Bucher 교수님은 World Models의 조건에 대해 논의를 하였습니다. 먼저, World model은 세상에 대한 이해(abstrction)와 미래에 대한 예측(causality)이 필수이며, world에 대한 인식을 위해 물리적 센싱이 필요함을 어필하였습니다. 그리고 사람의 언어적 추론(추상화)와 물리적 상태를 computer vision 모델로 연결할 수 있다고 보았습니다. 더 나아가 로보틱스 관점에서 좋은 world model이 갖춰야 할 조건으로 actionable을 정의하였습니다. actionable은 inference speed와 컴퓨팅 자원, task에 대한 성공으로 구성되며 학습과는 별개입니다. 이처럼 저자들은 World Model의 핵심 조건을 causal, abstract, actionable 3가지로 정리하였습니다. 이를 기반으로 기존의 LLM은 물리적 이해를 바탕으로 한 미래 예측이 어렵기 때문에, 이 중 causality 조건을 충분히 만족하지 못한다고 보았습니다. 마지막으로, 센싱한 물리적 정보와 언어로된 사람의 추상화된 추론 사이를 연결하기 위해 visual representation의 활용 가능성을 어필하였습니다.


<Panel Talk>
오후에 참여한 워크샵 중, Generalizable Priors for Robot Manipulation의 페널톡의 논의가 기억에 남습니다. 데이터와 관련된 이야기를 주로 하였는데, 기억에 남는 대로 정리해보겠습니다.
- 주제1: 로보틱스에서의 일반화의 정의와 방향성
- 로봇이 효율적으로 학습하기 위해서는 사전 지식과 다양한 데이터 출처의 활용이 중요하며, 단순한 데이터 축적이 아닌 추론(reasoning) 능력이 필요함.
- 로봇 인식의 핵심 센서인 깊이 카메라의 품질과 비용 문제를 지적하며, 기술 발전이 일반화 성능 향상에 기여할 것이라고 보았음. 또한, 데이터의 부족으로 인해 일반화 문제가 발생하는 것이라 함.
- 로봇에서 ‘일반화’가 무엇을 의미하는지 명확히 정의되지 않았다고 지적하며, 객체, 언어, 환경, 신체(embodiment) 등 다양한 즉면에서 정의될 수 있으며, 이 모든것을 의미할 수 있지만 그렇다면 너무 복잡하기 때문에 로봇 관점의 일반화를 명확히 정의해야할 필요성이 있다고 주장함.
- 단순히 데이터를 모으는 것보다, 데이터를 어떻게 수집하고 활용할지를 설계하는 ‘데이터 알고리즘’ 의 필요성을 이야기함. 모든 데이터를 모으는 것 보다는, 로봇이 스스로 ‘어떻게 배워야 하는 지’ 추론할 수 있어야 하며, 필요한 정보는 검색을 한다던가 하는 추론 능력이 필요하다고 함.
- 주제2: 로보틱스에서 데이터 기반의 접근 방식이면 충분할지, 아니면 사전지식이 반드시 필요할지?
- 데이터가 적을 때는 사전지식으로, 시스템을 운영하며 데이터가 증가하면 데이터 기반으로 진화함. 이러한 방식은 인간의 학습 방식과 비슷한, adaptive architecture.
- 데이터와 사전지식 모두 필요하며 각각 필요한 영역 커버. 이 둘 사이의 균형을 찾는 게 연구의 핵심.
- 주제3: 커뮤니티 차원에서 데이터를 위에 어떤 것을 해야할지? (청중질문)
- 데이터의 ‘양’과 ‘질’ 사이의 균형이 필요하며, 데이터 수집과 평가의 기준이 필요함.
- 최근 연구들이 논문 경쟁이 치열하다보니, 속도와 홍보에만 집중하고있음. 질적 저하가 발생하고 있음.
- 따라서, 재현 가능한 결과를 만들고, 벤치마킹을 통해 결과의 신뢰성을 검증하는 분위기로 돌아가야 함. (이에 대해서는 저도 동의합니다. 로보틱스분야에서 환경과 로봇 등을 동일하게 설정하기 어렵다는 점에서 많은 연구들이 자신의 환경에서 방법론들을 평가하고 보여주는 방식으로 이루어집니다. 물론 데모 영상을 통해서 실제로 자신들의 방법론을 보여주는 흐름이지만, 벤치마크가 정립되지 않다보니 신뢰성에 의문에 생기는 것 같습니다. 그래서 그런지 이번에 학회 발표 중에 벤치마크를 제안하는 연구들도 꽤 많이 보였던 것 같습니다. 아무튼 이러한 논의들이 이루어지고 있다는 것이 기억에 남습니다. 구체적인 벤치마크에 대한 논의는 다음 주제입니다.)
- 주제4: 일반화와 재현성을 고려하여 벤치마크를 어떻게 설계해야할지?
- 시뮬레이션 벤치마크가 유효할 것. 그러나, 시뮬레이션과 실제 환경 사이의 정합을 강화해야하고, 너 다양한 시나리오를 포함하도록 확장되어야 함.
- 시뮬레이터 마다 기능이 달라 통합된 기준이 없음. 학계와 산업계가 협력하여 여러 플랫폼에서 동일 테스크를 병렬적으로 수행한 뒤, 공통된 평가 기준을 정립해야 함.
- ‘산업계의 시뮬레이터 개발 → 학계의 피드백 → 산업계의 피드백 반영을 통한 개선’과 같은 순환을 통해 시뮬레이션 기반 연구의 신뢰도와 생산성 고도화 필요.
Day1 ~ Day3
3일동안은 본격적으로 학회가 진행되었습니다. 오전에 oral 세션 및 spotlight 세션(1분씩 논문에 대하여 간략하게 소개함), 페널 톡, keynote 세션들이 순차적으로 이루어졌으며, 이에 대한 내용은 유튜브(CORL 2025)에 공개가 되어있으니, 궁금하신 분들은 들어보시면 좋을 것 같습니다. 다른 분들이 잘 정리해주셔서, 저는 학회에서 많이 보인 키워드들을 한번 간단하게 정리해보았습니다.
# VLA
아무래도 가장 핫한 키워드인 것 같습니다. vision-language-action을 통합하여 처리하는 모델로, 언어로 작업에 대한 지시를 입력받은 뒤, 시각 정보를 기반으로 인지를 수행한 뒤, 이를 action으로 반환하는 구조이며, 이러한 멀티모달 정보를 정합하기 위한 연구들이 활발히 이루어지고 있었습니다.
# Task-planning
결국 로봇을 개발하여 사람의 복잡한 작업을 대체할 수 있도록 하는 것이 목표이다 보니 작업을 수행하기 위한 planing 연구가 활발히 이루어지고 있었습니다. (재찬님이 연구하고있는 분야..) 그리고 planning과 control을 통합하려는 시도들이 확장이 되고 있었습니다. 그 중, 언어 명령이나 시각 인식 결과를 기반으로 중간 목표(sub-goal)나 affordance를 생성하고, 이를 action policy로 연결하는 계층적(hierarchical) 구조도 존재하였습니다.
# Five-finger # Tactile
최근 vision-tactile을 결합한 연구들이 상당히 많이 보였습니다. 다지 손가락은 자유도가 높고 물리적 상호작용이 복잡하여, 접촉 불연속성과 마찰 변화로 인한 보상 설계의 난이도와 정책 학습의 불안정성이 주요 문제로 다루어졌습니다. 이를 해결하기 위해 비전 및 촉각(tactile) 정보를 결합한 sensor fusion 기반 제어 정책이나, soft hand를 이용해 접촉의 불연속성을 완화하는 방식이 연구되고 있습니다. 또한, 데이터 기반의 dynamic modeling과 representation learning을 통해 실세계 접촉 역학을 보정하거나, 시뮬레이션과 실세계 사이의 오차를 줄이려는 연구도 많이 보였습니다.
# Affordance
제가 관심있는 분야이다보니, affordance 키워드가 있으면 최대한 설명을 듣거나 이야기를 해보려 했었습니다. 제가 리뷰했었던 O3Afford포스터도 있어서 가서 설명을 듣고 궁금한걸 좀 물어보긴 했습니다. 그러나.. 아쉽게도.. 다시한번 영어 speaking의 문제로… 발표한 포스터에 대한 질문만 하고 마무리하게 되었습니다… 그리고 affordance 예측 결과를 visual representation을 활용하여 이후의 action을 예측하도록 하는 연구들도 점차 증가하고 있습니다. 아래의 첨부한 포스터는 그 중 하나로, 오른쪽 그림처럼 affordance 영역을 이미지 위에 표시한 뒤 imitation learning을 수행했을 때, 잘 작동하더라 하는 연구였습니다.

# Robot Data
# Sim2Real # UMI # Human Video
이번 CoRL에서 데이터에 대한 내용이 정말 많았습니다. 물론, 비전 학회에서도 항상 데이터 이야기가 중요하게 다루어지만, VLM 분야에서 인터넷 규모의 데이터를 활용하여 일반화와 추론 능력이 크게 개선되었으나, 로보틱스 분야에서는 로봇 데이터 취득을 위해서는 실제 로봇과 환경 등의 제약으로 인해 고품질의 로봇 데이터를 수집하는 데 어려움이 있습니다. 이에 따라 유튜브 등에서 얻은 human video를 활용하려는 시도가 활발히 이루어졌으며, 로봇이 직접 수집한 데이터가 없어도 인간의 조작 영상을 학습 자원으로 사용할 수 있다는 점이 다양한 연구를 통해 입증되었습니다. 이러한 human video 데이터는 직접적인 로봇의 joint 값이나 토크 신호를 제공하지는 않지만, 이를 cross-embodiment learning을 통해 인간의 움직임을 로봇 조작 공간으로 매핑하거나, 행동의 의미적 패턴을 학습하여 정책 초기화나 일반화에 활용하는 연구들이 이루어지고 있었습니다. 실제로 human video가 효과가 있다는 점이 신기했습니다.


소감
우선 4일동안 진행된 학회를 통해, 로보틱스 분야의 연구가 정말 활발히 이루어지고 있음을 느꼈습니다. 그리고 작년에 다녀온 CVPR 학회와는 분위기가 또 다르다는 걸 느꼈습니다.
가장 먼저 눈에 띈 것은 ‘보여주기’의 방식이었습니다. 비전 학회에서는 새로운 알고리즘의 novelty나 컨트리뷰션을 입증하는 데 집중하였다면, 로봇학회는 거의 모든 발표에 ‘데모 영상’이 포함되어 있었습니다. 포스터 또한 복잡한 수식이나 구체적인 방법론보다는 문제 정의나 실험 결과에 집중하고 있습니다. 이에 대해 생각해보았는데, 로보틱스는 여러 기술이 집약되기 때문인 것 같습니다. 인식부터 planning, 제어까지 전체 파이프라인을 구축해야하다보니, 모든 내용을 담기는 어려운 것 같습니다. 이러한 점이 기존의 비전 학회와의 큰 차이점이라 생각합니다. 어찌보면 컴퓨터비전에서 optimizer 등을 설명하기보다 가져다 쓰는 느낌인 것 같습니다. 툴로써 사용하고, 실제로 로봇이 이러한 조작을 할 수 있다는 것에 집중합니다.
그러다보니, 디테일한 내용이 많이 숨겨져 기술적 노하후가 잘 드러나지 않는 것 같아서 아쉬웠습니다. 그리고, 일반화라는 키워드를 많은 연구들이 이야기하고있으나, 통일된 관점의 일반화가 아니다 보니, 이를 파악하는 데 조금 어려움이 있었습니다. 통일된 벤치마크가 필요하다는 점이 이런 점인 것 같습니다.
그리고, 늘 학회를 갔다오면, 다른 사람들이 참 빠르게 연구를 하고있고, 행동력이 좋다는 것을 느끼는 것 같습니다. 저도 꼭 좋은 학회에 논문을 제출하고, 단순 참관이 아니라, 발표자로서 참여할 수 있도록 열심히 연구해보도록 하겠습니다.