안녕하세요. 이번 X-Diary에서는 2월 4일부터 6일까지 다녀온 KRoC 참관 후기 글을 작성하고자 합니다. 작년 CoRL을 몇 시간 정도 참관해본 것을 제외하고는 제대로 학회를 경험해본 건 처음이었는데요, 한국 교수님들의 강연과 연구자분들의 다양한 연구들을 구경하고 소통할 수 있어서 꽤나 의미가 있는 경험이었습니다. 여러 강연과 포스터, 튜토리얼 등이 병렬적으로 진행되어 정신이 없었지만 작은 인사이트라도 챙겨가기 위해 여기저기 부지런히 돌아다닌 것 같습니다. 놓친 세션도 많아 아쉬운 점이 남지만, 제가 보았던 강연이나 포스터 중 인상깊었던 내용을 중심으로 참관기를 써보고자 합니다.
Robot Foundation Model?
Robot foundation model에 대한 관심이나 기대감이 커지고 있다보니 본 학회에서도 해당 언급이 종종 등장했는데요, 그 중에서도 박종우 교수님의 기조연설이 가장 기억에 남는 것 같습니다. 결론부터 말하자면 현재 거대한 VLM 위에 action head를 얹은 VLA 기반의 foundation model은 한계가 있으니 새로운 아키텍쳐가 필요하다는 주장이었습니다. 즉 로보틱스에서 필요로 하는 inductive bias를 내장한 구조가 필요하다는 것입니다.
CNN은 이미지의 2차원 구조를 이해하기 위해 convolution을, Transformer에서는 텍스트의 단어 순서보다도 각 단어들의 관계가 중요하다는 아이디어에서 self-attention을 도입했습니다. 이러한 inductive bias를 설계함으로써 두 방식은 vision과 language라는 각 영역에서 뛰어난 발전을 보여주었죠. 이와 마찬가지로 로봇 분야에서도 그에 맞는 편향을 고려해야 한다고 주장합니다.
특히 manipulation 작업은 로봇과 물체의 위치뿐 아니라 힘, 토크, compliance까지 모두 고려해야 합니다. 또한 기하학적 관점도 핵심인데, 로봇의 joint space와 task space는 manifold 구조를 가지기 때문에, 좌표계가 회전하거나 이동했을 때 출력도 같은 방식으로 변하는 equivariance 성질을 모델 구조에 내재화하면 훨씬 적은 데이터로도 안정적인 학습을 기대할 수 있습니다. 결론적으로 교수님은 data-driven한 방식보다는, 고전 로봇공학의 개념이 스며든 계층적이고 모듈화된 구조가 필요하다고 주장하였습니다.
추가적으로 특별강연을 하신 최혁렬 교수님 또한 force-aware robotics를 강조하면서 앞으로는 VLA가 아닌 VLFA가 필요하다고 주장하기도 하였습니다.
Poster
생각보다도 훨씬 기계공학스러운 포스터들이 많았던 것 같고, HRI나 교육 관점의 포스터들도 꽤 있어서 생각해보지 못한 주제들을 다양하게 본 것 같습니다. 그렇지만 아무래도 제가 관심있는 VLA나 LLM/VLM을 활용한 연구들을 위주로 둘러보았는데, 기억에 남는 몇 가지를 적어보도록 하겠습니다.
첫 번째로는 부산대학교의 RoboCup 대회 출전 사례와 무인로봇 약국 시스템에 관한 포스터입니다. 두 포스터는 각각 다른 세션에 진행되었지만, 같은 연구실의 포스터였고 무엇보다도 둘 다 연구실에서 자체 제작한 RDMM이라는 on-device LLM을 사용하였다고 해서 기억에 남았습니다. 오픈소스 LLM을 task planning에 맞게 fine-tuning 한 것 같은데, on-device에서 사용 가능하도록 quantization 등을 적용해 실제로 여러 프로젝트에 활용하고 계신 것 같아 인상 깊었습니다. RoboCup이라는 대회는 45개 국, 수백 개의 팀이 참여하는 세계에서 가장 큰 로봇 대회 중 하나라고 합니다. 그 중 Home 리그에 참여했다고 하는데, 아침식사 준비(시리얼과 우유 그릇에 담기), 테이블 청소(식기 정리) 등의 태스크가 있었습니다. 음성으로 자연어 명령을 듣고 각 태스크를 수행하였는데요, RDMM을 사용하여 task planning을 하고, controller 단에서 YOLO나 VLM, TTS 등을 호출하여 각 low-level의 작업을 수행하는 식으로 진행되었습니다. 또한 물체를 파지할 때에는 YOLO를 fine-tuning하여 detection한 뒤 depth를 파악하고 물체의 중심점을 grasp하는 방식으로 진행되었는데요, 단순히 중심점을 잡는데도 성공률이 매우 높았다고 해서 신기했던 기억이 납니다. 무인로봇 약국 시스템도 동일한 파이프라인을 사용했고, 환자가 자연어로 증상을 말하면 로봇이 약을 가져다주는 시스템입니다. 두 프로젝트 모두 개발적인 성향이 강했는데, 그래서 방법론 자체에 대한 감상보다도 on-device LLM을 연구실 내에서 직접 구축했다는 점, 그것을 다양한 프로젝트에 적용해보고 대회에 출전하거나 데모까지 완성시켰다는 점 등에서 배울 점이 있었던 것 같습니다.
두 번째는 CJ대한통운의 Simulation-Based Online One-Shot Learning for Robotic Automation in Dynamic 3PL Environments입니다. 해당 발표자 분이 기업에 다니시는 분이라 그런지 말씀을 굉장히 잘하셨고 질의응답을 오래 했었어서 기억에 남았습니다. 3PL 물류 자동화를 위한 로봇은 top-view 카메라에 박스 더미가 detection되면 이를 사전 정의된 클래스로 분류해야 합니다. (분류만 잘되면 그 이후에 로봇이 박스를 파지해서 옮기는 시스템은 이미 잘 구축되었기 때문에 해당 연구에서는 고려하지 않는다고 합니다.) 이때 학습 과정에서 보지 않은 unknown product가 들어오면 그때마다 해당 product에 대해 학습을 시켜야 하는 문제가 발생합니다. 이를 offline으로 학습하게 되면 해당 product에 대한 데이터를 수집하고 모델을 업데이트하는 시간과 비용이 막대하게 들고, 이러한 방식은 실제 산업 현장에서 사용할 수 없습니다. 이를 해결하기 위해, Issac Sim을 통해 misclassified box에 대해 합성 데이터를 생성하고, 이를 실제 데이터와 혼합하여 모델을 학습합니다. 박스의 사이즈와 밝기를 변화시켜가며 400개의 stacking 패턴 방식으로 합성 데이터를 생성하였다고 합니다. 학습 결과, 기존 real data만 사용한 경우에는 97%의 detection 정확도를 보였으나 sim data를 20%, 50%로 혼합한 결과 100%의 정확도를 달성하였다고 합니다.
세 번째는 KIST의 비평/정제/검증 기반 맥락 인식형 작물 탐지를 위한 에이전틱 비전 모델이라는 제목의 포스터입니다. 제가 요즘 관심 있는 fine-grained OVOD를 agentic하게 풀고자 한 연구였습니다. 농업 환경에서 “잎에 가려진 초록색 토마토”와 같은 복잡한 맥락에 대해 여러 번의 LLM을 호출해 검출 성능을 높인 단순한 방법론이었습니다.
느낀 점
저는 로보틱스 쪽으로 진로를 정한 이후로 지금까지도 종종 하게 되는 고민이 있는데요, 바로 동역학이나 제어에 대한 지식을 전혀 모르고 이 분야에 접근하는 것이 맞나? 하는 고민이었습니다. 물론 저의 연구는 인지나 추론 쪽에 치우쳐 있지만 그럼에도 이 분야에서 전통적인 물리 지식은 알면 좋은, 알수록 좋은 것이라는 생각이 듭니다. 앞으로 이쪽 진영에서의 VLA가 어떤 식으로 발전할지 궁금하고 기대가 되네요. 저는 막연히 data-driven한 접근법들이 과연 실현 가능할까, 라는 의문이 늘 있었는데, 모델 구조 자체를 개선하는 방식을 통해 막대한 데이터 없이도 일반화 성능을 가질 수 있다면 정말 재미있을 것 같습니다!
추가로 느낀 점은, KRoC의 포스터들은 어떤 세부적인 방법론을 개선하고 성능을 향상하기보다도, 센서 데이터를 얻어서 추론하고 직접 로봇을 이용해 태스크를 수행하는 전체 파이프라인을 제시하는 연구들이 많아보였습니다.(물론 과제 관련 연구가 많았습니다.) 아무래도 로보틱스라는 분야의 특성 상, 실제 로봇에 적용 가능한지, 진짜 태스크를 수행할 수 있는지를 보여주는 데모가 중요하다는 것을 다시 한 번 느꼈습니다.
읽어주셔서 감사합니다.