안녕하세요, 오늘은 2월 11일부터 2월 13일까지 다녀온 Kros에서 주관하는 KRoC에 다녀온 후기를 설명해드리고자 합니다. 이번에 방문해서는 주로 포스터 섹션을 위주로 보았고, 중간중간에 끼어 있는 발표 등을 함께 참고해서 보는 방식으로 둘러보았습니다. 사람이 작년에 비해서 훨씬 많아진만큼 다양한 시선에서 보는 로봇에 대한 의견들을 들어볼 수 있어서 좋은 기회였습니다.

제가 방문했던 포스터 섹션과 특별 세션, 기조 강연, 특별 강연을 중심으로 설명드리겠습니다.

포스터 섹션

이번 포스터 섹션을 돌아보면서 매핑, 제어에 대해서 상당히 많은 포스터가 있다는 것을 알 수 있었습니다. 그렇다 보니 아무래도 여러 포스터를 보더라도 어떻게 이해해야 되는지 어떤 부분을 질문해야 되는지 물어보기가 막막했습니다. 그래서 전반적으로 둘러보다가 그나마 제가 알 수 있을 법한 내용, 혹은 제가 지금 진행하고 있는 xlerobot 프로젝트와 연관해서 활용할 수 있는 내용에 대해서 집중해서 보거나 질문하였습니다.

책 정리 및 정돈을 위한 도서관 사서 로봇: 그리퍼 설계 및 영상 기반 그리핑 제어

해당 포스터에서는 UR3를 활용한 도서관 사서 로봇을 제시하였습니다. 책을 잡는 부분에 대해서는 별도의 그리퍼를 제시한 점이 인상적이었으며, 객체 탐지를 위해서는 yolo를 사용하여 책의 상단 좌표를 취득하고 로봇 좌표계로 옮겨 경로를 계획하는 방식으로 진행된다고 합니다. 여기서 책을 안정적으로 변수 없이 꺼낼 수 있도록 하는 그리퍼를 제시한 점이 인상적이었고, yolo와 depth 카메라로 좌표를 취득하여 이를 활용해 동작하는 방식이 상당히 안정적이라는 것을 느꼈습니다.

안전한 인간-로봇 상호작용(HRI)을 위한 정전용량 기반의 비접촉식 근접센서 플랫폼 개발

로봇 팔에 센서를 붙여서 협업 시에 안정적으로 동작할 수 있도록 하는 것을 해당 포스터에서는 목표로 하였습니다. 정전 용량을 기반으로 하여 근처에 접근 하는 정도도 인지가 되는 것을 확인할 수 있었고, 다양한 온도의 환경에서 안정적이고 반복된 작업을 정확히 측정해내는 것을 보였습니다. 아무래도 공장과 같은 환경에서는 여러 로봇을 사용하는 환경이 조성되기 때문에 비싼 로봇이 파손되는 것을 고려한다면 이러한 방식이 효율적일 수 있을 것이라고 생각됩니다. 다만 걱정되는 부분은 저러한 센서로 인해 로봇의 부피가 늘어나면서 로봇이 조심스럽게 움직이기 때문에 로봇이 보수적으로 움직일 수 밖에 없을 것 같다는 우려가 들었습니다.

URDF 기반 원기둥 모선 모델을 이용한 다관절 로봇 팔의 링크 간 최소거리

해당 포스터에서는 특정 환경에서 동작되는 로봇팔이 URDF 상에서 동작이 제약되는 현상을 해결하기 위해 빠른 속도의 원기둥 기반의 계산 방식을 제시한 것으로 이해했습니다. 결과적으로 기존의 단순한 계산이지만 동작을 보수적으로 형성하던 문제를 해결하면서 빠른 속도로 연산을 처리했다고 하는 것으로 이해가 되었습니다. 이렇게 보면 위의 포스터 내용에서는 로봇을 어떻게 하면 안정적으로 움직일 수 있는지 고민했는가 하면 어떤 로봇은 제약된 동작을 풀기 위해서 극한의 동작 범위를 추구하는 느낌이 들어서 상황에 따라서 다른 접근이 필요할 것이라고 생각되었습니다.

햅틱 기반 원격 조작을 활용한 로봇 VLA 모델 학습용 데이터셋 생성

햅틱 장치를 활용해서 sim 내부의 로봇을 동작하는 방식으로 VLA 모델 학습용 데이터셋을 모으는 방법에 대해서 설명합니다. 기존에 모델링을 위해서 제작된 펜에는 햅틱 기능이 포함되어 있습니다. 3d modeling pen mouse를 찾아보시면 이해가 잘되실 수도 있을 것 같습니다. 이러한 팬을 활용해서 불가능한 동작에 대해서 햅틱 반응을 주는 방식인 것으로 이해했는데 한 가지 단점으로 고려되는 것이라면 해당 펜이 생각보다 비쌉니다. 그래서 굳이 햅틱 기능을 위해서 저 펜까지 사야 되는가에 대해서 의문이 들었고, 제가 최근에 제시한 Mobile UMI 같은 방식이라면 조금 더 수월하게 사용할 수 있지 않을까 라는 느낌이 들었습니다.

안전한 파지를 위한 링키지가 통합된 핀 레이 기반의 스쿠핑 그리퍼

소프트 그리퍼에 스쿱 형태로 가이드를 장착한 형태를 제시하였으며 소프트 그리퍼가 변하면서 스쿱이 들어올려지는 형태가 됩니다. 단순한 형태지만 안정적으로 공모양 형태의 물체를 파지할 수 있음을 보여주었고, 도서 로봇에서도 보았듯이 그리퍼의 형태가 대부분 task에 맞는 형태로 같이 제시가 되는 것을 확인할 수 있었습니다. 이런 점을 보고 xlerobot이 현재 우편물을 안정적으로 잡지 못하는 것을 볼 수 있었는데 이런 부분에 대해 보완이 필요한지, 고민을 해봐야 할 것 같다고 느꼈습니다.

다축 서보 시스템 운용을 위한 전원 설정 통합 하드웨어 모듈 개발

이 포스터는 집중적으로 본 내용은 아니지만 신기해서 질문을 하면서 본 포스터 입니다. 여러 개의 서보모터를 사용하는 로봇팔의 경우 전력 관리에 대한 배분이 안정적으로 이루어지지 않고 있다는 점을 해결하기 위해서 모터의 전원을 한번에 관리할 수 있는 인터페이스를 개발했다고 합니다. 이 덕분에 하나의 모터가 고장나거나 전기가 과부하로 흐르더라도 모터의 신호 정보는 일시적으로 유지한 상태로 다른 모터에는 안정적으로 전력을 제공해줄 수 있는 가이드를 제시했습니다. xlerobot을 동작하면서 가끔씩 과전류로 인해 모터가 뻗는 현상이 생겼는데 이런 현상을 거대한 모터를 다루다보면 더욱 안정적으로 처리할 수 있는 인터페이스가 필요하다는 것을 느낄 수 있었습니다.

엣지 디바이스 기반 제로샷 객체 내비게이션을 위한 비전-언어 모델 성능 비교

제로샷이라는 목표를 해결하기 위해서 clip 기반으로 mapping을 수치화하여 적용하는 방식으로 동작하는 방식에 대한 포스터였습니다. 지도 상에서 특정 부분에 찾고자 하는 것을 정해진 형식으로 던져주면 이를 클립이 이미지와 맞추어 처리하면서 빠른 속도로 엣지 디바이스에서 처리할 수 있도록 하는 것을 목표로 하는 점에서 신기하다고 느꼈습니다. 이를 통해서 로봇의 엣지 디바이스 상에서도 mapping 된 환경에서 객체에 대해서 집중해서 볼 수 있도록 하는 점에서 후에 활용해볼 수 있지 않을까라고 느꼈습니다.

비전 인식 기반 저손상 깻잎 자동 수확을 위한 이중 모듈 엔드이펙터 및 로봇 시스템 구현

해당 포스터에서는 깻잎 수확에 대해서 속깻잎의 손상을 막기위한 수확을 목표로 객체를 분리해서 segmentation을 하고 중심 좌표를 계산해 직접 고안한 그리퍼로 깻잎을 안정적으로 수확한다고 설명합니다. 이런 점에서 그리퍼의 중요성에 대해서 실감을 하게 되었고, 해당 포스터의 실험 과정을 보다보니 변수가 많은 환경, 즉 연구실 환경이 아니라 다양한 환경에 대해서 강건하게 동작하는 것 또한 중요할 것 같다고 느꼈습니다.

도서 정리 자동화를 위한 융합 LLM-VLM 기반 로봇 작업 계획 시스템

해당 포스터에서는 VLM의 이해력을 잘 활용해낸 도서 코드 구별 방법을 제시했다는 느낌이 들었습니다. 도서 코드에서 초성을 사용하는 경우 ocr의 인지 능력이 떨어진다는 가정 하에 vlm을 활용해서 도서 코드를 이미지에서 뽑아내는 방식으로 진행했다고 합니다. 다만 이런 방식으로 진행하다 보면 vlm은 localization기능이 떨어진다고 생각이 들어서 도서 코드를 정확하게 segmentation해서 처리를 해야 겠다는 생각이 들었고, 이로 인해서 VLM에 많이 의존해 높은 inference 시간이 사용될 우려도 느껴졌습니다.

Segmentation 및 Depth 정보 기반 파지 가능 객체 판단 알고리즘

객체가 겹쳐 있는 경우에 대한 파지 가능 여부를 판별하는 방법을 제시하였습니다. 포스터를 돌아다니면서 보니 depth를 같이 활용해서 하기 때문에 색이 같더라도 층을 잘 분리해내는 것을 확인하였다는 점에서 유용할 수 있을 것 같다는 생각이 들었고, 얇은 물체가 겹쳐있는 경우 대해서는 어떻게 파지 가능 여부를 판별할 것인가에 대해서도 우편물 배달 task를 하면서 제가 고민해봐야 될 부분이라고 느꼈습니다.

설명드리다보니 다양한 내용을 본 것 같습니다. 전체적으로 바라보면서 논문 발표에 사용되는 포스터에 대해서 어떤 형식은 보기가 힘들고, 어떤 형식은 잘보이는지 청자의 시선에서 보면서 자료 레이아웃의 구성에 대해서 중요성을 실감한 것 같습니다. 그리고 대부분의 포스터에서 객체 감지를 위해서 YOLO를 사용하는데, 왜 그런 배경이 이루어졌는지, 별도의 모델을 제작하지는 않았는지, 심지어 파인튜닝 하지 않고 실험을 진행한 것도 있었는데, 이런 점이 오히려 더 좋은 것인지 YOLO에 대해서 많은 궁금증, 혹은 최적화의 측면?에 대해 알아보면 좋을 것 같다고 느꼈습니다. 그리고 다른 분들은 depth 카메라와 객체 감지를 사용한 path planning이 더 좋다고 설명을 하시는데 포스터에 제시되어 있는 task들을 보면서 다양한 동작과 동작을 하는데 단순히 경로만을 생성하는 방식이 인간과 유사한 동작을 구현할 수 있을까? 만약에 동작하는 과정에서 변수가 생기면 어떻게 극복해낼것인가? 라는 의문이 들면서 제가 느끼기로는 action expert에 대한 중요성, 특히 기존의 action expert의 한계를 극복해내는 로봇 세계 전용 신경망 구조가 필요할 것으로 느껴졌습니다.

기조 강연

저는 LG 전자의 이홍락 부사장님의 기조 강연을 들었습니다. 그 중에서도 가장 인상깊었던 점이 한국에서도 한국만의 AI를 목표로 하고 있다는 점이 신기했습니다. 강연을 들으면서 느낀 점은 기존에 영어를 기반으로 한 AI는 방대한 데이터를 기반으로 하여 성능에 부족함을 크게 못 느꼈다고 생각하였는데, 한국형 AI는 아무래도 자료의 스케일이나 이를 다루는 방식이 영어와 일부 다르다 보니 뭔가 제약적인 측면이 있어서 이런 부분을 향상하기 위해서 다양한 노력을 하였다고 느껴졌습니다. Hybrid attention과 분야별 전문가로 나누는? 방식인 MoE, 기존 GRPO방식에 대해서 개선을 한 AGAPO와 같은 다양한 학습 방법을 사용하고, 사전 학습 시에도 3단계로 나누어서 일반적인 기본 지식, 일반적인 고등 지식, 특화 영역 전문 지식을 나누어서 좀 더 잘 수렴할 수 있도록 하는 점이 인상적이었습니다. 그리고 인공지능에 대해서 민감하게 다루어질 저작권에 대해서 License를 추적하여 직접적으로 표시하거나 하는 등의 방식으로 한국의 저작권 법에 대해서 최적화?되어 있는 인공지능을 만들고자 노력한 것으로 보였습니다. 이런 내용을 보면서 대한민국의 AI agent의 기술이 미국의 빅테크에 비해서 많이 뒤쳐져있지만 이런 부분과, 한글의 적은 데이터 양, 한글의 구조 등을 보완하기 위해서 다양한 방법을 통해서 결과적으로 한국인에게 맞춤되어 있는 LLM을 만들고, 더 나아가 Physical AI까지 접근하고자 하는 점이 인상적이었습니다.

특별 강연

성균관대학교 최혁렬 교수님, 에이딘 로보틱스의 대표님의 강연을 들었습니다. 로봇의 Force 센서에 대한 중요성을 강조하셨으며 이 부분에서 좀 인상적이었습니다. 생각해보면 기존의 로봇은 Force에 대한 이해를 하기 어렵지만 사람은 잡히는 촉각을 기반으로 생각을 하는 경향이 있습니다. 이런 점에서 Physical AI 구현에서는 이런 촉각에 대한 깊은 이해가 있어야 되지 않을까라고 고민했었는데, 이런 점에 대한 해결책을 Force 센서를 사용하는 방식으로 제시하셨습니다. 특히 산업 현장에서 안정성을 위한 로봇이 사람을 피하는 동작을 하도록 하는 접근 센서, 그라인딩, 폴리싱과 같은 환경에서 힘을 조절해야 하는 점에서 Force 센서 사용 등의 방법을 통해 로봇이 정교한 동작을 copy할 수 있도록 하였고, 추후에는 이러한 방식들을 사용해서 인공지능 학습을 진행하실 것으로 느껴졌습니다.

특별 세션

다양한 특별 세션들이 동시간에 진행되서 한번에 보기가 좀 힘들었지만 그래도 제가 예전부터 궁금해했던 부분 중 하나인 재난 안전 로봇 연구회 파트를 잠시 다녀왔습니다. 중간부터 보긴 했지만 전체적으로 4족 보행 로봇을 적극적으로 활용하는 이동에 초점을 맞추는 것으로 보였습니다.

사족 보행 매니퓰레이터를 이용해서 문 손잡이를 잡아서 여는 방식에 대한 소개, 사족 보행 로봇 통신을 위한 중계 로봇의 궤적 추적, 사족보행 소방 로봇에 탑재되는 저반동 방수총에 대한 실험 등 다양한 부분에서 사족 보행 로봇을 베이스로 활용하고 있다고 이해했습니다. 왜 사족보행로봇인지, 휴머노이드 형태가 더 사람처럼 잘 접근할 수 있는지 의문이 들었지만 방수총에 대한 영상을 보고 사족 보행이 더 안전한 이유를 알게 되었습니다. 재난 현장에서는 주로 변수가 많고, 힘이 많이 들어가는 작업이 필요합니다. 이런 부분에서 현재 휴머노이드 로봇을 도입하기에는 리스크가 크다고 판단이 되었고, 안정적인 베이스를 기반으로 파지 동작, 혹은 task를 수행해내는 것을 목표로 하고 있다고 느꼈습니다. 또한 현재 안정적인 통신을 위해서 케이블에 의존하고, 재난 현장에서도 제약이 많은 로봇 때문에 실제로는 어떻게 적용될지 궁금하게 되는 분야였습니다.

+ 부스

이번에는 부스 부분에서도 신기한 것들을 많이 볼 수 있었습니다. 특히 텍타일 센서 기반의 5손가락 손이 많이 보였고, 얇은 손가락을 가지고도 안정적으로 동작을 하는 손을 보면서 신기하다는 느낌이 들었습니다. 이런 점에서 로봇 분야에서는 아무래도 손에 대한 중요성이 강조된다고 느꼈고, 사람과 유사한 task를 수행하기 위해 다섯 손가락의 손이 필요한 것으로 보였습니다. 이 외에도 액츄에이터에 대한 부스, 양팔 로봇 기반의 부스, 산업용 3D 프린팅, 공간 스캐닝을 통한 isaac sim 적용과 같이 다양한 부스를 보면서 학술적으로 접근되고 있는 분야와 산업적으로 적용되고 있는 부분에서는 미묘한 차이점을 볼 수 있었습니다.

결론

이번 KRoC 방문을 통해서 이전에 살짝 방문해본 CoRL과는 살짝 다른 느낌을 느꼈습니다. CoRL은 좀 더 인공지능에 초점이 맞추어진 논문과 섹션들을 제공하는가하면 KRoC는 제어, 회로, 기계 설계, 즉 기계 공학과 전기전자에서 파생된 인공지능 섹션을 목표로 하고 있는 느낌이 강하다고 느꼈습니다. 특히 포스터 세션을 돌아다니면서도 인공지능에 근본적인 제어를 목표로 하는 부분과 로봇의 효율적인 설계에 대한 부분 등에서 나름 다른 성격을 띄고 있다는 생각이 들었습니다.

또한 다양한 섹션들이 동시간때에 진행되는 점에 있어서 보고 싶은게 두 개, 혹은 그 이상이 있어도 보지 못한 점이 아쉽다고 느꼈습니다.

그리고 이번 리뷰를 계기로, 제가 추구하고자 하는 연구 목표에 대해서도 보다 명확한 방향성을 가질 수 있었습니다. (개인적인 이야기일 수 있지만)현재는 일상적인 task를 안정적으로 수행하는 것이 목표지만, 오래전부터 제가 관심을 가져온 주제는 재난 환경에서 온디바이스 기반 인공지능 구조 로봇을 구현하는 것이었습니다. 이를 위해 온디바이스 AI를 위한 반도체 시장에 대해서도 지속적으로 공부해 왔고, 재난 구조 로봇 전반에 대한 조사 역시 병행해 왔습니다.
특히 재난 환경에서는 매니퓰레이터가 복잡하고 예측 불가능한 상황에서도 안정적으로 구조 작업을 수행할 수 있어야 한다고 생각하여, VLA를 포함한 다양한 로봇 학습 방식에 대해서도 관심을 가지고 살펴보고 있습니다. 다만 이번 KRoC를 통해, 현 시점에서는 재난 환경에 양팔 휴머노이드 로봇을 직접 투입하는 것 자체가 여전히 쉽지 않다는 현실적인 한계를 느끼게 되었습니다.
이에 따라 현재로서는 일상 환경에서의 다양한 태스크를 안정적으로 수행할 수 있는 로봇을 먼저 구현하고, 현실 세계를 로봇이 이해한 뒤, 이러한 능력이 점차 재난 환경과 같이 노이즈가 큰 상황에서도 일반화되어 구조 작업으로 확장될 수 있을 것이라는 기대를 가지고 공부를 해보고 싶습니다.

그리고 현재까지는 로봇이 물리 세계에 대한 명확한 이해가 부족한 만큼 제가 동역학, 물리를 잘 공부해서 로봇을 어떻게 제어할 것인가, 물리적 특성을 고려하면서 어떻게 안정적으로 노이즈 없는 동작을 구사할 것인가에 대해서 추가적으로 공부해보아야 겠다는 생각이 들었습니다. 아직까지는 제어 기반의 로봇 제어가 높은 안정성을 보여주고 있는 만큼 이런 부분을 어떻게하면 인공지능에 잘 녹여낼 수 있는가가 앞으로의 task가 될 것같습니다.

이번 학회 방문에서 많은 것들을 배울 수 있었으며 앞으로 어떤 방향으로 방향성을 잡아야 하는지 결정하는데 도움이 되었습니다. 긴 글 읽어주셔서 감사합니다.

질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…

안녕하세요 승현님 좋은 리뷰 감사합니다. HOI를 비디오를 사용하여 Affordance의 상호 작용패턴을 학습하는 것이 신기하네요. action encoder에 대한 궁금증이 생겼는데요! action…

안녕하세요 우진님 질문 감사합니다! 네 맞습니다. 물론 여전히 데이터의 양이 많을수록 이점이 많다는 것은 자명하지만, 너무 많아버리면 saturation 문제가 발생하기도…

안녕하세요 찬미님 질문 감사합니다! 저도 처음에 그 부분이 의아했었는데요, 해당 방법론이 'loss는 높지만 학습에 도움이 덜 되는 샘플'을 특별히 거르는…

안녕하세요 주영님 질문 감사합니다! 해당 논문에서 pruning에 소요되는 시간은 구체적으로 언급하지 않고 있습니다. 다만 pruning에 소요되는 시간은 모델 학습 시간에…

KRoC 2026 참관기