2025 상반기 회고

안녕하세요. 작년 10월 중순에 연구실에 처음 들어와서 멀뚱 멀뚱 앉아있던 것이 엊그제 같은데 벌써 올해의 반절을 넘어 7월이 지나고 8월을 향해 달려가고 있는 것을 보니 시간이 정말 빠르게 흘러간다고 느껴집니다.
시간의 흐름이 유난히 빠르게 느껴졌던 이유는 아마도 URP를 시작으로 올해 그 어느때 보다 정말 머릿속에 많은 지식을 채워 넣고, 분석하고, 적용해보고 또 그것을 정리하여 누군가에게 발표를 하고 이런 순환 속에서 매일 매일이 정신없이 바쁘게 흘러갔기 때문이 아닐까 싶습니다. 덕분에 바쁘지만 밀도 있는 시간을 보낼 수 있었던 것 같습니다.

올해 3월부터는 본격적으로 연구실 내 기초 교육을 받기 시작하면서 컴퓨터 비전에 대한 이해를 기반으로 더욱 단단한 기본기를 다질 수 있었던 것 같습니다. 2개월간의 URP과정과 아후의 기초교육이 있었기에 지금 단계에서 논문을 읽어보고 코드를 분석하고 직접 실험을 구성해보는 과정이 이전보다는 조금이나마 수월할 수 있지 않았나 싶습니다. 물론 여전히 어렵고 이해가 잘 되지 않는 부분도 많지만 그전의 저와 비교했을 때에는 분명히 조금은 성장하기 않았나 싶습니다.
아직은 깊이있는 생각, 발표(내용 전달 능력), 그리고 비판적인 시각을 갖추지 못한 점에 대해서는 한참 멀었다 라는 생각을 하고는 합니다.

곧 석사과정으로 입학하여 대학원 생활을 하게 될텐데 걱정이 많아집니다. 올해 방학만큼은 그 어느때보다 더 열심히 달려야겠습니다.

상반기에 제가 모빌리티 팀에서 어떤 것을 중점으로 연구를 하고 공부를 했는지를 돌아보면.

OVOD: Open Vocabulary Object Detection

기초교육이 어느 정도 마무리된 이후에는, 모빌리티 팀에서 맡고 있는 센서 과제와 연관된 OVOD(Open-Vocabulary Object Detection) 분야에 대해 본격적으로 공부를 시작했습니다. Open Vocabulary라는 이름에서 알 수 있듯이, 이 태스크는 미리 정해진 클래스(label) 집합에 한정되지 않고, 텍스트로 주어진 임의의 단어나 문장을 기반으로 객체를 탐지할 수 있도록 훈련된 모델을 활용함으로써 새로운 라벨에 대해서도 예측이 가능합니다. 보통 일반적으로는 CLIP과 같은 사전학습된 비전-언어 모델을 활용해, 고정된 라벨 없이도 텍스트 기반으로 새로운 객체를 잘 탐지할 수 있도록 설계되는 것 같습니다.

처음에는 CLIP 논문과 RegionCLIP 논문을 중심으로 OVOD 구조에 대한 개념을 쌓기 시작했고, 이후에는 작년 캡스톤 프로젝트에서 모델의 크기나 실시간 성능 때문에 활용했던 YOLO-World라는 모델도 다시 들여다보게 되었습니다. 작년에는 YOLO-World의 구조나 논문을 이해하지 못한 채 단순히 “가볍고 빠르다”는 이유로 적용만 했었는데, 이번에는 논문을 직접 읽고, 코드도 분석하면서 모델 내부 구조와 주요 설계 철학을 조금 더 깊이 이해할 수 있었습니다.

MDE: Monocular Depth Estimation

OVOD를 어느 정도 공부한 이후에는, 모빌리티 관점에서 “탐지”뿐만 아니라 “거리 추정” 또한 중요하다라는 사실은 모두가 아실 것이라 생각합니다. 특히 자율주행 상황에서는 보행자를 인식하는 것도 중요하지만, 그 보행자가 얼마나 떨어져 있는지를 정확하게 아는 것이 더욱 중요합니다.
따라서 기존에 depth를 추정하는 다양한 센서들이 있겠지만, 저는 단안 카메라 기반 즉, 이미지 한장으로 depth를 추정하는 Monocular Depth Estimation(MDE) 분야를 처음 접하면서 depth estimation이라는 태스크를 공부했습니다. detection 분야는 학부생 수업이나, URP 당시 SSD 논문을 통해 어느 정도 배경 지식이 있었기 때문에 이해하는데 조금이나마 수월했지만, depth estimation은 정말 처음 접하는 영역이라 개념부터 논문, 코드 분석까지 처음에는 너무 어려워서 시간을 많이 써서 이해하고자 노력했던 것 같습니다. 하지만 공부하면 공부할수록 더 어려운 것 같습니다.

OVOD + MDE: Multi-task로의 확장

기초적인 이해가 부족하지만 어느 정도 쌓인 후에는, OVOD와 MDE를 하나의 모델로 통합하는 방향으로 연구를 확장해 나갔습니다. 기존에는 한 장의 이미지를 OVOD 모델과 MDE 모델에 각각 따로 입력해서 보행자 탐지와 거리 예측을 수행했지만, 지금은 하나의 이미지, 하나의 모델을 입력으로 받아 두 가지 태스크를 동시에 수행하는 구조를 설계하고 실험하고 있습니다.
먼저 배경 부터 말씀드리면 위와 같은 방식은 모델을 두 개 운영하던 방식(이미지를 각각 OVOD, MDE의 입력으로 넣음)에 비해 필요한 리소스를 줄일 수 있고, 실시간성과 효율성 측면에서도 이점을 가질 수 있지 않을까 하는 생각으로 시도하게 되었습니다. 이를 위해 기존 ScaleDepth 구조를 기반으로 OVOD와 MDE를 동시에 처리할 수 있는 multi-task 구조를 새롭게 설계하고 구현 중에 있습니다. 기본적으로는 DETR-style 구조에서 사용하는 Hungarian matching과 Detr의 loss 설계 방식을 활용해, OVOD의 detection task와 MDE의 depth estimation task 각각에 대한 loss를 통합하는 방식으로 진행하고 있습니다.

정리하면 지금 단계에서는 앞서 배운 개념들을 가지고 한 장의 이미지를 입력으로 받아, CLIP 텍스트 표현을 활용한 object-level detection과 동시에 해당 객체의 depth estimation까지 하나의 forward pass 안에서 수행할 수 있도록 구현하고 실험 중에 있다고 보시면 될 것 같습니다.

센서과제와 관련해서 상인님께서 추천해주신 아이디어를 바탕으로 살을 하나하나 덧붙혀 나아가고 있는 것 같습니다.

어느정도 마무리가 되면, 이번에 교수님께서 대여해주신 위고로보틱스 스카우트라는 모바일 플랫폼에 지금까지 배운 내용들을 적용시킬 수 있도록 더 나아가 이동체가 움직이는 부분까지도 확장해서 연구할 예정입니다.

산업동향과는 거리가 조금 먼 얘기지만 얼마 전, 스마트선박 공용 플랫폼 데이터를 활용한 인공지능 모델 개발 교육에 참여한 적이 있었는데, 이때 한국의 조선·선박 분야의 AI 인프라 현황에 대해 간략하게 들을 수 있었습니다. 이야기 중 좀 놀랐던 부분은 아직도 조선/해운 분야에서는 많은 데이터가 수기로 취합되는 경우가 있고, 분석 역시 사람이 일일이 직접 수행하는 경우가 많다는 것에 대한 내용을 듣고 조금 놀랐습니다. 그리고 전반적으로 AI나 자동화 기술을 도입할 수 있는 기반 인프라가 충분히 구축되지 않았다는 느낌을 받았습니다.

자동차, 항공기, 기차, 선박 등은 모두 결국 주어진 목적지를 향해 안전하고 효율적으로 이동한다는 점에서 근본적인 목적이나 요구 조건은 비슷하다고 생각하는데, 왜 선박 분야에서는 여전히 디지털 전환 속도가 느릴까? 라는 의문이 들었던 것 같습니다.

실제로 조금 찾아보니깐, 글로벌 대형 선사나 항만에서는 이미 AI 기반 운항 최적화, 설비 예지보수, 경로 최적화 등을 위한 데이터 분석 인프라를 적극 도입하고는 있는데, 산업 전반으로 보면 자동차랑 비교했을 때에는 여전히 격차가 존재하는 상황인 것 같습니다. 특히 중소 선사나 개발도상국에서나 레거시 시스템을 운영 중인 환경에서는 균일하지 않은 데이터 품질이나, 표준화 되지 않은 데이터나, 실시간 통신 인프라의 한계 등이 여전히 발목을 잡고 있다고 합니다.

결국엔 선박 분야도 AI 기반 운항, 경로 설계, 위험 예측과 같은 태스크가 필수가 될 것이고 이런 흐름 속에서 현재 내가 모빌리티팀에서 연구하는 분야가 단순히 자동차가 아니라 여러 산업에 대해서 범용적으로 쓰일 수 있고, 자동차 관점이 아니라 여러 산업 관점에서 연구를 해 나아가는 것도 앞으로 나아가는 방향에 있어서 중요한 부분이 되지 않을까 싶습니다. 마찬가지로 위와 같은 관점에서 자율주행을 실외가 아니라 실내의 관점에서 바라본다면 예를 들어 작년에 네이버 랩스세미나에서 알게 되었던 배달로봇 루키처럼 실외보다는 실내에 적합한 자율주행도 생각해 볼 수 있을 것 같습니다.

마무리하며

상반기를 돌아보면, 정말 정신없이 지나갔지만 그만큼 많은 경험과 배움을 쌓을 수 있었던 시기였던 것 같습니다. 특히, 단순한 지식 습득을 넘어서 어떤 구조를 깊게 이해하고, 직접 실험을 설계해보고 이를 바탕으로 다음 방향성을 정하는 과정에서 끊임 없이 질문하고 고민하면서 연구자로서의 사고방식을 조금이나마 갖추게 된 것 같습니다.

여전히 부족한 점도 많고, 앞으로 더 많이 보완해 나가야겠지만, 적어도 지금은 어떤 논문을 읽든, 코드를 보든 겁내지 않고 느리지만 차근차근 접근할 수 있는 자신감이 생긴 것이 상반기에 얻은 가장 큰 수확이지 않을까 싶습니다.

감사합니다.

Author: 안 우현

2 thoughts on “2025 상반기 회고

  1. 안녕하세요 우현님 회고록 재밌게 봤습니다

    같이 캡스톤 하다가 우연한 계기(?)로 같이 연구실 생활을 하게 된 것 같은데 다른 층에 있어서 항상 어떤 연구를 하시는지 궁금했었는데 이번 기회에 조금 알 수 있게 된 것 같습니다. 우현님 보면서 항상 처음보는 내용에 대한 지식 습득이 빨라서 놀라웠던것 같은데 비결이 궁금합니다 앞으로 더 많이 소통하고 즐겁게 연구했으면 좋겠습니다

  2. 우현님은 예전의 저의 모습을 보는 것 같지가 않습니다.
    그만큼 성장속도가 빠르고 흔히 말해 가르칠 맛이 난다는 사람이기도 하죠.
    그럼에도 계속 고민하고 열심히 하는 모습을 보면 제 멘티임에 다행입니다.
    물론 지금 단계에서는 스스로의 생각의 풀을 넓혀감이 어려운 것을 잘 알고 있습니다. 그것 또한 성장의 일종이니 말이죠.
    분명 짧으면 6개월, 길면 1년 그 이후에는 스스로가 스스로의 길을 잘 찾아나설 연구자가 되어 있으리라 생각합니다.
    하지만 분명 2년이라는 시간은 또 그다지 길지는 않습니다. 항상 스스로를 경계해나가야겠죠.
    그런 점에서 우현님은 지금처럼 쭉 달려가셨으면 합니다. 화이팅하십쇼!

Leave a Reply

Your email address will not be published. Required fields are marked *