안녕하세요. 이번에는 2025년 상반기 회고 글을 작성해보려고 합니다. 이렇게 회고 글을 쓸 때마다 느끼는 거지만, 시간이 참 빠르게 지나가는 것 같아 괜히 울적해지고 센치해지는 것 같네요…ㅎ. 아무튼 이번 상반기를 돌아보면, 다양한 경험을 해볼 수 있는 시기였고 개인 연구의 방향성도 조금씩 잡혀갔던 시기였던 것 같습니다.
1월부터 2월까지는 SGG(Scene Graph Generation)를 주제로 선배들과 함께 논문 작업에 참여했습니다. 처음 해보는 논문 작업이었기에 어려움도 많았지만, 그만큼 배울 수 있는 것도 많았습니다. 특히 논문을 작성할 때 어떤 흐름과 과정을 거쳐야 하는지에 대해 체계적으로 배울 수 있었고, 동시에 저의 약점도 어느 정도 파악할 수 있었던 시간이었습니다. 그동안 직접 코드를 짜고 실행해보는 경험이 많지 않다 보니, 이번 논문 작업을 하면서 어려움을 많이 느꼈습니다. 특히 지금 하고 있는 실험에는 정답이 없다 보니, 내가 코드를 제대로 짰는지 계속 확인하게 되었고, 최대한 꼼꼼하게 하려다 보니 생각보다 시간이 훨씬 오래 걸린다는 것도 깨달았습니다. 아직도 많이 부족하다고 느끼지만, 코드의 전체적인 구성 방식에 차츰 익숙해지면서 예전보다는 코드를 이해하고 분석하는 속도가 훨씬 빨라졌다는 걸 느꼈습니다. 역시 코드도 꾸준히 보고 배우는 게 가장 좋은 방법인 것 같습니다.
3월부터는 연구실에서 진행 중인 멀티모달 RAG 과제에 맞춰 개인 연구를 시작하게 되었습니다. 제가 정한 주제는 text-video retrieval task에 Mixture of Experts(MoE) 기술을 적용해 네트워크를 확장해보는 것이었습니다. 단순히 MoE의 장점만 생각해서 적용하는게 아니라 비디오 도메인에서 MoE를 어떻게 효과적으로 활용할 수 있을지에 대해 고민하며 연구를 진행해왔습니다.
하지만 연구 초반에는 제가 떠올린 아이디어가 실제 이 문제에 적합한지, 그리고 논리적으로 타당한 접근인지에 대한 확신이 들지 않아 꽤 오랜 시간 고민했습니다. 그래도 관련 논문들을 꾸준히 읽고, 선행 연구에서 문제를 어떻게 정의하고 접근했는지를 살펴보며 조금씩 방향성이 보이기 시작했습니다. 논문을 분석하면서 자연스럽게 연구 흐름을 이해하게 되었고, 기존 연구들과의 차이점이나 내가 생각한 아이디어가 어떤 문제 해결에 어떻게 기여할 수 있을지 조금씩 이해하게 되었습니다 이번 여름 방학 동안에는 지금까지 생각한 아이디어를 적용해 좋은 실험 결과가 나오길 기대하고 있습니다.
6월에는 CVPR 학회에 참관하면서 다양한 최신 논문과 연구들을 직접 접할 수 있었습니다. 그중에서도 가장 인상 깊었던 점은 연구자들이 문제를 바라보는 관점의 차이였습니다. 그동안 저는 문제 정의의 중요성을 충분히 인식하지 못했던 것 같습니다. 좋은 논문이라 느껴졌던 연구들은 대부분 명확한 문제 정의에서 출발해, 그에 따른 방법론과 실험 내용이 자연스럽게 이어지는 구조를 갖추고 있었습니다 또한, 문제를 지나치게 복잡하게만 풀려고 하기보다는, 단순하고 직관적인 접근법이 오히려 더 효과적일 수 있다는 점도 깊이 느꼈습니다. 이런 점에서 연구를 대하는 마인드셋에 대해 다시 생각해 볼 수 있었던 시간이었던 것 같습니다.
연구 분야와 관련해서 산업 동향은 어떤지도 살펴보았습니다. 제가 지금하고 있는 태스크는 비디오 도메인 연구이지만 비디오 보다는 멀티 모달 RAG에 더 관심이 있어 실제 기업들이 멀티모달 RAG를 어떤 방식으로 도입하거나 활용하고 있는지 살펴보았습니다.
기업들에서는 멀티모달과 RAG 기술을 자사 서비스에 적용하려 시도 중이며 검색 정확도의 향상, 개인화된 AI 비서 구축, 다양한 콘텐츠 생성 자동화 등에서 사용이 되고 있었습니다.
검색 측면에서는, 기존의 텍스트 기반 질의 응답 시스템에서 이미지, 음성, 비디오 등 다양한 입력도 함께 다룰 수 있도록 멀티모달 RAG 기술이 쓰이고 있었습니다. 실제로 의료 영상과 임상 텍스트를 함께 활용하거나, 제품 이미지와 사용자 리뷰를 동시에 참조하여 추천 응답을 생성하는 등 산업 현장에서 멀티모달 RAG의 기술들이 사용되고 있었습니다.
개인화 AI 비서 분야에서는 대규모 언어모델과 멀티모달 인지 능력을 결합해 사용자 맞춤형 대화나 일정 관리, 업무 지원이 가능해지고 있었고, 기업 내부 시스템뿐만 아니라 사용자용 서비스에서도 점점 상용화되고 있는 추세였습니다.
콘텐츠 생성 분야에서는, RAG 구조를 통해 다양한 외부 지식을 참고하면서 이미지 캡셔닝, 영상 하이라이트 생성, 리포트 자동 생성 등 고차원적 생성 작업이 가능해지고 있었습니다. 이처럼 멀티모달 RAG 기술이 실제로 여러 기업에서 활용되고 있다보니 실전에서 어떻게 쓰이는지를 이해하고 준비할 필요가 있다고 느꼈습니다.
하지만 최근 관련 자료들을 더 찾아보면서 느낀 건 기존의 RAG 방식보다, 앞으로는 각 시스템에서 필요한 데이터를 실시간으로 불러오는 에이전트 기반 구조가 더 많이 주목받을 것 같다는 점이었습니다. 에이전트 방식은 중앙에 데이터를 모으지 않고, 각 시스템에 있는 정보를 그대로 사용하면서도 실시간으로 가져오는 구조입니다. 덕분에 기존의 보안이나 권한 체계를 그대로 유지할 수 있어서, 보안 면에서도 더 안전하고, 또 정보를 실시간으로 가져오기 때문에 데이터가 오래되거나 부정확해질 걱정도 줄어든다고 합니다. 그렇다보니 앞으로는 RAG보다는 에이전트 기반의 구조가 산업 현장에서 더 많이 쓰이게 될 것 같았고 앞으로는 RAG 기술뿐만 아니라 에이전트 기반 구조에 대해서도 함께 공부하며 어떻게 하면 실제 산업에서 문제 해결에 활용할 수 있을지 고민해보면 좋을 것 같습니다.
감사합니다.
안녕하세요 정의철 연구원님 상반기 회고 잘 봤습니다.
문제를 지나치게 복잡하게만 풀려고 하기보다는, 단순하고 직관적인 접근법이 오히려 더 효과적일 수 있다는 점이 마음에 와닿네요. 사실 생각해보면 단순하고 직관적인 접근법이 오히려 더 복잡한 결론으로 가는 경우도 있고 참 어려운 것 같습니다. 남은 하반기 동안 의철님 연구 잘 마무리되길 바랍니다. 화이팅~