CVPR2025 참관기

안녕하세요. 이번에는 CVPR 2025 참관 후기를 작성해보려 합니다. 먼저, 이번 CVPR 학회에 직접 참관할 수 있는 기회를 주신 교수님께 진심으로 감사드립니다.


이번 CVPR 2025는 2025년 6월 11일부터 15일까지 미국 내슈빌에서 개최되었습니다.

저는 이번 CVPR 2025에 참가하면서 특히 Text-Video Retrieval, Vision-Language Models (VLM), 그리고 Mixture of Experts (MoE)라는 세 가지 키워드에 중점을 두고 학회를 살펴보고자 했습니다. Text-Video Retrieval 과 MoE는 지금 하고 있는 연구 주제여서 이 주제와 관련 있는 포스터를 보면서 연구의 도움될만한 내용들을 참고하고자 했습니다. 하지만 아쉽게도 비디오와 관련된 논문들은 대부분 VQA, Temporal Grounding, Video Generation 등과 같이 더 깊은 수준의 태스크를 요하는 논문들이 대부분이였습니다. 실제로 Text-Video Retrieval만 수행하는 논문은 2~3편 뿐이였고 Text-Video Retrieval를 수행하더라도 Long-video, audio 등 추가로 붙는 것들이 있어 연구의 발전 속도가 정말 빠르다는 것을 느꼈습니다. 그래서 이번 학회에서는 Video와 관련된 논문들에서 언급하고 있는 문제 정의들과 해결하기 위해 사용된 기법들 위주로 배우고자 했습니다.

Workshop & Tutorial

첫째 날과 둘째 날에는 Workshop과 Tutorial 세션이 진행되었습니다. 학회가 열린 Music City Center는 굉장히 넓어서 강연장을 찾는 데 꽤 헤맸던 기억이 납니다. 저는 이날 VLM과 Video 관련 주제를 들으러 갔는데, 막상 내용을 들으니 제목으로 예상했던 내용이 아니라 이해하기 어려운 내용이 많았습니다.

제가 처음 참관한 학회가 KCCV라 강연장 환경도 그에 맞게 예상했는데, 막상 가보니 테이블은 전혀 없고 의자만 있어서 조금 당황했습니다. 강연장을 나와 보니 밖에는 테이블과 의자가 마련된 공간에서 노트북으로 무언가를 듣고 있는 사람들이 있었는데, 나중에 알고 보니 줌 링크로 강의를 듣는 사람들이였습니다. 교수님께서 말씀하신 것처럼 노트북으로 듣는 게 훨씬 나았을 것 같은데, 그땐 첫날이라 정신이 없어서 미쳐 생각하지 못하고 그냥 현장에서 꾸역꾸역 강의를 들었습니다. 지금 생각해보면 머릿속에 남는 게 별로 없어서, 차라리 밖에서 줌 링크로 듣는 게 훨씬 나았겠다는 아쉬움이 남습니다.

Poster

Poster 섹션은 이번 CVPR 학회에서 가장 기대했던 부분이었습니다. 처음 Poster 섹션이 열리는 장소에 들어갔을 때, 그 규모가 워낙 커서 많이 놀랐습니다. 이렇게 많은 논문들을 전부 다 살펴보는 것은 무리일 것 같아, 먼저 미리 점찍어두었던 논문들을 찾아가 보기로 했습니다.

하지만 아쉬웠던 점은, 제가 관심 있던 포스터들 중 대부분이 저자가 부스를 비우고 있었다는 점이었습니다. 그래서 대신 사람들이 많이 모여 있는 곳이나 Highlight로 선정된 논문들을 중심으로 돌아다녔습니다. 자연스럽게 이전에 참가했던 KCCV와 비교하게 되었는데, 그때는 발표자들이 한국어로 설명해 주었기 때문에 어느 정도 이해가 가능했습니다. 하지만 이번에는 영어로 설명을 들으면서 억양이나 말 속도, 그리고 옆 포스터의 소리까지 겹쳐져 내용을 따라가기 쉽지 않았습니다. 이대로 있다가는 이번 학회에서 아무것도 얻지 못할 것 같아, 방식을 바꾸기로 했습니다.

먼저 논문을 빠르게 훑어보고, 저자가 부스에 있는 경우에는 직접 찾아가 설명을 듣고 질문하는 방식으로 접근했습니다. 그런데 이렇게 하다 보니 생각보다 많은 포스터를 둘러보지 못했고, 에너지 소비도 커서 금세 지쳐버리곤 했습니다. 그때는 준비를 너무 안 하고 온 제 자신이 참 한심하게 느껴졌습니다.

집중력의 한계가 오자, 슬슬 주변 사람들은 뭘 하고 있는지 구경하기 시작했습니다. 그러면서 느낀 점은, 이 Poster 섹션은 단순히 저자의 연구 내용을 듣는 자리가 아니라 서로의 생각을 나누고 인맥을 쌓는 자리라는 것을 느꼈습니다. 외국인 분들은 서로 언어가 통하다 보니 자연스럽게 이런저런 대화를 주고받는데 저는 평소에도 말수가 적어 그런 사적인 대화를 시도하는게 쉽지가 않았습니다.

지금 돌이켜보니 또 하나 기억에 남는 순간이 있는데, 숙소에서 학회장으로 가는 길에 제 CVPR 명찰을 본 외국인이 말을 걸어왔습니다. 그분이 제 관심 분야가 무엇이냐고 물으며 대화가 시작되었는데, 사실 대화라기보다는 그녀의 일방적인 말하기에 가까웠습니다. 그 분은 자신의 관심 분야에 대해 굉장히 자신감 있고 열정적으로 이야기를 했었는데 그 모습이 참 인상 깊었고, 되게 멋있다고 느꼈습니다. 동시에 저도 저도 제 관심 분야를 명확하게 정리하고 표현할 수 있어야겠다고 생각했습니다.

다시 Poster 섹션 이야기로 돌아오면, 둘째 날부터는 제 논문에 적용할 수 있는 방법론들을 중심으로 살펴보기 시작했습니다. 저는 모델의 계산량을 줄이면서도 성능을 유지하거나 오히려 향상시키는, 즉 모델의 효율성을 높이는 방법론에 관심을 갖고 있었습니다. 그러다 보니 Efficient Frame Selection, Prompt Token, LoRA, Attention 재활용 기법 등 다양한 기법들이 눈에 띄었고, 계속 제 모델에 어떻게 적용할 수 있을지 고민하면서 빨리 코드 짜고 싶다는 생각을 계속했습니다.

또 하나 눈에 띄었던 점은, 대부분의 논문들이 LLM이나 MLLM을 기반으로 하고 있었다는 점입니다. 이러한 모델들을 활용해 데이터를 증강하거나, 데이터셋의 편향을 제거하는 등의 방식으로 많이 사용되고 있었는데, 예전 논문 작업을 할 때 저도 GPT를 이용해 데이터를 정제했던 경험이 있었는데, 이제는 오픈소스 모델을 활용할 줄 아는 능력이 연구자에게 기본 소양 중 하나라는 점을 확실히 느낄 수 있었습니다.

이번 CVPR 학회에서는 배운 점도 많았고, 현장에서 직접 경험해보니 느끼는 것도 훨씬 더 많았습니다.
또 한국에서 온 다른 학생들과 자연스럽게 이야기를 나누며 서로의 연구 주제나 진로에 대해 정보를 공유하고, 자극을 받을 수 있었던 점이 정말 유익했던 것 같습니다.
이런 값진 경험을 할 수 있도록 해주신 교수님께 다시 한 번 감사드립니다.

Author: 정 의철

Leave a Reply

Your email address will not be published. Required fields are marked *