안녕하세요. 박성준 연구원입니다. 오늘은 CVPR2025 참관 후기입니다. 이번 CVPR2025는 6월 11일부터 15일까지 총 5일동안 미국 내슈빌에서 개최되었으며, 2일의 Workshop 및 Tutorial 그리고 3일의 Main Conference로 구성되었습니다.
CVPR2025에는 약 13,000편의 논문이 제출되었으며, 이중 2878편의 논문의 accept되어 약 22%의 accept rate를 달성했습니다. 제출된 논문의 수가 매년 증가하고 있는 추세를 보면 CV 연구가 아직 활발하게 이루어지고 있는 것을 확인할 수 있는 것 같습니다.
첫 해외 학회
국내에서 KCCV를 다녀오긴 했었지만, 해외로 학회를 다녀오는 것을 처음이었습니다. 해외갈 때 입국 심사가 어렵다는 얘기를 많이 들어서 살짝 걱정은 되었지만, 다행히도 큰 문제 없이 입국할 수 있었습니다. 아마 같은 목적으로 입국하는 한국인들이 많아서 도움이 된 것 같습니다. 시애틀을 들러 내슈빌까지 큰 사고 없이 도착했습니다.
학회에 가면서 Video쪽 연구들이 어떤 연구들이 있나, 그리고 요즘 어떤 연구들이 많나 Vision-Language 분야에서는 어떤 식으로 연구가 진행되고 있나 등을 집중해서 살펴보려고 한 것 같습니다. Workshop, Tutorial, Oral, Poster 모두 Video 혹은 Video-Text에 관련된 주제들을 열심히 찾아봤습니다. 대부분의 연구들은 Text-to-Video Generation이었습니다. 올해 CVPR에서 가장 트렌디한 연구주제인 것 같습니다.
Workshop & Tutorial
첫 2일은 워크샵과 튜토리얼로 진행됩니다. 포스터와 오랄 세션이 진행되는 본 일정 이전에 특정 연구 주제에 대한 설명 혹은 특정 주제로 모인 연구자들이 발표하고 이야기를 나누는 자리입니다. 하루에도 많은 워크샵과 튜토리얼이 진행되고 같은 시간에 여러 공간에서 동시에 진행되기에 미리 특정 주제를 정해서 들어야합니다. 저는 VLM과 Multimodal 워크샵과 튜토리얼을 들었는데, VLM은 Diffusion을 활용한 생성형 연구가 대부분이었고, Multimodal은 원소 구조, 센서와 같은 상상했던, 비전-텍스트와는 다른 완전 새로운 모달리티의 연구가 많이 있어서 흥미롭게 들었지만, 많이 이해하지는 못했습니다. 그리고 워크샵, 튜토리얼 진행하는 사람 마다 다르겠지만, 국어책을 읽은 것처럼(?) 톤변화도 없고 목소리도 작게 중얼거리는 사람들도 많았고 주제랑 상관없이 자기 연구 소개하는 사람도 있었어서 좋은 워크샵, 튜토리얼을 고르는 것이 중요할 것 같다는 생각이 들었습니다. 지금와서 돌이켜보면 본 세션 시작 전에 좀 다양한 주제를 들어보는 것도 좋을 것 같다고 생각합니다.
Poster & Oral
오랄 발표부터 얘기하자면, 생각보다 발표시간이 짧습니다. 대부분의 저자들은 자신의 task와 motivation을 설명하고 method는 짧게 설명하며, 자세한 질문은 논문 혹은 포스터를 참고해달라고하며 발표를 진행합니다. method는 설명하기 어려울 뿐만 아니라 task에 대한 이해가 부족한 경우 설명해도 이해를 하기 어렵기 때문에 task에 대한 설명과 motivation, 그리고 접근 방법에 좀 더 집중한 듯한 느낌이었습니다. 마지막으로 실험에 대해서도 설명합니다. 관심 있는 주제를 들어야겠다싶어서 video쪽 연구들을 찾아서 들었습니다.
학회가 열리는 학회장의 3개의 대강당에서 오랄 세션이 진행되었습니다. 1층, 3층, 4층에 있는 대강당에서로 다른 주제로 오랄 발표가 진행되었는데, 4층 대강당이 제일 큰 메인홀 이었습니다. 메인홀은 항상 생성형 모델이 차지하고 있었습니다. 다시 한번 생성형 모델의 강세를 느낄 수 있었습니다. 개인적으로 포스터 세션에서 어짜피 관심있는 연구들 찾아볼테니 오랄 세션은 올해의 트렌디한 연구들이 어떤 연구들인지, 어떻게 문제정의하고 해결하는 지를 듣는 것도 좋은 전략인것 같습니다. 즉, 가장 큰 대강당을 찾아서 거기서하는 오랄 발표를 들으러 가는 겁니다. 가장 큰 대강당이 사람이 가장 몰릴 것으로 주최측이 예상하는 제일 트렌디한 연구주제일테니깐요.
아무튼, 오랄 발표 자체는 어떤 연구가 최근에 진행되고 있고, 어떤 연구를 어떻게 문제 정의하고 해결하는 지를 알 수 있어서 좋았습니다. 많은 리뷰어들이 인정한 연구들이어서 그런지 간단하면서도 중요한 문제를 쉬운 척 복잡하게(?) 해결하는 연구들이 많았습니다.
포스터 세션이 저는 KCCV에서도 느꼈지만, 제일 많은 것을 얻어갈 수 있는 자리인 것 같습니다. 저자가 발표하는 것을 일방적으로 듣는 것이 아니라 직접 질문도 하며 쌍방향 소통을 할 수 있는 유일한 자리이기 때문에, 포스터 세션을 잘 활용하는 것이 제일 중요한 것 같습니다. 영어로 진행되다보니 영어 리스닝의 중요성을 알 수 있는 시간이기도 했습니다. 저 같은 경우에는 모르면 알때까지 저자를 괴롭힌다는 마인드로 이해될 때까지 질문했습니다. 아예 처음보는 task인 경우에는 대충 이해하는 척하면서 도망간 적도 있었지만, 제가 원래 보려고 했던 video 관련 포스터들은 이해할 수 있는 데까지는 이해할 수 있도록 많이 물어봤던 것 같습니다.
여러 포스터를 보고 질문하고 하다보니 여러 논문들의 저자가 공통적으로 강조하는 점이 있었습니다. 바로 자신들이 지적하고 있는 기존 연구들의 문제점이었습니다. 좀 식상하지만 문제정의가 또 중요하다는 것을 알 수 있었습니다. “내가 해결하고자하는 문제는 ~” 모든 저자들이 질문을 들으면 하는 말이었고, 자신들이 어떤 문제를 해결했는지, 어떤 contibution을 갖는 지를 설명하는 동시에 억까 방지(?)할 수 있는 기가막힌 디펜스 방법인 것 같습니다. 대답하기 곤란한 질문이 들어오면, 내가 해결하려고 하는 문제는 ~라서 그건 고려하지 않았다 혹은 그건 한계점이 맞다 등으로 설명하는데 저도 들으면서 음.. 그치그치 이 논문이 해결하려고한건 이건데, 저거는 그럴 수 있지라고 설득 당하고 있었습니다. 그리고 문제 자체는 꽤 심플한 경우가 많았습니다. 누구나 생각할 수 있지만, 해결하기는 어려운 문제들은 저자들에게 질문해본 결과 대부분은 많은 실험을 통해 해결할 수 있었다고 설명해줬습니다. 정말 사소한 문제인데 해결하니 성능이 많이 개선된 경우도 있었습니다.
많은 정보를 얻을 수 있었고, 동시에 연구자로서 앞으로 방향성을 좀 잡을 수 있는 시간이었던 것 같습니다. 다음번 해외 학회는 참관이 아니라 저자로 참여할 수 있기를 바라는 마음도 생기고 많은 연구자들을 만나고 많은 논문들을 보며 나도 연구를 하고 싶다는 생각이 많이 들었습니다.
마지막으로 좋은 기회 주신 교수님, 학회 참석 준비 도와주신 박화원 선생님 감사합니다. 잘 다녀왔습니다.