CVPR 2025 참관기

안녕하세요, 허재연입니다. 좋은 기회로 지난 6월 11일 – 6월 15일 5일간 진행된 CVPR 2025에 참석하였습니다. 보고 느낀 점들이 많아 참관 후기를 작성해보고자 합니다.

CVPR은 모두 아시듯 컴퓨터비전 분야 전반을 다루는 학회로, CV 연구를 주도하는 가장 영향력 있는 학회 중 하나입니다. 이번 2025년에는 13,008편의 논문을 제출받아 약 22% accept rate로 2878편의 논문들이 최종 채택되었다고 합니다. accept rate가 굉장히 낮음에도 불구하고 AI의 인기에 힘입어 제출되는 논문 편수가 워낙 많다보니 최종 채택되는 논문의 편수도 많은 편입니다. 보통 미국에서 개최되는 것으로 알고 있는데, 이번에는 미국 테네시 주 내슈빌에서 진행됐습니다.

CV학회로는 국내에서 열리는 KCCV를 2번 갔다 왔었는데, 비슷한 점도 있었지만 해외에서 열리는 학회라 그런지 다른 점도 많았습니다. CVPR이 어떻게 진행되는지 궁금한 분들을 위해 학회 일정이 어땠는지 소개해드리겠습니다.

내슈빌로

학회가 현지 시간 6월 11일에 시작하기 때문에 6월 10일 출국하였습니다. 출국날 아침 기말시험을 보고 인천공항에 가서 시애틀 행 비행기를 타고, 시애틀 도착 후 미국 입국 심사를 한 뒤 몇 시간 더 기다려 내슈빌 행 비행기를 타고 내슈빌로 가는 루트로 갔습니다. 미국 입국 심사가 빡센 걸로 유명해서 준비를 열심히 해 갔는데요, 한국으로 귀국하는 항공편, 에어비앤비 숙소, CVPR invitation letter 등 ‘내가 미국에 불법체류하러 온 게 아니고 얌전히 학회 참석한 뒤 한국으로 돌아갈거다’는 사실을 충분히 증빙할 수 있으면 됩니다. 제가 심사 받을 차례쯤 되니 이미 앞에 CVPR 참석자들이 여러 명 거쳐갔는지, CVPR 컨퍼런스 참석하러 왔다 하니 간단하게 숙소와 invitation letter를 확인하고 통과시켜주었습니다.

이후에는 내슈빌행 비행기를 타기 위해 재수속을 하고, 약간의 여유 시간이 있어 시애틀 시내 한바퀴 구경하고 밥먹고 비행기에 탑승했습니다.

한국에서 직항이 없어 환승을 했는데, 비행기에서 거의 잠을 자지 못해 꽤나 피곤했었네요. 도착 시간이 학회 시작 당일 새벽이어서, 내슈빌에 도착하자마자 간단하게 짐을 풀고 학회에 등록했습니다.

1-2일차 : Workshop / Tutorial

학회 진행 기간은 총 5일인데, poster 및 oral session 등이 진행되는 본 세션은 뒤 3일간 진행되고, 앞의 이틀은 Workshop과 Tutorial이 진행됐습니다. 튜토리얼의 경우 특정 연구 주제에 대한 개념이나 연구 동향을 소개하거나 특정 프레임워크, API를 다루는 법을 발표하며, 워크샾은 연구자들이 각자 관심 있는 주제로 발표 및 강연을 준비하고, 관심 있는 연구자들을 모아 해당 분야에 대한 토의를 통해 해당 분야의 연구를 활성화하는 역할을 합니다.

수많은 워크샾과 튜토리얼이 동시에 진행되므로(하루에 대략 70개 내외의 세션이 진행됩니다), 저는 미리 참석할 관심 워크샾, 튜토리얼들을 리스트업해두고 참석했습니다. 맨 처음에는 특정 시간대에 듣기로 정한 튜토리얼/워크샾을 쭉 이어서 들을려고 했었는데, 생각보다 발표자가 바뀔 때마다 너무 지엽적이거나 관련이 별로 없는 말을 갑자기 하기도 하고, 단순히 코드를 따라 치는 등 ‘이걸 볼 시간에 다른 곳을 보는게 더 낫겠다’ 싶은 강연들도 있어서 이런 경우 동시간대에 진행되는 다른 워크샾/튜토리얼을 보러 돌아다녔습니다. 사실 진득하게 한 세션에 앉아서 쭉 듣는 사람들이 많지 않고 전반적으로 대부분 사람들이 중간에 들어와서 앉았다가 적당히 듣고 나가는 분위기였습니다. 아무래도 oral session들보다는 보다 자유롭게 주제와 내용을 구성하게 되다 보니, keynote와 oral 발표들보다는 발표 내용들이 덜 정돈된 느낌이 강했습니다. 물론 깔끔하게 발표 내용이 정리된 분들도 있었으니 케바케이긴 하네요.

대학에서 진행되는 정규 수업과는 그 형식이 많이 다르다보니, 특정 분야에 대해서 아주 자세하게 배우고 가겠다! 라기 보다는 관심 주제의 컨셉과 흐름을 파악하는 느낌으로 청강했습니다. 워낙 다양한 국가에서 다양한 억양을 가진 사람들이 오다 보니 알아듣기 힘든 발표자들도 있어서 모든 말을 내가 다 듣고 이해해서 기억하기는 쉽지 않더라구요. 흐름을 파악하고 굵직한 곳에 집중하는 태도로 듣는 것이 오히려 나중에 기억나는 내용이 많았습니다.

워크샵 진행 모습

인기 있는 주제도 있고 인기가 없는 주제도 있었는데, 인기가 많은 주제를 다루는 워크샾/튜토리얼의 경우 세션장이 꽉 차고 밖에 사람들이 한참동안 줄을 서서 기다리기도 했습니다. 사실 워크샾 시작 시간에 딱 맞춰서 미리 앉아있기만 해도 그럴 일을 없었기에, 인기 많은 워크샾을 보고 싶을 때는 최대한 시간을 맞춰서 움직였습니다.

워크샾과 튜토리얼을 쭉 보면서 느낀 것은, 로보틱스와 생성에 점점 관심이 집중되는 느낌이 확연했습니다. 이제 대규모 LLM, VLM을 활용해 어느 정도 visual perception이 가능해져서 그런지 이들을 잘 활용해서 어떻게 다양한 분야로 application이 가능할까 고민하는 단계라고 느꼈습니다. core CV 도 물론 다루긴 하지만 그 비중이 크지는 않다고 느껴졌네요.. 또 워낙 모델 규모가 커지다 보니 어떻게 하면 모델을 가볍게 활용할 수 있을까 하는 주제들도 꽤나 눈에 띄었습니다.

점심은 샌드위치, 샐러드, 비건 및 할랄푸드 등 뭔가 건강한 느낌으로 간단히 때울 수 있는 것들이 제공됩니다. 딱히 맛있어 보이는 게 없어서 첫째날에는 샌드위치를 골랐는데 상당히 맛이 별로더라구요.. 둘째날부터는 밖에서 사먹은 것 제외하면 모두 샐러드를 먹었습니다. 샐러드는 맛있었어요.

3-5일차 : Keynote / Oral / Poster

3일차부터는 본 세션으로, oral, poster, Keynote 등으로 구성됩니다. oral session의 경우 구두 발표 기회를 얻은 논문의 저자들이 약 10분간의 발표와 5분간의 질답으로 자신의 연구를 소개하고, poster session에는 수많은 논문 포스터가 전시되어 자유롭게 돌아다니며 요약된 연구 내용들을 구경하거나 저자들과 소통을 할 수 있습니다. keynote의 경우 하루에 한번, 연사가 약 1시간 정도의 발표를 진행하게 됩니다.

oral session은 3개의 발표장에서 동시에 진행되며, 이 때 주제별로 논문들이 구성되어 관심 있는 주제의 oral session장에서 들을 수 있었습니다.

keynote, oral session이 진행되는 모습

oral 발표 내용의 경우, KCCV 참석 경험이 있으신 분들이라면 KCCV의 oral 발표와 매우 유사하게 진행된다고 생각하시면 되고(대신 영어로 발표하고 개별 발표 시간이 10분으로 짧습니다), KCCV 참석 경험이 없으신 분들의 경우 10분 분량의 짧은 논문 소개 세미나라고 생각하시면 됩니다. 발표자의 발표 구성에 따라 다르지만, 우리 연구실 세미나에서 논문을 소개하는 발표를 연상하면 얼추 비슷할 것 같아요. 저의 경우 Vision-Language 모델, Foundation 모델 등 지금 진행하고 있는 연구와 관련 있는 주제를 위주로 찾아서 들었습니다. 워크샵 및 튜토리얼때는 워낙 많은 주제로 사람이 분산되어 있었는데, oral session의 경우 사람들이 모이다보니 정말 많은 사람들이 몰렸습니다.

한국인 발표자들도 몇 있어서 발표자가 한국인인 경우에는 아무래도 더 집중해서 듣게 되었습니다. 생각보다 해외 기관/대학에서 연구중인 한국인 연구자들이 많더군요. 국내 대학에서 게재한 논문도 적지 않게 있었습니다.

키노트의 경우, 기억에 남는 발표는 메타 AI에서 LLaMA 개발 책임자 께서 어떻게 대형 모델을 구축하고 배포하는지 그 과정을 소개하는 발표였는데요, 대형 모델의 개발이 실제로 빅테크에서 어떻게 진행되는지 1시간 꽉꽉채워서 듣다 보니 굉장히 재밌게 들었습니다.

발표 내용을 들어보니 크게 숨기는 부분 없이 정보 공개를 투명하게 한 것 같은데, 마지막쯤에 ‘이제 여러분은 어떻게 대규모 모델을 구축하는지 모두 알게 되었습니다. 이제 실천에 옮기기만 하면 됩니다. 하지만 쉽지 않을 것입니다. 이런 모델들을 구축하는 과정은 마치 로켓 공학과 유사해서, 어떻게 하는지를 알고 있더라도 나사 하나라도 잘못 끼우면 로켓이 폭발하듯, 모든 디테일들이 완벽하지 않으면 제대로 동작하지 않을 테니까요’라고 말한 부분이 특히 인상 깊었습니다. 해당 키노트는 비공개이지만 제가 링크를 가지고 있으니, 혹시 궁금하신 분은 DM 주세요. 링크 공유드리겠습니다.

Demos / Poster

기업 부스 및 데모를 구경하는 사람들

기업 데모 부스와 포스터 세션은 동시에 진행됐습니다. 기업 부스에서는 다양한 회사들이 자신들이 어떤 연구를 수행하고 있는지 간략히 보여주었는데, 첫째날은 구경하는 사람들이 정말 많았습니다. 한국 대기업들이 있지 않을까 기대했는데, 한국에서 온 데모/기업 부스는 그렇게 많지 않아서 아쉬웠네요.

ultralytics YOLO의 실시간 detection 시연
구글의 실시간 데모
메타의 경우 개발한 모델들을 QR로 확인할 수 있게 부스를 꾸몄습니다

기업 부스/데모가 진행되는 곳에서 멀지 않은 곳에서 poster session이 진행됩니다.

위와 같이 다양한 포스터가 넓은 장소에 쭉 주제별로 모여 있으며, 돌아다니면서 다양한 포스터들을 구경하며 연구 흐름을 파악할 수 있고, 관심 있는 연구의 포스터에 저자가 앞에 서 있다면 직접 연구 내용에 대해 질문을 할 수도 있습니다. KCCV의 경우에는 포스터로 발표되는 논문의 개수가 그래도 몇십개 정도였던것으로 기억해서 제목을 쭉 훑으며 관심이 가는 논문들을 학회 진행 전에 미리 읽고 가서 질문도 하고 그랬는데, CVPR의 경우 포스터 논문이 너무 많다보니 엄두가 안 났습니다. 대신 학회장을 빠르게 돌아보며 관심 가는 포스터들의 사진을 찍고 이후에 찾아보는 형식으로 논문들을 추렸습니다.

저는 제가 연구하는 분야과 연관된 분야들(video captioning, scene graph generation, VLM 등)을 위주로 둘러보고 이후 전체적인 CV 트렌트가 어떤지 파악하기 위해 많은 노력을 기울였습니다. 직접 가서 둘러보니 빠르게 변하는 트렌드를 어느 정도 파악하기 용이해서 좋았습니다. 다른 연구자들은 네트워킹을 굉장히 적극적으로 하던데, 저는 아쉽게도 네트워킹은 별로 하지 않았습니다. 나중에 또 이런 해회 학회 참석할 기회가 있다면 그때는 미리 준비해서 네트워킹을 해보면 좋을 것 같아요.

포스터를 둘러보면서 느낀 점들이 몇가지 있습니다.

우선, 생성 연구가 너무 많습니다. 단순히 image, video 생성부터 특정 모달리티를 기반으로 다른 모달리티(ex : text-to-video)로의 생성도 연구가 활발한 것 같습니다. 아직까지는 diffusion 기반 방법론이 여전히 주류인 것으로 보이구요. 예전에는 단순히 CV의 여러 작은 분야 중 하나인 느낌이었다면, 이제는 완전 메인스트림이 된 느낌입니다. 체감상 전체 포스터 중 30% 이상이 생성 관련 논문들이었습니다. RCV 연구원들도 자신이 하지 않던 분야라고 외면하지 말고, 생성 쪽 얘기가 나오면 이제는 어느 정도 이해할 수 있을 정도고 기본적인 지식은 갖추는게 좋을 것 같습니다.

3D reconstruction 및 비디오 연구도 굉장히 활발해졌습니다. 3D reconstruction의 경우 이제 Nerf가 메인이 되는 연구는 거의 보이지 않고, 대부분이 gaussian splatting을 활용하는 흐름으로 파악했습니다. Nerf는 이제 3d reconstruciton 방법론에서 메인이 되기 보다는, 그 개념 및 응용, 철학이 방법론들의 근간에 녹아들어간 느낌입니다. 불과 2년 전만 해도 완전히 Nerf가 주류였는데, 이쪽도 굉장히 빠르게 트렌드가 바뀌는 것 같더군요. 비디오 연구는 이전에는 그렇게까지 많이 눈에 띄지는 않았지만 이제는 주류 연구로 올라선 느낌을 받았습니다. 비디오는 필연적으로 정보 요약, 다른 모달리티와의 조화(오디오라던지), 압축 등의 이슈를 동반하기에 아직 개선될 점이 많아 보입니다. 점점 더 주목을 받지 않을까 싶네요.

연구들의 규모가 점점 커지는것이 느껴졌습니다. LLM, Foundation model을 활용해서 대규모 데이터셋들을 직접 구축한다던가, 새로운 foundation 모델들을 만들어낸다던가.. 하는 연구들이 많았습니다. 대학 연구실 수준에서 수행하기 어려운 규모의 연구가 점점 많아지고 있고, VLM, Foundation 모델들이 이제 기초적인 vision task들을 워낙 잘하다보니 학회 갈때마다 생각하는 ‘그럼 이제 대학 연구실에서는 어떤 연구를 해야 하나’라는 고민을 다시 하게 되는 계기가 되었습니다. 2년 전 chatGPT가 등장할때부터 계속 제기된 질문인데, 그래도 여전히 대학 연구실에서 수행한 좋은 논문들이 많은 것 보니 우리가 할 수 있는 영역을 명확히 인식하고 선택과 집중을 해야 할 것 같네요.

유행에 치중된 연구가 꽤나 많습니다. 그냥 최신 모델 중 좋은 거 이거저거 붙여서 SOTA 찍어서 붙었다 느낌이 나는 연구라던지, 아무도 연구하지 않는 minor 분야에 남들은 안쓰는 평가 지표를 활용해서 붙은 느낌이 나는 연구라던지.. 뭔가 진득하게 문제 정의 및 분석을 통해 기존의 문제를 해결하기보다는 논문을 위한 논문 느낌이 나는 논문들도 꽤 있었습니다. 물론 이런 방법으로라도 실험 결과 잘 내서 학회에 논문 붙이는 것도 쉬운 일은 아니기에 하나의 능력이라는 생각이 들지만, 제가 생각하던 연구는 특정 문제 정의를 통해 해당 문제를 깊게 고민하여 해결하는 느낌이었기에, 유행에 빠르게 편승하는 듯한 느낌의 논문들이 많은 데 아쉬움이 남았습니다(물론 문제 정의 및 솔루션이 정말 탁월한 좋은 논문들도 많았습니다).

한국인이 꽤나 많았습니다. 이제 한국은 컴퓨터비전을 잘하는 국가라는걸 부정할 수 없을 것 같아요. 국내 CV 커뮤니티가 활성화되는것은 CV 연구자 입장에서는 굉장히 좋은 일이지만, 반대로 취업을 생각할 때 경쟁자가 많아졌다는 뜻이기도 합니다. 연구 잘하는 사람 정말 많고, 그 중 한국인들도 많습니다. 열심히 해서 이들 사이에서 살아남기 위해서는 정말 열심히 해야겠다는 생각이 들었습니다.

좋은 기회로 많이 보고 배우고 왔네요. 다음에는 논문을 내서 참석하길 희망하며, 이만 참관기 마치겠습니다.

마지막으로, 좋은 기회 제공해주신 교수님, 학회 참석 준비 정말 열심히 도와주신 박화원 선생님, 함께 미국까지 동행해준 신정민, 정의철, 박성준 연구원께 감사 드립니다.

Author: 허 재연

Leave a Reply

Your email address will not be published. Required fields are marked *