KCCV 2024 참관기

안녕하세요, 이번 X-Diary는 지난 8월 12-14일 동안 다녀온 2024 KCCV 학회 참관기를 작성하고자 합니다.

이전에 두 번의 학회 참관을 하였지만, 이번 KCCV처럼 학회 전 일정을 참여한 적은 처음이라 굉장히 좋은 경험을 하고왔다고 생각합니다.

이번 KCCV는 3일동안 크게 Oral 세션 / Keynote / Poster & Demo / Industry / Doctoral Colloquium / Pannel Discussion으로 나누어 진행되었습니다.

KCCV를 참석하면서 개인적으로 느낀 현재 연구의 trend를 생각해보면, CVPR를 다녀오신 연구원 분들도 많이 말씀해주신 것처럼 LLM은 정말 task를 가리지 않고 이미 다양하게 활용되고 있었습니다. 또한 LLM 뿐만 아니라 SAM과 같은 Foundation model의 활용도 활발하게 이루어지고 있었습니다. 게다가 확실히 비전 분야 학회이라서인지, 아니면 올해 들어 유독 그런지는 모르겠지만 제 생각보다 비디오 논문이 굉장히 많았고 반대로 제 기대보다 로보틱스 관점이나 3D detection, segmentation task의 논문은 많지 않아 조금 아쉬웠습니다. 그래도 제가 평소에 관심을 가지던 분야에서 읽어보려고 찾아보았던 논문들이 실제로 포스터나 oral 발표에 포함되어 있기도 해서 저자의 설명을 자세하게 들어볼 수 있었습니다. 다만 포스터에서는 비교적 적은 포스터 대비 많은 사람들이 몰려 질문은 고사하고 한번의 전체 설명을 듣기에도 힘들었던 기억이 납니다 .. 그래도 국외 학회에 accept된 논문을 저자에게 한국어로 설명을 듣고 질의응답할 수 있다는건 정말 좋은 기회였던 것 같습니다. 여담이지만 둘째, 셋째날 keynote는 갑작스런 영어 발표로 인해 정말 좋은 발표라는 걸 알고 있음에도 실시간으로 들려오는 현지 영어에 정신을 못차렸던 기억이 나네요 .. 또한 외국인 학생들의 질문에 자유자재로 영어를 구사하며 답변해주는 저자 분들을 보면서 뜻하지 않게 영어 공부의 필요성을 느낄 수 있었습니다.

Oral Session

[CVPR 2024] From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation

둘째날 oral session에서 발표된 논문인데, 사실 이 논문보다도 첫째날 Doctoral Colloquium 발표로 들었던 “Exploring Weakly Supervised 3D Point Cloud Semantic Segmentation through Knowledge from the 2D Image Domain”의 확장 논문이라 기억에 남는 것 같습니다.

Doctrol Colloquium 논문은 포인트 클라우드에 대한 semantic segmentation은 dense한 GT 포인트를 필요로 한다는 기본적인 한계를 문제 삼아 이를 해결하기 위해 이미지의 양적/질적인 장점을 살리고자 하였습니다. 여기서 semantic한 정보는 잘 찾지만 segmentation을 잘 하지 못하는 이미지와 semantic한 정보는 잘 찾지만 segmentation은 잘 하지 못하는 포인트 사이의 정 반대 특성을 살려 두 도메인에서 아래의 두 knowledge를 잘 활용하고자 한 논문 입니다.

  • 2D-to-3D Semantic knowledge
  • 3D-to-2D Segmentation knowledge

이 과정에서 SAM을 활용하였는데, 저는 이 부분이 굉장히 인상 깊었습니다. dense한 GT를 생성하기 어려우니 SAM이 포인트로 프롬프트를 제공하는 방식을 착안하여 전체 포인트에서 몇 개의 포인트만을 어노테이션하여 (sparse annotation), 이를 마치 SAM이 제공하는 포인트 프롬프트로 활용한다고 합니다. 그럼 이미지와 포인트 사이에서 projection과 reprojection을 반복하여 결국에는 전체 포인트 클라우드에 대한 마스크를 얻을 수 있다는 것이죠.

Oral Sesseion의 발표는 3D에서 진행한건 아니고, Weakly Supervised Semantic Segmentation (WSSS)에서 수도 GT를 만드는 과정이 중요한데 여기서 CAM을 활용하면서 보다 정확한 CAM을 찾기 위해 SAM을 활용하는 논문이었습니다. 이 논문에서도 마찬가지로 이미지 영역 내에서 가장 semantic한 영역을 포인트 형태로 찾아 SAM의 프롬프트처럼 활용하는 방식을 적용하는데, 발표를 들으면서 한번 문제 정의와 해결 방안을 잘 만들어놓으면 여러 방면에서 확장하여 좋은 연구를 할 수 있구나라는 생각을 많이 했던 것 같습니다.

Keynote

Learning to Understand Our Multimodal World

앞서 LLM의 활용이 다양하다고 느꼈다 말씀드렸는데, LLM 관련 발표 중에서 첫째날 Keynote로 LLaVA의 저자 분이 해주신 발표가 기억에 남습니다.

이전의 GPT 모델은 사용한 데이터셋과 모델 구조를 알 수 없는 closed source였기에 open sourse로 closed source만큼의 성능을 낼 수 있을지에 대한 의문에서 시작된 연구로 일반화된 멀티모달 모델의 필요성을 위해 연구를 진행하셨다고 합니다. 이미지와 텍스트가 들어왔을 때 두 데이터를 모두 잘 이해해서 답변을 할 수 있는 모델을 만들고자 한 것이죠. 이를 위해서 적합한 학습 데이터가 필요했고, 그 과정에서 사전학습된 vision/language 모델을 최대한 잘 활용하는 것이 목표였다고 합니다. Image-Instruction-Output 형태의 triplet 학습 데이터를 갖추기 위해 당시에는 strong teacher 모델로 활용할 멀티모달 모델이 없었어서 strong LLM을 활용해 이미지를 대체할 수 있는 context 정보를 텍스트로 구성하여 LLM에게 던져줌으로써 output을 만들어낼 수 있었습니다. (context-instruction-output) 그럼 이 셋을 language only Chat GPT의 입력으로 넣어서 instruction output을 만들어낼 수 있고 원래의 이미지까지 쌍을 맞추면 결국 원하던 image-instruction-output 셋을 만들 수 있었던 것이죠.

이렇게 만들어진게 visual feature을 LLM이 이해할 수 있도록 만든 모델인 LLaVA로, open source로는 처음 설계된 모델이라고 합니다. 추가적으로 LLaVA 모델은 이미지 전체를 줬을 때는 잘 이해할 수 있지만 특별한 영역이나 화살표나 동그라미와 같이 이미지에 표시했을 때 이해를 할 수 있을지는 아직 미지수라 그런 부분을 후속 연구로 진행한다는 말씀까지 들을 수 있었습니다.

사실 LLM이라고 하면 하나의 큰 덩어리로만 생각하던 저라서, 이전의 LLM의 동향과 특성을 알려주면서 새로운 모델을 설계한 하나의 메커니즘을 말씀해주신 발표라 정말 좋았던 것 같습니다.

Pannel Discussion

사실 패널 대화는 셋째날 맨 마지막 타임에 진행되었던 터라 꽤나 지친 상태로 처음에는 가벼운 마음으로 들었습니다. 주제는 “컴퓨터 비전 강국으로서 한국, 연구 커뮤니티의 역할과 방향”으로 처음에는 가벼운 이야기로 시작을 했었는데, 갈수록 교수님들께서 여러 관점에서 좋은 이야기들을 많이 해주셨던 것 같습니다. 특히 김선주 교수님께서 하신 말씀이 기억에 남는데, 많은 비전 연구하는 사람들이 CVPR, ICCV, AAAI와 같이 탑 티어 학회를 많이 내는데 집중하고 있다고 합니다. 실제로도 저 뿐만 아니라 저희 연구실 연구원 분들도 탑 티어 학회를 목표로 하고 있지 않을까요 ? 하지만 김선주 교수님께서는 이번 년도만 해도 탑 티어에 accept된 논문이 10000편이 넘으며 그 중 한 편에 속한다고 해도 1/10000의 영향력을 가지고 있는 것이고, 그 중 인용수가 1도 안되는 논문이 대부분이라고 합니다. 그 마저도 다음 년도 학회가 열리면 묻히기 일쑤이죠. 그래서 이제는 무조건 탑 티어 논문을 많이 내는게 아니라 임팩트 있는 논문을 쓰는데 초점을 맞춰야 하지 않냐는 의견을 이야기해주셨습니다. NeRF만 해도 20년도에 나온 논문이지만 아직까지도 NeRF를 기반으로 수많은 연구가 진행되고 있는 것처럼 그렇게 학회에 영향력을 미칠 수 있는 임팩트 큰 논문 하나를 쓰는 것이 몇 개의 탑티어 논문을 쓰는것보다도 우선시 되어야 할 부분이지 않을까라고 하셨습니다. 또한 이경무 교수님께서도 몇 년전에 비해 탑티어 학회들의 규모만 봐도 비전 연구를 하는 사람의 수가 급격하게 늘었고, 그 안에서 경쟁력을 가지는게 매우 어렵다고 말씀하시며 그 중에 모든 사람이 교수나 평생 연구만을 업으로 삼으며 살아가기 어려우니 지금부터 실제 산업 현장을 고려한 연구를 많은 사람들이 진행하면 석사나 박사를 마치고의 미래를 생각해서도 좋은 방향일거라고 말씀해주셨습니다.

교수님들께서 말씀해주신 말들이 공감이 많이 갔던 것이 저도 이 때까지는 탑티어 학회의 accept 논문 리스트들이 공개되면 그저 여러 곳에서 좋은 연구들이 많이 나오고 있구나 정도로 생각을 했었습니다. 그런데 막상 멀지 않은 국내의 많은 연구실에서 이렇게 좋은 학회에 많은 논문을 내고 있는 상황을 KCCV를 참관하며 몸소 보고 나니, 내가 이런 사람들과 같은 비전 연구를 하면서 이 안에서 경쟁력 있는 사람이 될 수 있을까 하는 생각이 많이 들었던 것 같습니다. 또한 졸업을 하고 나면 회사에 취직하게 될텐데, 그 때 회사의 상황에 맞는 일을 하기 위해서 지금부터 내가 어떤 방향으로 연구를 해야할까라는 고민도 하게 되었습니다.

여러 oral이나 포스터 발표 보다도 오히려 패널 대화를 들으면서 지금 발표한 많은 사람들처럼 좋은 연구를 하고 많은 사람들과 discussion이 가능한 연구자가 되고 싶다는 생각을 하며 많은 동기부여가 되었던 것 같습니다.

느낀점

지난 23년도 KCCV의 참석 여부를 결정할 때 그 때 당시에 참석하면 많이 알아듣지 못해서 아쉬울 거 같다는 생각에 내년에 참석해야겠다는 생각을 했었습니다. 작년에 참석을 하지 않아 비교군은 없지만 이번 학회에 참석해서 여러 발표와 포스터를 보며 완전히 다 이해하고 discussion을 하는 수준은 아니지만 저자의 얘기를 따라가면서 어느 정도 이해를 하는 제 모습을 보니 연구실을 다니는 기간 동안 그래도 꽤나 성장을 했나?라는 생각이 잠깐 들었던 것 같네요. 또한 이전의 학회 참석 때는 관심있는 포스터를 봐도 내가 지금 하려는 질문을 하는게 맞나라는 의구심이 계속 들어서 질문 하기를 되게 꺼려했었는데, 이번에는 포스터 설명을 들으면서 궁금증이 생기면 별 다른 망설임 없이 질문을 편하게 하는 저의 모습을 보면서 제 기준에서 스스로 많이 발전했다는 생각이 들기도 했습니다. 처음으로 3일동안 진행되는 전체 학회 일정을 소화하다보니 중간에 조금 지치는 감이 없지 않아 있었지만 여러번 하기 어려운 좋은 경험이라고 생각하며 끝까지 잘 마칠 수 있었던 것 같습니다. 또한 이 때까지 제가 하는 task만 계속 들여다보며 어떻게 보면 좁은 시야로 논문을 찾아보곤 했었는데, KCCV를 보니 시기마다 여러 분야의 연구가 진행되는 흐름이 비슷하다는 생각이 들면서 앞으로는 폭 넓은 분야의 논문을 많이 읽어보는 시간을 가져야겠다고 느꼈습니다.

마지막으로 KCCV에 참관할 수 있는 좋은 기회 주신 교수님께 감사드리며 후기 마치도록 하겠습니다. 감사합니다 !

Author: 손 건화

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다