KCCV 2024 참관기

안녕하세요. 오늘은 KCCV 2024 학회 참관기를 작성해보고자 합니다.

학회는 3일동안 10시부터 18시까지 진행이 되었고 크게 Oral, Keynote, Industry, Poster/Demo, Doctoral Colloquium, Panel Discussion session으로 구성되어 있었습니다. Keynote같은 경우는 1시간 동안 진행되는 session이었는데 둘 째날, 셋 째날에는 외국인 교수님 (아닐수도..)이 오셔서 영어로 발표를 해주셨습니다. 한국어 발표를 들어도 100% 이해하는데 어려움을 겪는데,, 영어라 더 .. 듣기에 급급했던 것 같습니다. 그래도 2023, 2024년 국제 학술 대회에 게재된 논문을, 논문의 저자이신 교수님들이 직접 한국어로 해주시는 발표를 들을 수 있고, 그 외에도 포스터 부문에서도 역시 한국어로 질답을 할 수 있었던 좋은 경험이었습니다.

Oral & Keynote

첫 째날 keynote에는 LLaVA 저자이신 이용재 교수님이 [Learning to Understand Our Multimodal World] 주제로 한시간 발표를 해주셨습니다.

LLaVA에 대해 설명을 우선 해주셨고, 위 그림이 LLaVA가 나온 이후에 등장한 논문들인데, LLaVA가 나온지 고작 10일만에 라바와 비교하는 논문도 나오고 아무튼 그 이후로 폭발적으로 논문이 쏟아져 나왔다고 합니다. 그래서 LLaVA의 후속편으로 나온 ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts에 대해서도 다뤄주셨는데, 이는 LLaVA의 경우 이미지 전체는 잘 이해하는데 특정 region 혹은 specific하게 유저가 이미지 부분을 화살표나 동그라미로 그려줬을 때 잘 이해할 수 있는가? 에 대한 연구로 나온 논문으로 좀 더 디테일한 정보에 대답할 수 있는 모델로 보면 되겠습니다. visual prompt로는 mask contour도 있구 elipse, bbox, triangle, point, arrow, mask 등이 있었습니다. 보여주신 재미있는 example을 같이 보자면,

잘 보이실 지 모르겠지만 흰색 스키복을 입은 사람을 중심으로 화살표가 좌상단으로 되어있는 경우와 우하단을 가리키는 경우에 대한 답변인데요, 보시면 화살표에 따라 가리키는 사람이 다름에도 이에 대한 답변을 잘 하는 것을 볼 수 있습니다. 이후에 또 Yo’LLaVA라고 하는 후속작도 냈다고 합니다. 이건 기존 LLaVa가 personalized한 정보는 갖고 있지 않은 점을 보완하고자 하는 논문이라고 하며, 예를 들어 너 사진에서 thao(사람이름)이 보여? 라고 했을 때 thao를 모르니까 대답할수 가 없는 기존 LLaVA를 이 정보까지 이해할 수 있도록 ? 한 모델이라고 합니다.

또, 마지막으로는 Matryosha Multimodal Models라는 논문을 냈다고 하며, 요즘은 이미지에서 extract되는 이미지 토큰 개수가 몇 백, 몇 천개가 될 수 있는데 이게 다 LLM에 들어가면 memory 타격을 받을 수 있다는 점을 해결하고자 하는 연구를 하는 중이라고 합니다. 좀 더 구체적으로는 간단한 영상은 visual token이 많이 필요 없다는 인사이트를 갖고 러시아 전통 인형인 마트료시카와 비슷한 형태로 어떤 한 영상이 주어졌을 때 어떤 하나의 visual token이 학습되는 것이 아니라 계층적으로 rank가 증가하는 식으로 모델을 학습해서 test time때 그에 적합한 sequence length를 고를 수 있는 그런 연구를 하고 계시다고 하네요.

Poster & Demo

포스터 세션은,, 항상 그렇겠지만 사람이 많이 몰려서 한 개의 포스터를 제대로 보기에 시간이 많이 걸렸던 것 같습니다. 위 포스터는 X-Review도 두번 작성되어 있는 D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection이었는데, 외국인 분이 한국어로 설명을 하고 있음에도 꽤나 발음이 좋아 잘 들을 수 있었습니다. 짧은 시간에 여러 분야의 논문들을 접할 수 있었으며 바로 궁금한 점을 질문하고 답변을 들을 수 있던 좋은 기회였습니다.

위에는 둘 째날 데모인데요, 인하대 RCV lab, 한양대 IRCV lab에서 수행한 연구로,, 도로 주행환경에서의 detection 관련 데모였습니다.

Industry

industry session에는 루닛, 델타엑스, 포스코, 삼성, 삼성전기가 참가를 했는데, 상대적으로 oral이나 keynote보다 가벼운 마음을 갖고 들었던 것 같습니다.

위 사진은 카메라를 전문으로 다루는 회사인(본회사피셜) 델타엑스 기업 부스의 데모인데요, real time air hand gesture recognition and 3d eye-tracking입니다. 사실 가까이 가서 뭔지 자세히 보지는 않앗구,, 슥 지나가다 찍어봤습니다. 기엽죠 ㅋㅋ
또, 루닛 부스에 상인님이 질문할게 있다고 해서 같이 갔는데, self-sup learning을 왜했냐는 질문이었던 것으로 기억합니다만 질문하자마자 표정이 급변하여 분위기가 살벌했던 기억이 나네욤 .

마지막으로 3일차에 들었던 패널 디스커션인데요, 주제는 컴퓨터비전 강국으로서 한국, 연구 커뮤니티의 역할과 방향이었습니다. 네 명의 패널들이 각자 이 주제에 대한 본인의 주장을 펼친 후, 이에 대한 반박이나 동의를 하는 식으로 구성이 되었으며 막바지에는 학생들의 질문에 대한 답변을 하는 시간이 있었습니다. 생각보다 1시간이 한참 초과될 정도로 질답 시간이 길었던 것 같습니다. 평소에 이런류 (뭐라칭해야할지는 모르겠지만)의 무언가를 .. 좋아하는 편이라 재미있게 들었는데 짧게 기억나는 것만 적어보자면, 처음 CVPR 학회에 참관할 때는 한국인이 거의 없었고 다 아는 얼굴들이었는데, 요즘은 걸어다니다 한국어가 들려 돌아보면 전부 초면일 정도로 비전하는 사람들이 많아졌다고 하셨으며 CVPR, ICCV같은 탑티어 학회에도 한국인들이 논문을 꽤 많이 내고 있지만 그 중에 일년이 지났을 때도 사람들이 많이 찾는 논문은 몇 되지 않는다. 후에는 탑티어 학회에 accept됐다는 것이 중요한 것이 아니라 정말 임팩트있는 논문을 썼는가가 더 중요한 지표가 될 것이다는 말씀이 기억에 남는 것 같습니다. 여담으로 디스커션 끝난 직후에는 체감상 첫날에 비해 사람이 1/10 정도일 정도로 사람들이 다 중간에 나갔었는데요, 이 패널 디스커션 후에 추첨을 통해 상품권을 준다고 하길래 잔뜩 기대를 하고 있었는데,, 제 이름은 불러주지 않아 너무 슬펐습니다. ㅋㅋ.

후기

이런 task가 있구나 생각이 들을 정도로 낯선 분야에 대한 발표도 들을 수도 있었으며, 많은 논문들의 oral, poster 발표를 통해 최신 연구 동향을 파악하는데 도움이 되었습니다. 학회장 안에서도 overleaf를 켜고 논문을 작성하시는 분도 계셨으며, vscode를 켜놓고 실험을 하다 원하는 결과가 나왔는지 옆사람을 툭툭쳐서 활짝 웃으시며 노트북 화면을 보여주던,, 어찌 보면 학회장까지 와서도 연구를 놓지 않는 사람들을 보면서 살짝 충격을 받았습니다. 학회 참관 기념으로 다시 열심히 달려보고자 하는 다짐을 하며,,

마지막으로 KCCV에 참석할 수 있는 기회를 마련해주신 교수님께 감사의 말씀 드리며 글 마치도록 하겠습니다.

Author: 정 윤서

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다