KCCV 2024 (24.08.12(월) ~ 14(수), 부산 BEXCO)
예기치 못한 희진님의 KCCV불참으로 인해 좋은 기회를 이어받아 대신 KCCV2024를 참관하고 오게 되었습니다. 출발 3일 전 급하게 참관 가능 소식을 전달받아 승현님께 KCCV에 대한 간단한 설명을 전해 듣고, 주말 간 부랴부랴 짐을 싸고 KCCV 안내책자를 훑어봤던 것 같습니다. 해외 탑티어 컨퍼런스들에 accept된 걸출한 논문을 들고 오는 다양한 저자분들을 보고, 태스크의 설명을 직접 듣고, 질의응답을 할 수 있는 기회가 주어진다는 것 자체가 너무 설레고 긴장되었습니다. 더구나 처음 가는 학회기도 하고 저희 연구실 선배분들과 다 함께 가서 더 그랬던 것 같습니다.
<학회장에서 살펴볼 수 있었던 올해의 연구 키워드들>
[Generative model]
Diffusion을 활용한 something, Diffusion의 latent space 자체에 대한 이해, deepfake detection 등
[prompt]
prompt 형식의 input을 이용한 something (prompt 엔지니어링에 대한 연구 자체는 없었습니다.)
[annotation efficiency 연구]
Label-efficient Scene Representation
label efficient Segmentation
Storage efficient vision training
[supervision 방식]
WSSS(Weakly supervised semantic segmentation)
Unsupervised Object Localization
[멀티 모달]
Open-vocabulary semantic segmentation
[knowledge distillation]
3D segmentation with 2d knowledge
Continual Learning
Incremental Learning
Knowledge Distillation 등의 어떤 지식 전가 모듈/네트워크 활용 -> 모델의 표현력 및 성능 향상
[Network Calibration]
ACLS, RankMixUp 등
[3D]
3D Gaussian Representation
3D scene reconstruction
3D multi-person pose estimation
NeRF
[센서 데이터, 3D point 등 데이터 활용 연구]
LiDAR
RADAR
3D point 활용 something
Depth estimation
[Video]
Video understanding
Video Action Recognition
[Depth estimation]
[Contrastive Learning]
[Active Learning]
[카메라 기하학이나 ISP에 관한 low level 연구] 등등
저희 로보틱스 팀의 grasping 과제에 대해 align이 맞는 embodied 및 로봇에 관한 연구는 많이 없었던 것 같아서 조금 아쉽기도 한데요.(사실 로봇학회가 아니고 컴퓨터비전 전반을 다루는 학회라 그런 것 같습니다.) 이렇게 적고 보니 정말 많네요. 해당 모든 분야에 대해 이해는 다 못했지만 키워드들만이라도 남기고 가고자 하는 맘에 메모해놨던 것을 그대로 가져와봤습니다😓. 발전과 분화가 너무도 빠른 CV분야에 대해 경외감이 드는데,, 당분간은 제가 제 연구 유관 분야라도 잘 따라갈 수 있길 바래봅니다.
<여러 session에서의 발표에 관하여..>
발표는 oral, keynote, poster, doctoral colloquium, industry 등의 다양한 session들이 있었습니다. 우선 발표자분들이 모두 국내외 유명 대학의 교수님들, 해외 초빙 교수님, 탑컨퍼런스 논문 저자들, 산업계의 거장 기업의 대표자들이셨기 때문에 발표 퀄리티가 정말 압도적이었습니다. 제가 그 동안 경험해본 발표들은 정말 발표도 아니었구나 생각도 들면서, 저렇게 깔끔하고 논리정연하게 정돈된 발표들을 쉴 틈없이 연속으로 보고 있자니 마치 오마카세에서 초밥장인이 정성스레 잘 말아주신 맛들어진 초밥 한 점 한 점들이 저의 테이블 앞에 수차례 놓여지는 기분이 들었습니다. 물론 저는 그 초밥들을 몇 점 먹어보고는 어떤 초밥은 ‘와 진짜 흥미롭고 맛있다 이런 맛도 있구나’라고 생각하거나, 어떤 초밥은 ‘아 배불러서 도저히 못 먹겠다’ 생각이 들었죠.
아직 연구실에 입실한지 6개월 쯔음 밖에 되지 않았지만 그래도 웬만한 내용들은 차분히 들어보면 이해가 가겠지? 라고 생각했던 제 자신이 오만했습니다. 낯선 분야와 용어들이 연속으로 나오다 보니 경청을 하다가도 어느 한 부분에서 놓치면 이내 전체가 정리가 되지 않곤 했습니다. 사실 아예 이해 자체가 되지 않던 내용도 있었죠. 그래도 저희 연구실에서 주로 접하는 연구 분야 이외에도 컴퓨터 비전이라는 큰 범주 안에는 제가 생각했던 것보다 훨씬 더 많은 연구 태스크들이 분포해 있다는 걸 알게 되었습니다. 더구나 발표들은 단지 논문의 방법론을 설명하는 발표에 그치지 않고, 어떤 한 문제에 대해 문제정의 과정, 현재와 과거의 접근 방식은 어때왔고, 문제 정의에 대한 해결을 위해 접근한 생각 등을 위주로 20분이라는 시간 동안 핵심만 명료하고 가득히 담긴 내용인지라, 연구의 흐름은 이렇게 가져가야 하는구나도 잘 느끼게 된 것 같습니다.
그리고 대부분의 발표들을 내용을 놓칠세라 주로 노트북으로 타이핑을 치면서 이해하고 있었는데요. 사실 대부분의 슬라이드 자료가 청중이 내용을 직관적으로 이해하기 쉽게 큼지막한 시각자료가 많았고 글이 적었습니다. 이 때문인지 저는 발표자가 말을 하는 것에 집중해 타이핑에 치중하다보니 슬라이드 자체에서 순간순간 놓치는 부분도 생겨 이해를 못한 내용도 많았습니다.(슬라이드 위주로만 보면 이해가 쉽도록 구성해주셨을텐데 말이죠.) 특히 영어 발표의 경우엔 더욱 그랬구요.(단어만 귀에 잘 들어오고, 문장 단위의 말씀은 해석은 잘 안되더군요. 대충 눈치로만 흐름을 이해했던 것 같습니다…) 근본적으로 태스크에 대한 이해와 영어 실력이 좋아져야만 해결될거라 생각이 들기도 하지만, 처음 보는 분야에 대해 전체 흐름을 이해해보기 위해선 차분히 슬라이드만 따라가 볼 걸 이라는 생각도 들었습니다.
다음에 학회에 참석할 기회가 또 주어진다면 이런 부분에 대해 미리 생각하고 발표 논문에 대한 주제와 큰 흐름이라도 명확히 이해하고, 영어 실력을 좀 쌓아가서 계획적으로 청취를 해야겠다는 생각이 듭니다.
<Poster session에 관하여..>
Poster 발표라는 것을 살면서 처음 겪어봤습니다. 사람들이 학회장 복도에 놓여진 Poster들 앞에 우르르 모여있고, 그 앞에서는 저자들이 사람들에게 열심히 질의응답을 받아가며 설명하고 있는 모습이 보였습니다. 어딜 먼저 봐야할 지 허둥지둥 하고 있느라 주로 건화님, 윤서님, 상인님 이 있는 poster를 졸졸 따라다니며 옆에서 같이 듣고 이해하는 정도로 그쳤던 것 같습니다. 사실 이해가 100%되는 설명들은 없어서 질문을 정말 해보고 싶었지만 무언가 머릿 속에서 질문거리가 완벽히 문장으로 정리되지 않아서 횡설수설할까봐 질문을 많이 못 해봤습니다. 그저 “전체적인 태스크 한 번만 설명해주세요.” 라던지, “제가 이렇게 이해했는데 맞나요?” 등의 단순한 질문만 해봤던 것 같습니다. 사실 이런 질문들도 어떤 포스터를 가던 이미 다른 사람들에게 설명을 해주고 있기 때문에 그냥 가서 옆이나 뒤에 같이 서서 들으면 됐었죠. 오히려 다른 분들이 섬세하고 깊게 질문하는 내용들을 옆에서 같이 듣는 것만으로도 저에겐 더 도움이 되었던 것 같습니다.
그런 와중에 제가 딱 한 번 저자에게 좀 자세하게 제 질문을 던져본 적이 있습니다. 저자의 성함이 도딘팟. 외국분이시라 서툰 한국말로 열정적으로 설명하시는 게 인상깊기도 했고, KCCV 참석 전날에 X-review 댓글을 달면서 본 의철님이 review하신 논문이었기 때문에 이해가 잘 되어있던 상태라 질문을 시도했던 것 같습니다. 주제는 RGB-Thermal 간 Unsupervised domain adaptation 쪽이었는데, 역시 저희 연구실이 multi-spectral 주제를 urp때부터 접했던 탓에 fusion에 관한 질문을 바로 해보았습니다. target domain 과 source domain간의 teacher모델로부터 얻은 pseudo-label을 student 모델의 supervision으로 zigzag 방식으로 학습하는 것이었는데, 이 때 fusion된 feature를 pseudo-label로써 supervision을 줘보면 단일 domain으로부터의 pseudo-label과 비교했을 때 어떻게 되는지 실험을 해보셨는지 여쭤봤었습니다. 도딘팟씨는 아직 실험 중에 있어서 어떻게 될지는 잘 모르겠으나, 결과가 좋으면 추후 해당 내용을 보강한 논문을 내보고 싶다고 언급하셨습니다. 개인적으론 긍정적이라고 생각하시는 것 같았습니다. 사실 저는 정말 순수하게 fusion된 특징을 가진 pseudo-label이 domain adaptation을 위한 supervision으로써 잘 작동을 할까? 가 메인 궁금증이었는데 질문을 조금 엇나가게 한 것 같아 제가 원하는 답변을 듣지 못해 조금 아쉬웠습니다.
이런저런 상황들을 통틀어봤을 때 다음에 학회에 참여했을 때는 poster 질의응답에서 섬세한 질문을 가져가서 생각보다 많은 것을 얻어가야겠단 생각이 들었습니다.
<패널 discussion>
마지막날에는 패널 discussion이라고 해서 국내 연사 5분께서 번갈아가며 자유주제에 대해 토의하고 의견을 나누시는 session이었습니다. 주제는 한국 컴퓨터비전과 그 연구 및 연구 커뮤니티의 역할과 방향에 대한 것이었는데, 좌장이신 조민수 교수님(맨 좌측)께서 생각보다 더 열리고 방향으로 논의를 이끌어주셔서 다른 교수님들께서도 다양한 의견들을 많이 공유해주신 것 같았습니다. 주로 기억에 남는 내용들은 다음과 같습니다.
[academia와 industry의 간극, 각각이 어떤 역할을 하고 있는가]
academia(즉 학계)는 CV관련 어떤 현상과 기술에 대한 understanding이 목적이다. 이게 industry와의 가장 큰 차이점/특이점이다.
이미 Foundation Model들은 industry와 비교했을 때 academia에서 요즘은 손을 써볼 수 없을 정도로 자원과 환경이 많이 차이 난다. academia에서는 이런 fm을 활용한 something 연구나 understanding에 더 집중한 fine한 연구를 하면 될 것 같다.
[추후 학계로 갈지, 산업계로 갈지 진로를 고민하는 연구자들에게 이 gap은 어떻게 받아들여져야 되나?]
[academia가 inudstry에 비해 힘을 못 쓰기도 하는 이 상황을 타파할 방법은?]
한국 CV 커뮤니티의 경우, 각 랩실들끼리 공동 연구를 보통 큰 단위로는 진행중이지 않다. 이건 특히 미국과 비교했을 때 한국 랩실의 성향 자체에도 그 이유가 있다. 한국 랩실은 당장의 같은 학교 바로 옆 동의 랩실만해도 서로 데면데면하거나 모르는 경우가 많다. 그에 반해 미국의 경우에는 연구실 전체 건물의 연구원들끼리 특정한 주기로 서로 교류하는 시간이 있다. 지금 수준이면 한국도 과거에 비해 상당히 커뮤니티가 발전한 것이 맞지만 이렇게 열린 마인드로 교류를 더 늘려나가야한다고 생각한다. 그런 의미에서 각 학교 및 연구집단 간 연합 연구를 좀 더 크게 만들어보는 건 어떤 가 하는 개인적인 의견들을 내놓으셨다.
<체력에 관하여..>
학회는 생각보다 많은 체력을 요하는 행사인 것 같습니다. 물론 첫 날에는 새벽 6시 기차를 타기 위해 긴장해서 밤을 새버린 것 때문도 있었겠지만, 첫날에 저희 연구실과 fit이 맞는 여러 태스크들이 oral에서 많이 발표되었던 것 같은데 집중력이 상당히 흐트러져서 많은 내용을 놓쳤던 것 같습니다. 행사장 내에서 참관객을 위해 조그만 간식과 커피,음료 등을 제공해주시긴 했지만 커피를 5잔을 넘게 마셔도 졸음이 쏟아졌습니다. 다행히 2,3일 째에는 미리 숙면을 취하고 학회장에 가서 졸지 않고 온전히 집중을 시도할 수 있었습니다만,, 애초에 학회에 가기 위해선 일주일 전 쯤부터 생활리듬도 맞춰두고 잠도 푹 자서 맑고 건강한 정신으로 가는 게 좋을 것 같다고 생각이 들었습니다.
마지막으로 좋은 기회를 제공해주신 최유경 교수님, 급한 인원 변경 속에서도 도움 주신 화원님, 학회기간 동안 잘 챙겨주신 선배님들 감사드립니다.