KCCV 2023 참관기

안녕하세요. 이번에는 KCCV 2023 참관기에 대해서 작성해보자 합니다.

<첫 느낌>

KCCV에 대해서 가장 첫번째 느낀 점은 KCCV가 이전에 제가 참가했던 학회와 다른 성향의 학회 였다는 것이었습니다. 이전에 제가 참가했던 학회는 Oral 섹션과 Poster 섹션이 공존하여서 놓치는 논문이 있을 수 밖에 없언던 구조였던 반면에 KCCV는 Oral 섹션 시간과 Poster 섹션 시간이 별도로 주어져서 오전 10시부터 오후 6시까지 풀집중하도록 구성되어 있었어서 생각보다 체력이 많이 필요했던 학회였던 것 같습니다. 물론 그만큼 놓치는 것 없이 들을 수 있어 굉장히 의미있는 시간이 아니었나 생각합니다.

<컴퓨터 비전에서 text와 sound를 어떻게 생각하고 다루는가>

위의 제목은 앞으로 있을 KCCV 세미나에서 생각한 발표 제목인데요. 이번 KCCV를 참관하게 되면서 가장 많이 느낀 점은 컴퓨터 비전이라는 분야에서 text와 sound를 어떻게 다루는 지였습니다. 특히나 제가 멀티모달을 연구하면서 더욱 관심을 가질 수 밖에 없었는데요. 운이 좋았던 것인지 아니면 확실히 multi-modal이라는 분야가 hot해서 인지 멀티모달 논문이 굉장히 굉장히 많았습니다. 정말 생각치도 못한 부분에서 text를 정말 많이 사용하는 논문들이 많았고 Oral 섹션에서는 최소 1개 이상의 멀티모달 논문이 있었으며 Poster 섹션에서도 text를 사용하지 않은 것 같은 제목의 논문에서도 text를 사용하는 등 멀티모달 논문이 정말 많았습니다. 덕분에 제 머리속에 있던 멀티 모달이라는 것에 대해서 생각 확장이 일어날 수 있었습니다.

sound 관련한 논문에서 대해서도 KCCV에서 확인할 수 있었는데요. image-text에 비해서는 단 2개정도 밖에 없었지만 논문의 저자들과 질의응답을 하는 소중한 시간을 가질 수 있었습니다.

제가 이번에 생각했을 때 KCCV에 나온 멀티모달 논문은 3가지로 분류할 수 있겠는데요.

image task에서 text 정보를 줌으로써 더욱 성능향상을 가져온 논문
애초에 image-text task인데 여러 방법을 사용하여 성능향상을 가져온 논문
image-text task에서 zero-shot을 지향하는 논문

이렇게 3가지로 분류할 수 있었습니다.

‘애초에 image에 text 준 것이면 image-text task 아냐?’라고 생각할 수 있는데요. 일부러 따로 분류하여 작성한 이유는 원래 image만 사용한 task에서 image-text로 확장되어 사용되었기 때문입니다. KCCV 2023에서는 1번에 해당하는 논문이 굉장히 많았는데요. 이미지 생성하는 모델은 거의 text 정보를 주는 경우가 많았고 3D 아바타를 제작하거나 하는 경우에도 text를 주는 등 생성 모델에서 유독 text를 많이 사용하는 모습을 확인할 수 있었는데요. 이 이유에 대해서 곰곰히 생각해보니 CLIP 논문 때문이 아닐까 생각합니다.위에서 제가 말한 분류에 논문들은 정말 대부분이 CLIP 모델을 사용하여 text 정보를 주는 식으로 사용하였는데요. CLIP이라는 멀티모달 모델이 등장하면서 이렇게 많은 사람들이 멀티모달 분야로 뛰어든 것은 아닌가 생각할 정도였습니다.

3번째 zero-shot은 요즘 워낙 image-text 논문들이 많이 나오니 더 부각이 된 면이 없지않아 있다고 생각하는데요. 실제로 제가 멀티모달 연구하는 사람과 small talk을 나룰 수 있는 기회가 있었는데, 그 분들이 image-text 멀티모달은 정말 너무 hot해서 이제는 노다지 땅이 zero-shot 밖에 남지 않은 것 같다. 나도 앞으로 이 분야에 대해서 연구하고 논문 쓸 것 같다 라는 말을 한 것을 다른 사람들도 동의한 것을 보니 제 생각이 맞지 않나 생각합니다.

<굉장히 소중한 기회>

이번에 KCCV를 다녀오면서 나는 너무나도 소중한 기회를 얻었구나 생각했습니다. 무려 CVPR, ECCV 등의 유명 conference에 accept된 논문의 저자들과 직접! 한국어로! 소통할 기회는 정말 상상치도 못했거든요. 그래서 더욱 의미있었던 시간이 아니었나 생각합니다. 또한 아주 많은 논문에 사용되었던 CLIP의 저자인 김종욱님의 talk를 들을 수 있는 기회는 이러한 시간이 있었다는 것만으로도 동기부여가 되었던 시간이 아니었나 생각합니다.

<소소한 Tip…?>

사실 아는 사람은 다 아실 소소한 Tip을 마지막으로 작성해보고자 하는데요. 저는 학회를 가면 친구를 사귀고 싶다는 엄청난 충동에 휩싸이는 그런 사람인데요. 친구를 사귀고 의사소통을 해보니 보통 이런 학회 같은데 가서 연락처를 교환한다면 보통 링크드인 아이디를 교환한다고 합니다. 그래서 그 즉시 링크드인을 가입했는데요. 여러분들도 학회 가실 기회가 있다면 미리 링크드인 가입을 해둔 상태에서 가시는 것이 어떤가 생각합니다.

<정리>

멀티 모달 논문이 굉장히 많았다
비디오 분야 논문이 생각보다 별로 없어 의아했다. 자율주행 관련된 논문도 별로 없었음. 3d object 논문 관련하여 생각보다 많았음
기존의 학회와는 다른 성향의 학회였던 것 같음
cvpr, eccv 논문 저자와 직접 소통하는 일은 굉장히 짜릿하였음 (공통적으로 운이 좋다고 하시더라…)
굉장히 운이 좋았다고 생각하는 부분은 김종욱님과 시간을 보낼 수 있었던 부분이었음. <주제 : Beyond the standard benchmarks: on the importance of robust models and where to find them>
다른 분야의 사람들과 소통하는 것은 언제나 좋은 경험이었음. (Tip, linkedin)

<첫 느낌>

<컴퓨터 비전에서 text와 sound를 어떻게 생각하고 다루는가>

<굉장히 소중한 기회>

<소소한 Tip…?>

<정리>

Author: 김 주연

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment