ACM MM ’24 학회 참관기

안녕하세요, 오늘은 논문 리뷰 대신 저번 주 다녀온 ACM Multimedia 학회 후기를 작성해보려 합니다.

학회는 호주에 있는 멜버른에서 10.28-11.1 총 5일간(월-금) 개최되었으며, 월요일과 금요일에는 워크샵, 화요일부터 목요일에는 Oral session 및 포스터 발표 등이 진행되었습니다. 사실 월요일과 금요일엔 워크샵이라곤 하지만 ACM이라는 기관 관련 시상식이나 Challenge가 더 주를 이루어 후기는 화-목 간 경험한 내용을 주로 작성해보겠습니다.

<ACM Multimedia 학회 소개>

우선 학회가 어떻게 진행되는지 잘 모르는 분도 계실 것 같아, 이번에 제가 다녀온 ACM MM 학회에 대해 간단히 소개해드리도록 하겠습니다.

인천공항을 떠나 대략 13시간의 비행을 한 후 멜버른에 도착할 수 있었습니다. 다행히 우리나라와 멜버른은 위아래로만 멀기 시차가 2시간밖에 되지 않아 적응하는 데에는 큰 무리가 없었습니다. 호주는 이제 여름으로 접어드는 시기라 서머타임이 적용되어 2시간의 시차를 갖는데, 원래는 1시간밖에 나지 않는다고 하네요. 아무튼 숙소 주변 지리를 익히며 학회장에 도착할 수 있었고, 등록 후에는 위 사진에 보이는 민트색 노트와 제 명찰을 받을 수 있었습니다.

오전 9시에 예정되어있는 개회식에 참석하기 위해 메인 홀에 자리를 잡았는데, 사진에서 보시다시피 참석자가 그리 많지 않았습니다. 제 옆, 뒤로 종종 사람들이 앉아있었지만, 한국에서 참석했던 KCCV나 올해 초 참석했던 AAAI보다는 훨씬 적은 수의 연구자들이 모여있었습니다. 후에 개회식이 시작되고, 학회 chair 중 한 분이 이런저런 통계량을 보여주셨는데 등록자가 총 1,757명이었다고 합니다. 그에 비해 눈으로 확인할 수 있는 참석자 수는 꽤 적었는데, 근택님 말로는 시스템 상 등록을 반드시 해야 저자로서 인정되기 때문에 등록만 하고 참석하지 못한 인원들이 생각보다 많을 것이라고 하네요. 물론 또 등록자 모두가 개회식에 참석하진 않겠죠. 아무튼 꽤나 쌀쌀하게 시작한 첫 학회 일정이었습니다.

참석자 통계량을 보았을 때 중국이 70% 이상을 차지하였습니다. 호주에서 열린다는 점 때문에 이러한 통계량이 나온 것인지 생각해보았는데, 그런 다른 이유는 아닌 것 같고 실제로 중국이라는 나라에 굉장히 많은 연구 인력이 있다고 보는 것이 가장 적합할 것 같습니다. 학회 참석 기간 중 다른 중국인들이 여러 번 저에게 말 걸어주신 적이 있는데, 90% 확률로 중국어로 말을 걸어오셨습니다. 제가 중국인 같이 생겨서일 수도 있겠지만 이 70%라는 어마어마한 통계량을 계속 되뇌이며 속으로 그런 이유는 아니었길 바랐습니다..

이외에도 여러 통계량을 보여주셨는데 확실히 어느 학회든 해가 갈수록 더 많은 논문들이 제출되고 있는 것 같습니다. 사실인진 확실치 으나 이번 NeurIPS 학회에 만 편 이상의 논문이 제출되어 그 당시 심사를 기다리고있었다는 소문도 들었었던 것 같네요. 그에 맞게 MM 학회도 제출된 논문 수가 해가 감에 따라 가파르게 오르고 있었습니다. 컴퓨터 비전 연구자들이 해를 거듭하며 굉장히 많은 연구자들이 등장하고 있음을 이번에도 느낄 수 있었습니다. 이어서 연도별 학회 논문 Acceptance rate도 설명해주셨는데 올해는 26.2%였습니다. 근 10년 간의 rate를 보니 낮으면 19%, 높으면 29.3% 정도로 올해는 평년 수준이라고 볼 수 있었습니다.

좀 흥미로운 통계량도 보여주셨는데, 위 그래프는 Paper ID에 따른 accept rate입니다. Paper ID는 학회 제출 가능 기간 중 선착순으로 1번부터 부여되는 것으로 알고있는데요, 신기하게 빠르게 제출할 수록 높은 rate를 보이는 것을 볼 수 있습니다. 아마 초반에 제출해버린 논문은 대부분 이전에 다른 학회나 저널에 제출하여 여러 리뷰를 받고 보강을 거친 뒤, MM에 털어버리고자 하는 경향이 있을 것으로 예상되는데, 초반 300번 까지는 평균 26.2%에 비해 10%나 높은 acceptance rate를 보여주는 점이 신기했습니다. 제출 기간 끄트머리까지 수정은 여러 번 했겠지만, 더 볼 것도 없이 완성되었다 판단하고 초반부터 내버리는 자신감이 부럽습니다. 저희는 4545번이었는데 비슷한 번호 대의 논문 accept rate가 좋지 않네요. 학회 전반에 대한 설명은 이렇게 마치도록 하겠습니다.

<Oral & 포스터 세션>

이렇게 개회식을 아침에 마치고 나면, 이제부터는 Oral 세션이 병렬적으로 진행됩니다. 여러 세미나실에서 각 주제에 맞게 엮인 논문들의 저자가 와 대략 15분 정도의 논문 소개를 하며, 짧은 질의응답 시간도 갖게 됩니다. 저는 공개돼있던 스케줄표를 기준으로 관심있는, 즉 듣고자 하는 주제를 미리 정해 그 곳에서 쭉 발표를 들었습니다. 마찬가지로 발표를 해주시는 분들이 전부 중국 석, 박사 분들이었는데 사실 Oral 세션에서는 발표를 듣느라 사진을 하나도 찍지 못했습니다.

이게 모든 중국인 분들이 그런 것은 아니지만, 영어로 발표를 하실 때 단어의 발음을 굉장히 많이 흘리거나 변형하십니다. 어떤 단어의 끝음은 아예 발음하지 않거나 다른 소리를 많이 내셨는데, 이게 슬라이드에 있는 문장을 읽을 땐 제가 어느정도 대조해가면서 이해할 수 있었지만 그렇지 않은 경우 바로바로 이해하기가 좀 힘들어서 정신이 없었습니다. 근데 이에 대해 그런 발음 탓을 할 수가 없는 것이, 같은 발표를 들은 서양인 분들은 잘 이해하시고 질문을 많이 하시더라고요. 그래서 발표자의 문제가 아니라 제 영어 실력의 문제임을 알 수 있었습니다.. 결국 발표를 듣는 동안 저는 해당 논문의 내용을 완전히 따라가려 하기보단, 제 연구에 붙일 수 있을만한 내용은 무엇이 있는지를 포인트삼아 노트를 적곤 했습니다.

이후 Oral 세션은 오후 3시까지 이어졌고, 4시부터는 포스터 세션이 시작됩니다. 포스터 세션은 대략 위 사진과 같은 느낌이었습니다. 포스터 세션만을 위해 별도의 룸이 존재했던 것은 아니고, 컨벤션 센터 복도에 이렇게 칸막이를 설치하고 구역을 나눠 각 발표가 진행되었습니다. Oral 세션과 마찬가지로 저는 미리 날짜별로 관심 있는 포스터들을 짚어두었고, 방문하여 저자에게 설명을 듣기도하고, 질문을 던지기도 했습니다. 이와 같이 하루에 키노트-Oral-포스터 순서로 3일간 반복되게 됩니다.

그런데 첫 날 부터 느낄 수 있었던 것이, 제가 짚어둔 논문 포스터를 방문하면 50% 확률로 저자가 없었습니다. 심지어는 포스터 자체가 안붙어있는 논문도 꽤 있었습니다. 이 확률은 날이 갈수록 줄어들었는데요, 그러다보니 관심 있던 논문의 포스터는 눈으로만 얼추 보고 저자가 있는 포스터에 가서 잘 모르는 연구더라도 이것저것 대화를 나누는 형식으로 포스터 세션을 진행했습니다. 아래에서는 제가 포스터에 찾아가 무엇을 했는지 두 가지만 추려 적어보도록 하겠습니다.

포스터 #1: <Saliency-Guided Fine-Grained Temporal Mask Learning for Few-Shot Action Recognition>

위 포스터는 비디오 분야의 Action Recognition task를 수행하는데요, 이는 이미지의 이미지 분류와 동일한 개념입니다. 비디오를 보고 어떤 action인지 분류하는 task인 것입니다. 제목의 “Saliency-Guided”라는 키워드가 제가 하고자 하는 연구와 유사하여 도움을 받고자 저자를 찾아갔는데, 중국 저자분께서 처음에 자신이 영어를 하지 못한다고 영어 할 수 있는 2저자를 불러주신다고 했습니다. 잠깐 기다리니 다른 분이 오셔서 논문에 대한 설명을 듣고 질의를 할 수 있었습니다.

우선 설명을 들어보았을 때 Temporal Action Localization, 즉 비디오 내 action 구간을 찾아주는 기존의 학습된 모델을 가져와 비디오의 action에 대한 saliency score를 추출하게 됩니다. 이후 해당 score를 기준으로 thresholding하여 일부 구간을 만들어주고, 그 부분을 masking한 뒤 reconstruction하는 식으로 feature representation을 학습하는 논문이었습니다. 그렇게 하면 Action recognition 과정에서 실제로 필요한 action 구간을 찾기 위해 주변 단서들을 잘 참고할 수 있게 될 것입니다.

사실 다른 Action Localization 모델을 그대로 가져와 score를 뽑는다는 점, Masked modeling을 한다는 점에서 크게 신기한 부분은 없었으나 다만 제가 궁금했던 것은 왜 이 방법론으로 Few-shot 평가를 진행했는가였습니다. 그러니까 “Few-shot Action Recognition은 일반 Action Recognition에 비해 이러이러한 어려운 점이 있는데, 우리 모델은 어떻게 동작하기 때문에 그러한 어려운 점을 극복할 수 있게 만들어준다”와 같은 답변을 기대하였으나 저자들은 이전부터 Few-shot 기반 연구 해왔고 이 모델이 그냥 Action recognition이 아니라 Few-shot 환경에서 잘 동작하는 이유는 딱히 모르겠다고 얘기해줬습니다.

사실 이 포스터 뿐만 아니라 여러 포스터를 돌아다니며 이게 왜 성능을 올려주는지, 어쩌다 이러한 방식으로 접근하였는지에 대해 여러 차례 물어봤는데 “딱히 이유라기보단 다른 논문들도 그렇게 하니까 따라했다” 또는 “큰 이유는 없고 한 번 해봤는데 잘 됐다”는 답변을 많이 들을 수 있어 개인적으로 조금 아쉬웠습니다.

포스터 #2: <Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning>

두 번째로 기록해볼만한 포스터는 위 사진과 같습니다. 마찬가지로 중국인 저자분이시며 Oral로 채택된 논문이었습니다. 멀티모달 기반의 감정인식을 수행할 때, 보통 Text, Audio, Image, 총 3가지 모달리를 사용하는데 저자의 분석 결과 기존 모델은 심각한 modality imbalance 상황, 즉 셋 중 하나의 모달리티만 들어왔을 때 전혀 대응하고있지 못하다고 합니다. Modality imbalance 상황은 Real-world 상황을 고려했을 때 굉장히 빈번하게 발생할 수 있기에, 이러한 상황에 잘 대처할 수 있는 모델이 필요하다는 것이 이 포스터의 문제 정의에 해당합니다.

저자는 심각한 imbalance 상황에 대응하고자 각 모달리티의 expert를 두었으며 이러한 expert의 집합을 MoMKE(Mixture of Modality Knowledge Experts)라고 칭합니다. 이 방법론은 2-stage로 구성되는데 첫 번째 stage에선 데이터셋의 각 모달만을 활용해 각 모달의 expert를 사전학습합니다. 하나의 expert는 자기가 담당하는 하나의 모달만 보는 것이죠.

이렇게 각 expert가 특정 모달리티의 특성을 어느정도 파악하였다면, 두 번째 stage에선 본격적으로 감정 인식을 수행합니다. 이 때 한 샘플에 대해 3가지 모달리티가 모두 들어오면(학습 중 modality imbalance 상황은 발생하지 않는다고 가정합니다.), 모달 A의 경우 전문가 A만을 활용해 분류할 feature를 만드는 것이 아닙니다. 모달 A의 입력에 대해 Routing 함수를 거쳐 각 전문가들 간 얼마의 비율로 feature를 aggregate할지 정해주게 됩니다. Routing 함수가 모달 A 입력에 대해 [0.8, 0.1, 0.1]의 출력을 내뱉었다면 각 모달의 전문가 A, B, C의 feature에 [0.8, 0.1, 0.1]을 각각 곱하여 최종 feature로 사용한다는 것입니다.

저는 이러한 설명을 들은 뒤, 각 모달리티의 백본도 모두 다른데, 입력된 모달 A의 feature로부터 전문가 B, C가 무엇을 보길 바라는 것인지, 혹시 정성적으로 attention이라도 시각화 된 결과가 있는지 질문하였습니다. 그러나 저자분께서는 앞선 포스터와 마찬가지로 다른 멀티모달 방법론들도 cross-modal layer를 많이 쓰고, 딱히 시각화해서 본 적은 없다라고 말씀해주셔서 동작 과정이 완전히 납득되진 않았습니다.

<후기>

후기를 작성한 후 다시 읽어보니, 여러가지 아쉬움만 적은 것 같습니다. 실제로 많지 않은 저의 미약한 경험에 따르면 그래도 이전엔 사람들이 더욱 적극적이었는데, 아무래도 그에 미치진 못했다보니 괜히 아쉬움이 남았던 것 같습니다. 그럼에도 당연히 다른 연구자들과 여러가지 토론하고 네트워킹을 하며 즐거운 시간을 보낼 수 있었습니다. 특히 대부분이었던 중국인 저자분들은 굉장히 유쾌하시고, 언어의 장벽은 있었지만 서로 번역기 돌려가면서까지 세세한 질의응답을 진행했던 것이 정말 재미있었습니다.

여담으로 제가 연구하는 분야와 일치하는 한국인 저자가 두 분이나 계셨고, 그 중 한 분은 올해 겨울 밴쿠버 AAAI에서도 뵀던 분이라 굉장히 반가웠습니다. 그 분들의 포스터에 방문하여 설명도 듣고 실제 코드 레벨에서의 깊은 질문이나 어떤 생각으로 이 연구를 시작하셨는지, 연구실 생활은 어떤지 등등 대화를 나눠봤습니다. 확실히 박사 과정들이시라 다방면에서 연륜을 느낄 수 있었고, 석사 과정인데 그 정도면 잘 하시는 것 같다는 말이 막막했던 제 마음을 달래주는 한마디였던 것 같습니다. 그런 정서적인 측면에서 도움 받으리라곤 생각치 못하고 있었는데, 덕분에 더욱 열심히 연구할 수 있는 마음의 원동력이 된 것 같습니다.

항상 후기에 적는 것 같지만, 영어는 기본적으로 참 잘해야 하는 것 같습니다. 중국인 분들은 발음을 조금 흘리는 경향이 있어 이해하기 어려웠고, 서양인 분들은 영어가 너무 빨리 이해하기 어려웠습니다. 제가 포스터에 찾아갔을 때 중국인 저자분들이 스스로 영어를 잘 못한다고 이해해달라 말씀하셨지만 막상 대화해보면 제가 더 못하는 경우가 많았던 것 같습니다..

다음 번에 학회에 또 참석할 기회가 생긴다면, 이번에 제가 타 연구자분들께 도움 받았던 만큼 저도 여러 측면에서 다른 분들에게 도움이 될 수 있는 사람이 되고싶습니다. 마지막으로 이렇게 좋은 연수 기회를 주신 교수님과 논문 작업 과정에서 많은 고생한 임근택 연구원에게 감사의 말씀을 드립니다.

더 많은 포스터 방문 내용이나 키노트 세션 관련해서는 추후 세미나를 한다면 더욱 자세히 말씀드리도록 하고, 이상으로 후기를 마치겠습니다.

<ACM Multimedia 학회 소개>

<Oral & 포스터 세션>

포스터 #1: <Saliency-Guided Fine-Grained Temporal Mask Learning for Few-Shot Action Recognition>

포스터 #2: <Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning>

<후기>

Author: 김 현우

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment