2022년 7월 정도에 시작 됐던 연구가 드디어 AAAI 2024에 개제를 승인받았습니다. 그 이전에도 IEEE Access에 두 번 accept을 받은 적이 있지만, 인공지능분야 탑 티어 학회는 그 감동이 배가 되어 전달되더군요. 그래서 2월 19일부터 25일까지 AAAI 2024 참관을 위해 캐나다 밴쿠버에 다녀왔습니다. 보내주신 교수님 그리고 수고해 주신 화원님 감사합니다.
밴쿠버 방문이 단순한 관광 목적이었다면 정말 기대되고 설렜을 거 같지만 포스터 발표를 해야 한다는 사실에 발표가 끝나기 전까지는 계속 마음속으로 긴장을 했던 거 같습니다. 금요일 발표가 끝나고 나니깐 정말 마음이 편해졌습니다.
참 적당한 시기에 잘 다녀왔다는 생각이 듭니다. 자극도 많이 받고 왔고 저 스스로의 고민도 다양한 사람들과 함께 얘기하다 보니 정리가 된 부분도 있었고요.
우선 학회 얘기를 본격적으로 하기 전에 그래도 살면서 영미권에 처음 가봤는데 소소한 여행기 작성해 보고 학회 참관기 적어보도록 하겠습니다.
살기 좋은(?) 밴쿠버
저희가 공항에 도착하고 2일 정도는 여유가 있어 각자 재밌는 시간들을 보내기로 계획했었습니다. 첫날에 숙소에 도착하고 오후 4시 정도가 됐는데 날씨가 조금 꾸리꾸리 했지만 시간을 그냥 보내기에는 아까워서 근처에 있는 공원(Stanley Park)에 다녀왔습니다. 공원이 워낙 넓어서 다 구경하려면 2시간은 걸리는데 저희가 첫날에 체력이 많지 않아 근처만 둘러보고 왔습니다. 나무가 정말 높게 솟아 있었는데 세월에서 느껴지는 고상한 기운이 있었습니다.

두 번째 날에는 저는 스키장을 다녀왔습니다. 세계 3대 스키 명소 중 하나인 캐나다에 왔는데 스키장을 도저히 안 갈 수가 없어서 저 혼자라도 다녀왔습니다. 그런데 사실 밴쿠버가 겨울에는 우기라서 계속 비가 내리는 날씨였습니다. 그래서 그런지 슬로프도 15개 중 3개만 개장을 했었습니다. 그나마 개장한 슬로프도 왕초급, 초급 수준이라 오래 타지 않고 그냥 기분만 조금 내다가 숙소로 돌아왔습니다. 개인적으로 스키장은 기대를 많이 해서 그런가 실망도 조금 컸습니다.
전반적으로 음식들은 맛은 있었는데 이게 자극적인 맛의 연속이다 보니 먹다가 저는 조금 물리는 감이 있었습니다. 같이 간 사람들은 잘만 먹었는데 저는 유독 한국 음식이 너무 그리워서 숙소에서 오동통면을 끓여 먹었습니다. 이게 제일 맛있더라고요. 그리고 물가가 한국에 비해서는 확실히 비싸긴 했습니다. 한 끼 먹는데 기본적으로 2~3만 원 정도는 들었던 거 같네요.

그리고 저는 현우 님이랑 아웃렛에 다녀왔는데 제가 사고 싶던 브랜드의 셔츠가 한국에 비해 6만 원 정도 저렴하더라고요. 너무 저렴한 나머지 재킷까지 사버렸습니다.. 쇼핑을 하면서는 조금 곤란한 상황도 있었는데 직원분들이 계속 말을 걸어주셔서 어쩔 수 없이 영어로 스몰토크를 했어야 했습니다. 옷을 갈아입고 있는데도 How is it going? 이렇게 계속 괜찮냐고 물어보더라고요. 그래도 짧게라도 대화해 보면서 학회 시작하기 전에 영어를 조금이나마 연습했었던 거 같네요.
관광할 수 있는 시간이 많지는 않아서 교외로 나가지는 못했고 주로 다운타운에서 계속 시간을 보냈습니다.
AAAI 2024
AAAI 학회 일정 중 technical 세션 이전에는 별다른 세션이 없어서 2일 차까지는 짧은 관광을 하다 3일 차부터 technical session이 시작되었고 저희는 그날부터 학회를 본격적으로 참여하게 되었습니다. 숙소에서 학회장까지는 도보로 15분 정도 걸렸습니다. 아침 9시부터 학회가 시작이라 7시 정도에 일어나고 아침 먹고 학회장에 부랴 부랴 걸어갔었습니다.

컨벤션 센터에 1층에 AAAI 로고가 있었는데 생각보다 초라해서… 광진님이랑 같이 보면서 김이 샜던 기억이 나네요. 스폰서들은 KCCV에 비해 확실히 해외 기업들만 있는 모습이었습니다. 그런데 저기에 있는 모든 기업들이 채용 부스를 열지는 않았습니다. 구글이 열었으면 가서 한번 설명이나 들어보고 싶었는데 그건 좀 아쉬웠습니다. 생각해 보면 기업 부스들을 한 번쯤은 방문하면 좋았을 텐데 포스터 구경하느라 정신이 팔려서 가보지는 못했네요.

먼저 위의 사진은 opening session에서 여러 가지 통계를 보여주고 있는 모습입니다.
나라별로 제출한 횟수를 보여주고 있는데 확실히 중국, 미국이 압도적으로 많긴 합니다. 저희 한국은 4등인데 4.1%라고 하네요. 뭐 그래도 인구수에 비해서는 꽤나 높은 submission을 보여줬다고 생각합니다. 저기 사진 말고도 opening session에서 정말 다양한 얘기들을 해줬습니다. 규모가 꽤 크다 보니 학회 유지를 위해 고생해 준 사람들에게 감사 인사 전하는 시간도 길었습니다. 그리고 학회가 앞으로 나아가야 하는 방향, 이번에 개선된 방향들을 전반적으로 설명해 주는 시간도 있었습니다.
사실 opening session에서 하는 말들은 저한테 그렇게 의미가 있지는 않았던 거 같네요. AAAI 2024 첫인상은 음… 신기하군 이 정도였던 거 같습니다.
Oral Session은 다양한 분야의 발표가 동시에 진행이 됐습니다. 원래라면 ML도 조금 관심이 있었는데 이게 잘 모르는 분야를 영어로 들으려고 하니 도저히 하나도 이해가 안 가서 금방 CV로 돌아와서 Oral Session을 들었습니다. 학화에 가기 전에는 막연하게 Oral 발표에 대한 기대가 많았는데 또 생각보다 다들 발표를 엄청 힘들게 하는 느낌은 아니었습니다. 보고 나서 느낀 점은 물론 Oral Paper를 통과시키는 것은 매우 어려운 일이지만 발표 자체는 나도 할 수 있겠다는 생각이 들었습니다.

Oral Session 장은 여러 개가 있었는데 그중 통유리로 비치는 저 홀이 이뻐서 올려봤습니다. 학회장 바로 앞에는 경비행기 타고 밴쿠버를 돌아볼 수 있는 게 있었는데 저희가 포스터 발표한 날에만 저렇게 날씨가 맑고 다른 날들은 모두 날씨가 흐려서 타지는 않았습니다.
Oral Session을 보고 느낀 건 세상이 정말 빠르게 변하고 있구나를 느꼈고 다음으로는 LLM입니다. 제가 본 연구의 대부분은 LLM을 직접적으로든 간접적으로든 사용하고 있는 추세였습니다. NLP 분야에서는 LLM의 한계를 개선하는 연구를 하고 있고 CV, ML 분야에서는 LLM을 활용하여 annotation cost 없이 새로운 학습 시그널을 생성하는데 집중하고 있었습니다.
정말 분야를 막론하고 사용하고 있는 상황이라 저희 연구실도 Robotics, CV라고 해서 LLM을 아예 무시해버리지 말고 슬기롭게 잘 활용할 수 있는 방법을 고민해야 할 거 같습니다.
Invited Talk 관련해서는 사실 얀 르쿤 교수님의 강연을 듣고 싶었지만 그날이 저희 포스터 발표날이라 제가 긴장을 너무 해버린 바람에 강연을 듣지 않고 계속해서 포스터 준비를 했었습니다. 사실 대가들의 발표는 유튜브를 봐도 마음만 먹으면 볼 수 있으니 크게 신경 쓰지는 않았습니다.
VVS : Video to Video Retrieval with Irrelevant Frame Suppression
아무래도 저희가 학회에 참석한 가장 큰 목적은 저희 논문의 포스터 발표입니다. 국문으로 하면 참 잘할 자신이 있었는데 영문으로 하려고 하니깐 정말 긴장 됐습니다. 저희 포스터는 한국인 분들은 정말 많이 와주셨는데 외국인 분들은 4~5분 정도만 오셨던 거 같습니다. 물론 제가 한국분들에게 설명하면서 설명 마치고 스몰토크 하는 동안 몇몇 외국인들이 지나갔을 수도 있죠.
개인적으로 저는 포스터 세션이 가장 재밌었습니다. 저는 다른 사람들 포스터를 구경할 때 한국이 60% 정도에 외국인 40% 정도로 돌아다녔던 거 같습니다. 영어로 자주 말하는 것도 중요하지만 이게 외국인 포스터들은 제가 정보를 완전히 흡수하는 게 불가능해서 이번 학회에서는 저 정도의 비율을 두고 돌아다녔습니다.
한국인들 포스터에 조금 집중했던 이유는 사실 진로랑 관련이 있기도 합니다. 취업과 박사 사이에서 고민하고 있는데, 비슷한 고민들을 했던 선배 연구자들에게도 다양한 생각을 물어보고 싶어서 사실 연구 주제보다 한국인이 서있으면 그냥 가서 말 걸었습니다.
다양한 생각을 나눌 수 있었는데 정말 뜻깊은 자리였습니다. 실제로 몇몇 분은 얘기가 너무 잘 통해서 번호를 따로 받아두기도 했습니다.
저희 포스터 날에도 많은 분들이 찾아와서 정말 감사했습니다.
저희 포스터를 RCV 연구원들에게도 한번 설명을 해줬으면 좋았을 거 같은데 제가 준비를 조금 늦게 하는 바람에 못한 것이 조금 아쉬움에 남습니다. 따라서 이번 글을 통해 간접적으로 나마 느낄 수 있도록 한번 적어보도록 하겠습니다. 방법론까지는 너무 길어질 거 같아서 자세하게 적지 않겠습니다.
약간의 리얼리티(?)를 살리기 위해 당시 고려대 연구원과 있었던 재밌는 상황을 재연해 보면서 설명을 해보도록 하겠습니다.

처음에 저희 쪽으로 다가오던 사람이 저희 포스터 앞에 서서 굉장히 집중해서 읽어나가기 시작했습니다.
저는 속으로 저 사람은 한국인일까 중국인일까 계속해서 생각을 했습니다. 그래도 뭔가 관심을 가지고 열심히 보길래 용기 내서 물어봤습니다.
근택 : “Do you have any question..?”
A : “아 저 한국인이에요… 연구 한번 간단하게 설명 가능하실까요..?”
근택 : “(ㅋㅋㅋㅋㅋㅋㅋㅋㅋ) 아 한국인이셨군요… 아 네 가능하죠!”
근택 : “저희가 풀고자 했던 문제는 기본적으로 비디오 검색입니다. 텍스트 쿼리를 입력으로 유사한 비디오를 찾는 것이 아니라 영상 쿼리를 입력으로 유사한 영상을 데이터 베이스로부터 찾는 작업을 의미합니다. 결국 비디오 검색을 잘하기 위해서는 영상과 영상 간의 유사도를 잘 계산하는 것이 중요합니다”
A : “아 그러면 이게 보통 영상 검색으로는 사용되기 어려울 거 같은데 어디에 사용되나요?”
근택 : “결국 영상끼리의 유사도를 요구하는 작업에 사용된다고 보시면 됩니다. 비디오 필터링, 비디오 추천, 저작권 보호 등 영상의 visual content를 이해하는 작업에 활용이 될 수 있습니다.”
근택 : “사실 이게 저희도… 텍스트도 같이 해보고 싶었는데 이게 거의 2년 동안 리뷰받다가 어셉 된 논문이라 요즘은 잘 안 하긴 합니다..”
A : “아 그렇군요 저도 학회 3번 돌다가 겨우 붙었어요.”
근택 : “ㅋㅋㅋ 네 그럼 이어서 설명해 보자면 유사도를 계산하는 방법은 크게 두 가지로 분류가 됩니다. 프레임 단위로 feature를 기술하고 이를 모두 사용하는 frame-level method가 있고 비디오 단위로 feature를 하나만 기술해서 사용하는 video-level method가 있습니다.”
근택 : “frame-level method는 정보를 많이 쓰기 때문에 정확도는 높지만 연산량이 많고 반대로 video-level method는 빠르지만 정확도가 조금 떨어집니다. 하지만 저희는 real-world application 관점에서는 속도가 굉장히 중요하다고 생각해서 기본적으로는 video-level method를 베이스라인으로 잡고 정확도를 높이는 것을 목표로 했습니다.”

근택 : “저희는 정확도를 어떻게 올릴까 고민하다가 비디오 내부에 존재하는 정보들의 중요도를 고민해 보게 되었습니다. 여기 그림에서 red box에 해당하는 프레임들은 비디오를 나타내는 데 중요하지 않은 프레임이라고 볼 수 있습니다.”
A : “아 그렇네요. 그래서 저런 프레임들은 지우는 건가요?”
근택 : “네네 저희는 저러한 프레임들이 feature를 기술하는데 방해가 된다고 생각했습니다. 그리고 이러한 생각이 타당한지 검증하기 위해 feasibility 실험을 해봤습니다.” 저희는 비디오 feature를 기술할 때 저런 방해자 프레임의 영향력을 검증하기 위해 temporal annotation을 활용하여 방해자 프레임의 위치를 참조하고 feature를 기술할 때 단순히 제거하는 실험을 해본 결과 기존 비디오 검색 방법론들이 정확도 측면에서 큰 이득이 있었음을 확인하였습니다. 따라서 저희는 이러한 방해자 프레임을 억제하는 것이 중요한 포인트라는 것을 발견하였습니다.”

A : “아 저런 annotation은 데이터마다 다 있는 건가요?”
근택 : “아 그건 아니고, 저희가 이전 논문에서 temporal annotation을 할 일이 있어서 했었는데 그때 annotation만 참조해서 feasibility만 확인한 겁니다.”

근택 : “네 그래서 저희는 결국 video-level의 method를 올리기 위해서 방해자 프레임을 효과적으로 억제할 수 있는 Video-to-Video Suppression, VVS를 제안하였습니다. 방해자 프레임을 명시적으로 제거할 수 있는 학습 시그널을 통해 비디오 검색을 해결하는 첫 번째 방법론입니다.”
A : “아 그럼 이전에는 비슷한 접근이 아예 없었나요?”
근택 : “이전에는 단순히 transformer 구조로 self-attention에만 의존적인 상황이라, 약간 self-attention이 알아서 foreground background 구분해 줘 느낌이라 보시면 됩니다. 하지만 저희는 저희가 제안하는 pseudo label을 통해서 명시적으로 저런 방해자 프레임을 모델링했다고 보시면 됩니다.”
근택 : “Easy Distractor Discrimination Stage에서는 확실한 저수준의 배경 프레임을 제거하는 것을 목표로 feature magnitude에 따른 pseudo label을 정의하고 이를 구분하는 인공 신경망을 학습시켰습니다. Suppression Weight Generate Stage에서는 앞선 stage에서 처리하지 못하는 맥락적으로 비디오 주제와 관련 없는 방해자 프레임을 제거할 수 있는 두 가지 모듈을 제안하여 비디오를 억제할 수 있는 temporal attention weight를 생성하였습니다.
A : “아 그럼 결국 비디오에서 중요한 프레임을 찾아낸다고 보면 될 거 같은데 혹시 얼굴 정면으로 계속 등장하는 상황에서 감정 변화와 같은 분야에서도 사용이 가능할까요? 저희는 감정이 변하는 부분을 중요한 프레임으로 정의하는데 본 논문에서 제안하는 방법이 여기에 적용이 가능할까요?”
근택 : “아 음… 솔직하게 말씀드리면 어려울 거 같습니다. 저희는 전반적인 시각 콘텐츠를 다루어 유사도를 계산하는데 말씀하신 경우는 표정 변화와 같이 미세한 부분을 모델링하는 게 중요할 거 같아 저희와 결이 다른 것 같습니다.”
(옆에 있던 광진님이 듣더니 생각을 얘기했었네요.)
광진 : “아 그러면 혹시 프레임 차분이나 optical flow를 활용하는 건 어떨까요? 미세한 변화를 다루기에는 적합할 수 있다고 생각이 드네요.”
A : “아 사실 optical flow는 잘 안 돼요. 변화 지점을 찾는 게 아니라 변화를 바탕으로 감정 상태를 파악해야 해서….”
근택 : “아 그럼 eye gazing 이런 거는 많이들 쓰이나요? 뭔가 도움이 될 수 있을 거 같은데..”
A : “eye gazing은 많이들 사용해요.”
근택 : “그렇군요 뭔가 fine-grained 한 방법이 필요할 거 같은데 저희 연구는 그런 목적은 아니고 비디오 검색 관점에서의 방해자 프레임을 찾는 거라 조금 결이 안 맞을 거 같네요.”
사실 위의 대화 말고도 더 많은 얘기를 나누었는데 기억이 완전하게 나는 건 아니라 비교적 나눴던 대화의 큰 줄기 정도만 복기해 보았습니다. 저희 연구 내용을 설명해 줄 때 다들 흥미롭게 들어주셔서 너무 감사했고 연구 얘기뿐 아니라 연구실 얘기, 진로 얘기 등등 다양한 사람들이랑 다양한 얘기를 할 수 있었습니다.
아 그리고 조원 연구원이 지금 있는 연구실 사람들도 저희 포스터 찾아와서 이것저것 많이 물어보시고 사진도 같이 찍었는데 너무 좋았습니다. 다음날에는 그분들이 하는 연구를 설명 듣고 싶어서 찾아갔는데 이해하기 쉽지는 않았습니다.
마치며
사실 학부 3학년 때 교수님께 “저는 RCV 연구실로 대학원 진학 하겠습니다.” 결정해서 말씀드릴 때 속으로 결심했던 게 하나 있었는데 그게 바로 RCV 연구실에서 탑티어를 꼭 내보자였습니다. 그리고 지금에 와서야 어느 정도 좀 해소가 됐다고 볼 수 있네요. 당시에는 타대 진학 고민도 정말 많이 했었는데 대학원 입시 준비할 바에는 논문이나 빨리 쓰자라는 결심을 그때 해서 그런지 생각보다 기회가 빨리 찾아온 거 같습니다.
처음부터 많이 도와준 조원 연구원, 그리고 날카로운 피드백을 주신 메타의 고병수 연구원님, 지도 교수님 그리고 같이 많~은 작업을 했던 이광진, 김현우 연구원 모두 감사합니다. 이번 포스터 준비 과정에서도 서로 같이 으쌰으쌰 해서 잘 마무리된 거 같습니다.
졸업까지 문제없이(?) 진행된다면 1년 정도 남은 이 시점에서, 이제는 1 저자 논문으로 탑 티어에 억셉 이 될 수 있게 마지막 불꽃을 태워보도록 하겠습니다. 다른 RCV 연구원 분들도 꼭 한번 논문을 억셉 시키고 다녀왔으면 좋겠습니다.
우선 참관기는 이 정도로 마치고 다음 주에 세미나가 예정되어 있는데 거기에서도 또 많은 얘기 연구원들에게 공유하도록 하겠습니다.
감사합니다.
매 순간 자신의 한계를 끌어올릴 수 있는 도전과 목표는 자신을 성장시키는 동력이 되는 것 같습니다. 어쩌면 우리는 과학기술인으로서의 삶을 마감하는 그 순간까지 그러하지 않을까요. 임근택 연구원은 무한한 성장 가능성을 가진 연구원이다고 생각됩니다. 앞날에 건투를 빕니다.