안녕하세요, 허재연입니다. 정신없이 시간을 보내다 보니 벌서 2025년의 절반이 흘러갔네요. 지난 상반기를 돌아보겠습니다.
첫 논문 작성
1~2월은 작년부터 작업하던 논문을 마무리하기 위해 집중적으로 작업하였습니다. 어느 정도 실험 결과가 나와서 12월 말부터 본격적으로 라이팅을 시작했는데, 실험 결과와 제가 생각한 흐름이 있기에 작성이 금방 끝날 줄 알았지만 처음 생각했던것보다 훨씬 신경써야 할 부분이 많아서 많은 시간을 잡아먹었습니다.
무엇보다, 합당한 논리 흐름을 만들고 분량에 맞춰서 작성해내기가 어려웠습니다. 논문을 직접 작성해 보는 것은 처음이라, 가지고 있는 실험 결과를 가지고 왜 이 task가 필요한지 설득하고, 주요한 실험 결과를 통해 main contribution을 강조하고, 이를 뒷받침 하기 위한 실험 결과들을 적절히 배치하고, 마지막에 제안하는 방법론의 설득력을 높이기 위한 자잘한 실험들을 추가하여 이를 하나의 완결된 논리적인 글로 완성하는데 수없이 수정을 반복했습니다.
이 때 글의 구조를 잡아주는데 사수인 황유진 연구원님의 도움을 정말 많이 받았습니다. 제가 일차적으로 글을 작성하고, 피드백을 받고, 이를 반영하면 거의 갈아엎어진 수준으로 글이 초안이랑 달라지는 과정을 반복했습니다. 계속 ‘왜 이렇게 작성했나요? 이 글이 지금 전체 흐름에서 적절한가요? 앞뒤 소제목들과 분량 / 깊이가 통일되지 않아서 다시 맞춰야 할 것 같습니다’ 등등 피드백을 받으면서 썼다 지웠다 수정했다 다시 작성했다 하는 과정을 수없이 반복했습니다. 다시 쓰는 과정에서도 어떻게 수정해야 할지 막막하고, 힘들게 썼던 글들을 전부 지우고 다시 쓰는게 아깝고 그랬는데 이렇게 다듬고 나서 돌아보니 글의 흐름도 자연스러워지고 논리도 탄탄해졌습니다.
이 과정을 진행하는 동안, 제가 가지고 있는 실험 결과들을 어떤 형식으로 가공해서 논문의 어디에 배치하여 해당 결과로 무엇을 어떻게 주장할지를 반복해서 고민했어야 하는데, 이 과정을 거치고 나니 이후에 다른 논문들을 읽었을 때 이들이 무슨 주장을 하기 위해 어떻게 실험 table을 구성했는지, 그 약점은 무엇인지가 이전보다 더 잘 들어와서, 보다 비판적인 논문 읽기가 가능해졌습니다.
Figure를 ppt로 그리고 이에 대한 캡션을 작성하는 과정에서도 ‘어떤 Figure를 그려야 할까?’ ‘어떻게 그림을 그려야 독자에게 내가 전달하고자 하는 바가 명확히 전달될까?’ ‘캡션을 어떻게 작성해야 간결하게, 핵심 내용을 전달할 수 있을까?’를 계속 고민했는데, 마찬가지로 이런 고민의 과정을 겪고 나니 이후 다른 논문들을 볼 때 저자들이 왜, 어떻게 figure를 활용했고 이를 통해 무엇을 보이고 싶은지가 이전보다 더 잘 들어왔습니다.
전체적인 과정 속에서 글을 논리적으로 작성하는 능력이 정말 많이 늘었고, 논문들 바라보는 시야가 한 층 넓어진 것을 확실히 느낄 수 있었습니다. 기존과 똑같이 논문을 읽었을 때 보다 깊이 이해할 수 있게 되었네요.
여타 작업들도 그렇지만, 논문들 작성할 때도 다른 사람들에게 날선 피드백을 받고 힘들더라도 그것들을 충실히 반영하면 이전보다 좋은 결과물이 만들어지니, 다른 사람들의 피드백을 잘 활용해야 할 것 같습니다.
논문, 그 이후
그렇게 완성한 논문 주제는 크게 ‘object detection + self-supervised learning’로 요약할 수 있습니다. 논문 작업 도중 계속 ‘너무 옛날 토픽들 아닌가..? 지금 최신 연구들은 훨씬 발전된 기술들을 활용하는데, 나는 아직 최신 연구들에 대한 이해도가 떨어지는 것 같다.’라는 느낌을 계속 받았습니다. 제어로봇시스템학회 논문지에 논문을 제출하고 나서는 본격적으로 최신 연구 동향을 팔로업하였습니다.
LLM 및 대규모 사전학습의 영향으로 language 정보를 활용하는것이 너무 자연스러웠기에, CLIP에서부터 시작하는 open-vocabulary / joint training 들에 관심을 가지고 공부했고, detection이라는 주제를 이어서 확장하기 위해서 DETR 계열의 방법론들 및 OVOD 방법론들을 공부했습니다. 이전에는 막연하게 어떻게 구성되는지 정도만 알고 있었는데, 이들을 활용할 수 있는 후속 연구를 수행하자는 생각을 가지고 관련 논문들을 정리하였습니다. 대규모 VLP 모델들을 공부하다보니, 점점 기존의 perception 방법론들로는 대규모 VLP / foundation 모델들을 이기기 어렵겠다는 느낌이 강하게 들었고 자연스럽게 ‘이런 대규모 사전학습 지식을 어떻게 잘 활용할 수 있을까??’ ‘어떻게 원하는 task에 transfer할 수 있을까? 라는 고민들로 이어졌습니다. 사실 이런 공부들과 고민들은 미리 정리를 마치고 석사를 입학했으면 더 좋았겠지만, 논문 작업에 정신 팔려 잠시 뒤로 미뤄뒀었지요. 미뤄두었던 만큼 공부할 게 많더군요. 2021년의 트렌드에서 시작해서 24-25 흐름까지 따라오는데 예정보다 오랜 시간이 소요되었습니다. 그 중간중간 논문 리비전도 하고 (메인은 아니고 서브로 참여했지만)제안서 작업에도 참여하다보니 여유있게 연구실 생활을 한 것이 아님에도 금방 시간이 지나갔습니다. 슬슬 다음 논문 주제에 대한 고민을 시작했고, 지금까지 팔로업한 vision-language pretraining, object detection 이란 주제를 살릴 수 있는 주제를 고민했습니다. 단순 perception task보다는 기존의 task를 기반으로 한 단계 고차원의 무언가를 수행할 수 있는 주제를 하고 싶었습니다. 그리고, 그러다 눈에 들어온 주제가 open-vocabulary scene graph generation이었습니다.
새로운 논문을 위한 문제 정의
scene graph generation은 주어진 이미지에서 각 객체들을 검출이고 이들의 관계를 탐지하는, 보다 높은 수준의 장면 이해를 수행하는 task로 Visual Question Answering, Visual Commonsense reasoning, image captioning 등의 고차원적인 인지를 위한 일종의 중간 다리를 할 수 있는 task입니다. 최근에는 object, relation을 open-set으로 탐지하려는 시도가 이어졌기에, 제가 공부했던 OVOD 위에 새로운 무언가를 얹을 수 있는 분야라 여겨 관심을 가지게 되었습니다. 사실, 이번 년도 ICCV에 임근택, 홍주영, 정의철 연구원들이 OV-SGG를 주제로 논문 작업을 할때부터 재밌어 보여서 막연히 관심을 가지고 있었는데, OVOD를 기반으로 무언가를 하고 싶었던 저랑 방향이 잘 맞았다고 할 수 있겠죠. 하지만 기존에 나온 성능 좋은 backbone을 가져다 붙이는 것으로 재미를 보고 있던 OV-SGG에서 어떤 문제를 어떻게 풀어야 할지 정하는 게 쉽지 않습니다. SGG는 현재 long-tailed distribution에서 head쪽의 너무 쉬운 relation을 예측하는 문제를 가지고 있는데, 이를 어떻게 완화하면 좋을지 고민하고 있습니다. 단순히 meta-learning적인 접근보다는 visual feature와 VLP의 지식을 함께 활용해서 풀고 싶은데, 연결고리가 잘 만들어지지 않네요.
CVPR 참관 후
좋은 기회로, 학기 말에 CVPR2025에 다녀올 수 있었습니다. 언젠간 꼭 가보고 싶었던 학회였기에, 가서 많이 보고 배우려고 노력했습니다. 특히 학회를 참석해서 Oral session과 포스터를 쭉 둘러보면 현재 컴퓨터비전의 연구의 큰 흐름이 보이는데요, 가장 많이 등장하는 큰 키워드들은 다음과 같았습니다.
- 이미지 / 비디오의 합성 및 생성(Diffusion 기반이 많음)
- multi-view, sensor를 활용한 3D reconstruction(NeRF, Gaussian Splatting, DUST3R .. )
- 실제 시각지능을 담당 할 수 있는 Vision for Robot
대규모 모델들로 인해 기초적인 인지 task는 이미 어느 정도 잘 수행되니, 이제 이를 바탕으로 보다 복잡한 무엇인가를 풀어보자! 라는 흐름이 뚜렷이 느껴졌습니다. 또, 이전에는 잘 보이지 않았던 video라는 키워드가 주류로 올라왔다는 것도 눈에 특히 띄었네요.
무엇보다 새삼 놀랐던 점은 학회장에 한국인이 정말 많았다는 것인데요, 간간히 보인다 정도가 아니라 그냥 돌아다니다보면 계속 한국말이 들릴 정도였습니다. 나중에 한국으로 돌아와서 통계자료를 보니 한국인 참가자가 미국, 중국을 이어 3번째로 많았다고 하네요. 이는 한국이 컴퓨터비전을 잘한다는 긍정적인 신호이기도 하지만, 석사과정 연구원으로써 연구 성과를 내야 하고, 머지않아 취업을 고려해야 하는 제 입장에서는 수많은 인재들 사이에서 어떻게 살아남을 것인가..라는 경각심을 가지게 했습니다. (결과론적으로 CVPR에 붙어서 그 자리에 있는 것이겠지만)저와 같은 석사과정인데 CVPR에 논문을 낸 분들도 많았고, 매 년 CVPR을 찍어내시는지 작년 KCCV에서 발표했던 낯이 익은 분들도 있었습니다. 솔직히 약간 압도되었습니다. 내가 이들만큼 할 수 있을가? 난 언제쯤 저 정도 수준에 올라설 수 있을까? 하는 생각이 많이 들었어요. 어쩌겠나요. 결국 자신을 갈고 닦아서 그들의 수준에 올라가는 것이 정답이라 생각하고 주어진 연구와 일을 열심히 해야겠죠. 제가 해야할 일이 바뀌진 않습니다. 보다 더 자세한 참관기는 기존의 x-diary와 참관 세미나에서 다루었기에, 이 정도에서 넘어가겠습니다.
학회에서 보고 느낌 점과 별개로, 학회를 다녀오고 난 게 정말 큰 동기부여가 되었습니다. 나중에 언젠가는 꼭 CVPR급의 탑티어 학회에 논문을 내고 싶다는 생각이 들었고, 지금 준비하는 논문의 작성 과정을 통해 보다 수준 높은 논문을 작성하는 연습을 하고 싶었습니다. 방학이 시작되고 URP 총괄조교를 맡게 되어 예정보다 많은 시간을 URP 운영에 소모했는데, 그 이외의 시간을 최대한 할애하여 문제 정의를 위한 서베이 및 분석에 힘을 쓰고 있습니다만 아직 명확히 방향을 잡지 못했네요. 다른 연구원들도 연구실 일을 하면서 자신만의 연구를 진행하시니 변명을 하기보단 최대한 시간적 효율을 살려보자고 생각하고 있습니다. 밀도 있게 작업을 하고 있기는 해서, 곧 의미 있는 개선 방향을 잡을 수 있을 거라 기대하고 있습니다.
요즘 연구와 별개로도 고민이 많습니다. 석사를 졸업하고 나서 취업을 할 계획을 하고 있는데, 남은 기간 내에 석사로 졸업해도 부끄럽지 않은 연구 실적을 확보할 수 있을지, 또 산업 트렌드와 잘 맞게 준비해서 성공적으로 취업을 할 수 있을지에 대한 생각이 많아지는 요즘입니다. 마음은 조급한데, 생각만큼 시원시원하게 일들이 풀리지는 않네요. 그래도 꺾이지 않고 계속 밀도 있게 해야 할 일을 이어나가보겠습니다. 연말에는 지금 작성중인 논문을 마무리하고 새로운 논문을 위한 고민을 하고 있었으면 좋겠습니다.
감사합니다.