CVPR 참관기@이승현

안녕하세요. 본 X-diary는 6/17~6/21에 열린 CVPR 2024 참관기 입니다. 먼저 CVPR에 참여해볼 수 있도록 좋은 기회를 주셔서 감사합니다 🙂

국제 학회는 처음이라 학회에 가기 전부터 굉장히 걱정을 많이 했습니다. 국내 학회의 영어 버전일까 정도로 생각했지만 확실히 규모도 크고 좋은 학회라 그런지 좋은 프로그램도 많았습니다. 그리고 참여하고 싶은 프로그램은 겹치는 경우가 많아서, 몸이 하나라 아쉬웠습니다..😅

Workshop & Tutorial

이번 학회에서 제가 참여한 워크샵과 튜토리얼의 키워드는 object-centric representation과 3D Generation입니다.

#object-centric_learning #slot_attention #neural_asset

제가 참여했던 Causal and Object-Centric Representations for Robotics라는 워크샵은 로봇을 위한 객체 중심의 표현 학습이라는 점에서 관심이 생겨 참여하게 되었습니다. object-centric representation이라는 분야에 대해 처음에는 단순히 feature 수준에서 객체를 표현하는 방식이라 생각하였고, 6D에 가장 연관이 깊을 것 같아서 참여하게 되었습니다. 해당 워크샵을 통해 제가 생각한 연구내용과는 조금 다른 새로운 분야를 접하게 되었습니다. object-centric learning은 이미지가 배경을 포함한 N개의 물체들로 이루어진다는 것을 통해 객체에 대한 표현력을 기르고, 객체에 대한 표현을 조절하여 실제에서도 이를 반영할 수 있도록 학습하는 분야라고 이해하였습니다. 또한, 객체별 representation을 외관과 pose token으로 나누는 Neural Asset이라는 방식에 대해서도 알게 되었으며, 해당 네트워크를 학습하기 위해서는 동일 객체에 대하여 여러 pose로 구성된 데이터가 필요하며, 이를 비디오로 이용할 경우 사용 가능한 데이터가 많아진다는 접근 방식이 기억에 남습니다. 그리고 첨부된 이미지의 오른쪽 정성적 결과도 굉장히 인상 깊었는데, 배경에 해당하는 asset을 야간에 대한 asset으로 바꾸고 diffusion을 통해 영상을 생성한 결과로, 차량의 불이 켜지도록 영상이 생성이 되었다고 합니다.

#3D_Generation #inconsistency_problem

또한 Towards 3D Foundation Models: Progress and Prospects라는 워크샵에도 참여하였습니다. 해당 워크샵은 3D Foundation 모델의 미를 전망해보고 어려움을 고민해보는 시간을 갖고자 열렸다고 합니다. 데이터 셋에 관한 이야기와 novel view synthetic 분야에 대한 이야기를 많이 하였습니다. 첨부된 왼쪽 이미지는 3D generation의 challenge로, side에 해당하는 이미지가 잘못 생성된 것(structural inconsistency)과 와플 위의 치킨이 다른 view에서는 치킨이 와플 형태와 같이 나타나는 오류(Text-3D misaliangment), 와플의 메이플 시럽이 동일 위치지만 다른 뷰에서는 없어지는 (semantic inconsistency) 등의 문제를 언급하며, 이를 해결하기 위해 기존의 2D 이미지의 foundation model을 이용하는 방법에 대하여 이야기 합니다. (2D 이미지의 foundation model인 DINOv2가 서로 다른 view에서 생성된 영상의 특정 지점이 동일하도록 인식하는 방식으로 학습을 한다고 합니다.)

Poster & 기업 부스

포스터를 돌아보니 연구 키워드는 대부분 multi-modal, open-world, 3D generation, diffusion이였습니다. 그리고 의료 분야와 human body 분야도 상당히 많은 파트를 차지하고있었습니다. 저는 포스터에 참관하기 전에 이번 CVPR2024에 6D Pose Estimation과 관련된 논문이 다수 있기도 하고, 최근 리뷰도 했던 NOPE(및 GigaPose) 저자가 있어서 꼭 이야기를 해보고 싶었는데, 계속해서 사람들이 질문을 해서 끼어들지 못하고 옆에서 한참 듣고 있다가 끊임없는 디스커션에 결국 다른 포스터를 보러 가게 되었는데.. 그게 좀 아쉬웠습니다.. 그리고 포스터를 둘러보다보니 retrieval 분야에도 category/object-specific이라 하여 6D의 category-level/ instance-level과 비슷한 개념이 도입된 포스터를 발견하였는데, 다양한 형태의 객체들을 고려하기 위해 category와 object에 대한 특징을 구분하는 접근 방식이 였습니다.(아래의 그림에서 Award Candidate에 해당합니다.) 이런 내용적인 걸 제외하고 정말 많은 사람들이 학회를 통해 네트워킹을 하려고 노력하는 모습을 많이 보아서, 학회란 이런거구나.. 하는 생각이 들었습니다.

그리고 기업 부스도 돌아보았는데, 정말 여러 회사에서 기술을 전시하고있었습니다. OpenCV에서는 카메라와 로봇팔을 이용하여 가위바위보를 하고, 아래의 사진에 있듯 아마존 fresh는 자동으로 물건을 넣고 빼면 이를 인식할 수 있는 카트를 보여주고 있었습니다. 그리고 아래 영상은 돌아다니다가 사람들이 모여있길리 보았더니 휴머노이드 로봇이 있어서 첨부해보았습니다.(로봇은 사람이 조절하는 것 같았습니다..)

크기가 안줄어드네요..

소감

이번 CVPR 학회에 참관해보니 더이상 LLM이 옵션이 아닌것 같다는 생각이 들었습니다. 정말 많은 멀티모달 연구가 진행중이고, LLM을 다양한 방식으로 적용하기 위한 연구가 참 활발히 되고있었습니다. 그리고 방법론 적으로는 Diffusion도 굉장히 많이 사용하고 있었습니다. 이런 최신 트랜드 기술을 좀 회피하고있지는 않았나 하는 반성을 하게 되었습니다. 그리고 정말 3차원 공간에서의 연구도 활발히 진행되고 있다고 느꼈습니다. 그리고 학회를 통해 정말 다양한 곳에서 다양한 연구를 하는 사람들을 볼 수 있었습니다. 지금까지는 제가 관심있는 분야만 검색해서 어떤 논문이 있는 지 찾아보았는데, 앞으로는 전체적인 흐름을 살펴보는 것도 중요하다는 생각을 하게 되었습니다. 그리고 다음에는 꼭 논문이 붙어서 참여해보고 싶다는 동기부여가 생기기도 했습니다.. 그리고 부가적인 이야기지만.. 영어 공부의 필요성을 다시금 느끼는 시간이였습니다… 알아듣지 못하는 내용도 많고, 무엇보다 말하고자 하는 바가 잘 전달이 안되더라구요..

Author: 이 승현

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다