안녕하세요, 정의철 연구원입니다. 2024년 8월에 부산 BEXCO에서 열린 KCCV 2024에 다녀올 수 있는 기회를 얻게 되어, 이렇게 참관 후기를 작성하게 되었습니다. 이번 KCCV 2024에서는 여러 연구자들이 구두 발표와 포스터 발표를 통해 자신들의 연구를 공유하고, 서로 의견을 나누는 자리가 마련되었습니다. 특히, 비디오 해석, 영상 분할, 시각-언어 모델 연구 분야의 저명한 교수님들이 직접 참석해 주셔서 키노트 강연을 들을 수 있었고, 상태 공간 모델 Mamba 연구로 주목받는 Albert Gu 교수님(CMU)의 온라인 강연도 함께 제공되어 정말 많은 지식과 인사이트를 얻을 수 있었습니다.
<Oral Session>
이번 KCCV 2024의 Oral Session에서는 주로 비디오와 3D 작업과 관련된 발표들이 많았는데, 이 분야에 대한 사전 지식이 더 많았더라면 발표를 더 깊이 이해할 수 있었을텐데 하는 아쉬움이 많이 남았던것같습니다. 그럼에도 oral session에서 가장 인상 깊게 들었던 발표는 윤국진 교수님께서 발표하신 ‘From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation’이란 논문이었습니다. 이 논문은 Weakly Supervised Semantic Segmentation (WSSS) Task에 관한 연구로 standard한 과정은 다음과 같이 진행됩니다.
- 모델 학습: image-level class labels을 사용해 모델을 학습하여, 각 학습 이미지에 대한 클래스 활성화 맵(CAMs)을 생성합니다. CAMs는 이미지에서 특정 클래스에 해당하는 부분을 강조하는 맵으로, 해당 클래스가 이미지의 어느 부분에 주로 나타나는지를 보여줍니다.
- refining the CAMs : 생성된 CAMs를 refining하여 더욱 정교한 pseudo-labels로 변환합니다.
- training a semantic segmentation model: pseudo-labels을 사용해 segmentation 모델을 학습합니다.
WSSS에 대해 깊이 이해하지 못했지만, 이번 발표를 통해 SAM(Segment Anything Model)이라는 최신 기법에 대해 배울 수 있었습니다. SAM은 2023년 4월 Meta AI에서 개발한 이미지 세분화 모델로, 특정 객체나 모든 객체의 위치를 정확하게 식별할 수 있는 능력을 갖추고 있습니다. 이 모델은 Foundation models을 기반으로 하고 있으며, 이는 기존에 제가 접했던 특정 도메인에 특화된 모델이나 작은 데이터셋으로 학습된 모델들과는 다르게, 이전에 보지 못한 작업이나 데이터에서도 성능을 발휘할 수 있는 Zero-shot learning 능력을 가지고 있습니다. 또한, 텍스트, 이미지, 오디오 등 다양한 형태의 데이터에 적용할 수 있는 능력을 갖추고 있어, 최신 트렌드에 대한 이해를 넓힐 수 있었습니다.
<Industry Session>
KCCV 2024에서 가장 인상 깊었던 Industry Session 강연 중 하나는 지대현 마스터님이 삼성전자 SAIT 부문에서 진행한 “AI 리서치: 반도체 AI 및 자율주행 AI 연구 방향”이었습니다. 이 강연에서는 삼성에서 현재 진행 중인 컴퓨터 비전 연구와 AI 기술이 어떻게 반도체 산업에 적용되고 있는지, 그리고 자율주행 및 로봇 분야에서 어떤 발전이 이루어지고 있는지를 자세히 다루었습니다. 삼성 SAIT 부문이 반도체, 자율주행, 로봇틱스, 소재 개발 등 다양한 분야에서 AI 기술을 활용하고 있다는 점이 매우 인상적이었습니다. 특히, 반도체 공정에서 AI를 통해 설계를 최적화하고, 제조 과정의 자동화를 이끌며, 결함을 예측하는 등의 문제를 해결하고 있다는 점이 흥미로웠던 것 같습니다. 자율주행 AI와 관련해서는 LLM을 기반으로 한 자율주행 시스템과 로봇의 월드 모델링, 3D 인식 기술 개발이 주요 연구 주제라는 점에서 최신 AI 트렌드를 잘 반영하고 있음을 알 수 있었습니다. 또한, 삼성에서 파운데이션 모델을 자체 개발하는 이유가 보안 이슈와 높은 정확도 요구 때문이라는 점을 강조하셨습니다.
강연에서 소개된 반도체 공정 내 AI 활용 사례는 AI를 통해 제조 공정의 복잡도를 관리하고, 설계 비용을 절감하며, 결함을 예측하여 생산성을 높이는 방법들이 있었습니다. 또한 디지털 트윈과 AI 기반 수율 개선 방법론은 반도체 생산의 효율성을 높이는 데 크게 기여할 것이라고 설명해주셨습니다. 자율주행 및 로봇 연구와 관련해서는 LLM과 비주얼 인코더를 결합하여 로봇이 언어 명령을 이해하고 행동할 수 있도록 하는 연구, 그리고 자율주행 시스템이 비정형 환경에서 어떻게 대응할 것인지에 대한 연구 방향이 매우 흥미로웠습니다. 특히, 사람 수준의 인지 지능을 AI에 구현하는 연구가 미래 자율주행 기술의 핵심이 될 것이라는 점이 강하게 와닿았습니다.
그동안 AI 기술들이 실제 산업 현장에서 어떻게 활용되는지 궁금했었는데 이 강연을 통해 AI가 실제 산업 현장에서 어떻게 적용되고 있는지를 이해할 수 있었습니다. 특히 반도체와 자율주행 분야에서 AI의 역할과 중요성을 배울 수 있었고, AI 기술이 단순한 기술적 요소를 넘어 특정 도메인의 지식과 결합될 때 더 큰 가치를 창출할 수 있다는 점을 배운 것 같습니다. 또한, LLM과 같은 최신 AI 모델들이 자율주행과 로봇틱스 분야에서 어떻게 응용될 수 있는지를 알 수 있었고, 미래 기술 트렌드에 대해 배울 수 있는 좋은 기회였던 것 같습니다
<Panel Discussion>
이번 세션에서는 ‘컴퓨터비전 강국으로서 한국, 연구 커뮤니티의 역할과 방향’의 주제로 논의가 진행되었습니다. 먼저 김선주 교수님은 현재 빅테크 기업들이 빠르게 성장하는 상황에서, 한국 연구자들이 이들과 경쟁하는 것이 얼마나 어려운지에 대해 걱정하셨습니다. 특히, 연구실 단위로 1:1로 경쟁하는 것은 점점 더 어려워지고 있으며, 이러한 상황에서 한국의 비전 커뮤니티가 어떤 방향으로 나아가야 할지에 대한 고민이 깊어지고 있다고 강조하셨습니다. 또한 CVPR, ICCV, NeurIPS 같은 주요 학술 대회에서 한국 연구자들이 발표하는 논문 수는 늘어나고 있지만, 이런 논문들이 전 세계적으로 큰 영향을 주기 어려운 현실에 대한 우려도 있었습니다. 오픈AI와 같은 빅테크 기업들이 발표하는 기술 리포트와 비교했을 때, 한국 연구자들의 논문이 상대적으로 작은 영향을 미친다는 점에서, 어떻게 하면 더 큰 임팩트를 낼 수 있을지에 대한 고민이 필요하다고 교수님은 지적하셨습니다. 교수님은 더 큰 규모의 프로젝트를 통해, 학생들이 데이터 수집부터 모델 디자인, 트레이닝까지 모든 과정을 경험할 수 있도록 하는 것이 중요하다고 말씀하셨습니다. 이를 위해 정부의 지원, 특히 GPU 같은 자원의 확보가 필요하다고 주장하셨습니다.
심현정 교수님은 이러한 문제에 대해 한국이 전통적으로 강점을 가지고 있는 비전, AI, 반도체, 제조 분야에서 새로운 문제를 발굴하고 해결하는 연구를 시작해야 한다고 제안하셨습니다. 이는 한국이 처음부터 리더십을 가지는 위치에서 시작할 수 있기에 이미 좋은 모델들이 많이 나와 있는 상황에서, 기존 모델을 개선하는 연구도 중요하지만, 임팩트 있는 문제를 발굴하고 해결하는 것이 더 큰 가치를 창출할 수 있다고 강조하셨습니다.
이경무 교수님께서는 이제는 단순히 논문의 양보다는 그 영향력이 더 중요해진 시대라고 강조하셨습니다. 요즘은 논문이 몇 개나 인용되었는지만 보는 게 아니라, 그 논문이 실제 산업에서 어떻게 쓰이고 있는지, 그리고 연구자가 그 논문을 통해 어떤 실제적인 기여를 했는지를 평가하는 것이 중요하다고 하셨습니다. 또한 교수님은 컴퓨터 비전과 AI 분야의 연구자들 중 절반 정도는 산업에 빠르게 진출하여, 실제 비즈니스와 연결된 연구를 해야 한다고 제안하셨습니다. 현재 AI와 비전 기술에 많은 투자가 이루어지고 있지만, 이를 통해 실질적인 수익을 창출하는 비즈니스 모델이 아직 많이 없다는 점에서 이야기를 해주신 것 같습니다.
<아쉬운 점>
KCCV 2024 학회를 참관하면서 아쉬웠던 점은 다양한 도메인에 대한 지식이 부족했다는 것입니다. 이번 학회에서는 컴퓨터 비전의 여러 기술과 응용 분야가 소개되었지만, 제가 익숙하지 않은 도메인에 대한 발표들이 많아 이를 깊이 이해하는 데 어려움이 있었습니다. 예를 들어, 비디오나 3D 모델링과 같은 특정 도메인에 대한 발표들은 해당 분야의 기초 지식이 부족한 상태에서 듣다 보니 발표자들이 전달하고자 하는 핵심 메시지를 완전히 이해하기 어려웠습니다. 이러한 도메인 지식이 부족한 상태에서 발표를 접해서 최신 기술이나 연구 성과가 어떤 의미를 가지는지, 또 어떻게 적용될 수 있는지에 대한 통찰을 얻기가 어려웠던 것 같습니다. 이번 경험을 통해 앞으로는 특정 도메인에 국한된 지식보다는 다양한 컴퓨터 비전 분야에 지식을 쌓아야겠다는 다짐을 하게 되었습니다. 다시 한 번 이번 KCCV 2024 학회를 참관할 수 있는 기회를 주신 교수님에게 감사드리며 후기 마무리하겠습니다. 감사합니다!