Author: 정 의철
[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts
안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….
[ CVPR 2022 ] X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
안녕하세요 정의철 연구원입니다. 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 이번에 소개할 방법론은 2022년 논문이지만 여러 논문에서 baseline이 되는 방법론이기에 꼭 한 번 공부해볼 필요가 있다고…
[CVPR 2024] Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval
안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의…
[2025 WACV] Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge
안녕하세요. 이번에 소개할 논문은 Scene Graph Generation 분야의 논문으로, 계층적 관계와 상식 검증 두 가지 방법을 통해 Scene Graph Generation의 성능을 높이고, 잘못된 예측을 줄이는…
[2024 CVPR] The Neglected Tails in Vision-Language Models
안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…
[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…
[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?
안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…
[정의철] 2024년 마무리
2024년은 연구실에서 많은 경험을 하고, 다양한 기회를 접할 수 있었던 값진 한 해였습니다. 상반기와 하반기를 나누어 돌이켜보면, 각 시기마다 새로운 도전과 배움의 순간들이 가득했던 것…
[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT
이번에 소개할 논문은 CLIP 모델을 대규모 비디오 데이터로 post-pretraining하여 비디오-텍스트 작업에서 성능을 향상시키는 방법을 제안한 논문입니다. 먼저, 기존 CLIP 모델을 비디오 데이터로 학습할 때 발생하는…
[EMNLP 2023] ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense
안녕하세요 이번에 소개할 논문은 사전 학습된 비전-언어 모델(VLMs)이 단순한 시각적 상식을 넘어선 복잡한 추론 능력을 평가하기 위해 새로운 데이터셋인 ROME과 평가 프레임워크를 제안한 논문입니다. 연구의…
안녕하세요 재연님, 좋은 댓글 감사드립니다. 주신 질문이 단순한 기술 구현을 넘어서 왜 Detection 과 Segmentation을 명시적으로 분리해서 학습하고 예측하려고 하는지Perception…