Author: 정 의철
[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…
[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts
안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….
[ CVPR 2022 ] X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
안녕하세요 정의철 연구원입니다. 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 이번에 소개할 방법론은 2022년 논문이지만 여러 논문에서 baseline이 되는 방법론이기에 꼭 한 번 공부해볼 필요가 있다고…
[CVPR 2024] Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval
안녕하세요, 정의철 연구원입니다. 논문 작업으로 인해 한동안 X-review를 작성하지 못했지만, 다시 돌아와 연구 동향을 살펴보려고 합니다. 이번 리뷰에서는 Text-Video Retrieval 연구를 다루며, 향후에도 이 분야의…
[2025 WACV] Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge
안녕하세요. 이번에 소개할 논문은 Scene Graph Generation 분야의 논문으로, 계층적 관계와 상식 검증 두 가지 방법을 통해 Scene Graph Generation의 성능을 높이고, 잘못된 예측을 줄이는…
[2024 CVPR] The Neglected Tails in Vision-Language Models
안녕하세요 이번에 소개할 논문은 Vision-Language Models(VLMs)에서 발생하는 long-tailed 문제를 다룬 논문입니다. long-tailed 문제란 학습 데이터에 특정 클래스나 concept(클래스와 유사한 개념)이 적게 포함되어 모델 성능이 불균형해지는…
[2024 EACL] Does CLIP Bind Concepts? Probing Compositionality in Large Image Models
안녕하세요. 이번에 소개할 논문은 CLIP과 같은 대규모 VLM에서 compositional 표현 능력을 분석하고 그 한계를 평가하는 논문입니다. 연구의 주요 목표는 CLIP이 시각적으로 다양한 객체와 속성 개념을…
[2023 ICLR] WHEN AND WHY VISION-LANGUAGE MODELS BE- HAVE LIKE BAGS-OF-WORDS, AND WHAT TO DO ABOUT IT?
안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 VLMs들이 단어의 순서나 관계에 대해 민감하지 않음을 문제 삼아 분석한 논문입니다. 최근 많은 비전-언어 모델(VLMs)이 다양한 테스크에 활용되고 있지만,…
[정의철] 2024년 마무리
2024년은 연구실에서 많은 경험을 하고, 다양한 기회를 접할 수 있었던 값진 한 해였습니다. 상반기와 하반기를 나누어 돌이켜보면, 각 시기마다 새로운 도전과 배움의 순간들이 가득했던 것…
[2023 ICLR ] CLIP-VIP: ADAPTING PRE-TRAINED IMAGE-TEXT MODEL TO VIDEO-LANGUAGE ALIGNMENT
이번에 소개할 논문은 CLIP 모델을 대규모 비디오 데이터로 post-pretraining하여 비디오-텍스트 작업에서 성능을 향상시키는 방법을 제안한 논문입니다. 먼저, 기존 CLIP 모델을 비디오 데이터로 학습할 때 발생하는…
승현님, 리뷰 읽어주셔서 감사합니다. 1. 타당한 질문이라고 생각이 들지만, 본 논문에서는 pick-and-place를 low-level primitive action으로 두기 때문에, keyframe selection에서 이동중이다에…