Author: 정 의철
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…
[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH
이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…
[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…
[2025 CVPR] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 태스크의 논문입니다. 이번 논문은 VLM을 활용해 비디오의 프레임 캡션을 생성하고 이를 다양한 방식으로 활용해 Retrieval 성능을 높인 논문입니다. 그럼…
[2023 ICCV] Unified Coarse-to-Fine Alignment for Video-Text Retrieval
1. Introduction 이번에 소개드릴 논문 역시 Text-Video Retrieval 연구 논문입니다. Text-Video Retrieval은 서로 다른 두 모달리티를 연결하는 cross-modal alignment의 응용이라 볼 수 있습니다. 이 태스크는…
[2023 CVPR] Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring
안녕하세요. 이번에 소개할 논문은 사전 학습된 CLIP 모델을 비디오 도메인으로 확장할 때 시간 모델링에 대한 분석을 다룬 연구입니다. 비디오 태스크에는 Retrieval과 같은 고수준(high-level) 태스크와, Video…
[ICCV 2023]Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval
안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 분야의 연구 논문입니다. 저는 최근 CLIP 모델에 Mixture-of-Experts(MoE)를 결합하여 모델을 확장하고, 동시에 CLIP 백본에 시간적 정보를 추가하는 방법에 대해…
[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…
2025년 상반기 회고
안녕하세요. 이번에는 2025년 상반기 회고 글을 작성해보려고 합니다. 이렇게 회고 글을 쓸 때마다 느끼는 거지만, 시간이 참 빠르게 지나가는 것 같아 괜히 울적해지고 센치해지는 것…
[ECCV 2022] TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval
안녕하세요 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 개인 연구를 진행하면서 어떻게 하면 encoder 내부에서 비디오의 spatial-temporal 정보를 모델링 할지 고민을 하고 있는데 마침 제가 생각했던…
안녕하세요 우진님 후기글 잘 읽었습니다. 학회 일정이 너무 빠듯해서 막상 학회 내용에 대해서는 말해볼 기회가 좀 적었던 것 같습니다. 그러다보니…