Author: 홍 주영

Posted in X-Review

[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment

오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

새로운 Video Retrieval 데이터셋과 관련된 논문이 있어 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah…

Continue Reading
Posted in Conference X-Review

[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

오늘은 연산량과 추론속도 해결에 집중한 Text-Video Retrieval 논문에 대해 리뷰해보겠습니다. Conference: ICLR 2025 Authors: Leqi Shen, Tianxiang Hao, Tao He, Sicheng Zhao, Yifeng Zhang, pengzhang liu,…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval

이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…

Continue Reading
Posted in Conference X-Review

[CVPR 2023] Clover : Towards A Unified Video-Language Alignment and Fusion Model

Video-Language understanding 연구에 대해 리뷰해보겠습니다. Conference: CVPR 2023 Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji Affiliation: Key Laboratory of Multimedia…

Continue Reading
Posted in Conference X-Review

[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos

오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…

Continue Reading
Posted in Paper X-Review

[2022 Neurocomputing]CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning

오늘 리뷰할 논문은 이미지-텍스트 사전학습 모델인 CLIP을 비디오-텍스트 검색(Video-Text Retrieval)으로 확장한 모델인 CLIP4Clip에 관한 것입니다. 저자는 CLIP의 강력한 멀티모달 표현력을 활용하면서도, 비디오라는 시간 정보를 가진…

Continue Reading