Author: 홍 주영
[CVPR 2025] Language-Guided Image Tokenization for Generation
오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…
[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval
오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…
[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….
[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…
[CVPR 2025] MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
새로운 Video Retrieval 데이터셋과 관련된 논문이 있어 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah…
[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval
오늘은 연산량과 추론속도 해결에 집중한 Text-Video Retrieval 논문에 대해 리뷰해보겠습니다. Conference: ICLR 2025 Authors: Leqi Shen, Tianxiang Hao, Tao He, Sicheng Zhao, Yifeng Zhang, pengzhang liu,…
[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval
오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….
[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…
[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…
[CVPR 2023] Clover : Towards A Unified Video-Language Alignment and Fusion Model
Video-Language understanding 연구에 대해 리뷰해보겠습니다. Conference: CVPR 2023 Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji Affiliation: Key Laboratory of Multimedia…
안녕하세요 질문 감사드립니다 우선 해당 결과는 학습 데이터 편향으로 보시면 좋을 것 같습니다. late fusion 구조의 한계란, VLM 모델이 질문에…