Author: 홍 주영

Posted in X-Review

[Arxiv 2025] DeepSeek-OCR: Contexts Optical Compression

RAG 과정에서 텍스트와 이미지의 연관성을 어떻게 다루고 있는지 얘기하던 중, 졸업생 이광진 연구원이 DeepSeek-OCR이라는 텍스트를 비전으로 압축(?)한다는 개념을 소개해줘서 DeepSeek-OCR 논문을 읽게 되었습니다 1. Background…

Continue Reading
Posted in X-Review

[ICML 2025] Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval

오늘은 늘 리뷰하던 Text-Video Retrieval이 아닌 Text-Visual Retrieval 페이퍼를 리뷰해보겠습니다 1. Introduction Text-Visual Retrieval은 사용자가 입력한 문장을 기반으로 가장 관련 있는 이미지나 영상을 찾는 작업입니다….

Continue Reading
Posted in X-Review

[ICCV 2025] Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization

오늘도 Text Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 다만 신기한 논문 제목에서부터 Interactive Text-to-Video Retrieval(Interactive TVR) 인 것처럼, 기존에 제가 리뷰하던 단순 TVR이 아닌 User와 상호작용하면서…

Continue Reading
Posted in X-Review

[ICCV 2023] HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

Video Text Retrieval에 대한 논문을 준비하고 있어, 해당 주제의 논문을 리뷰해보겠습니다. 1. Introduction 최근 비디오(Video)-언어 사전학습(VLP, Video-Language Pretraining)이 활발히 연구되고 있습니다. 기존 연구들은 주로 이미지(Vision)-언어…

Continue Reading
Posted in X-Review

[ICCV 2023] Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval

지난주 리뷰와 마찬가지로, Text-Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 1. Introduction Text-Video Retrieval(TVR) 은 문장 하나를 입력하면, 그에 맞는 비디오를 찾는 연구입니다. 그런데 기존 모델들은 문장…

Continue Reading
Posted in X-Review

[ICCV 2023] UATVR: Uncertainty-Adaptive Text-Video Retrieval

당분간 최근 Video Text Retrieval 를 정리해보려고 합니다. 1. Introduction 최근 Text-Video Retrieval 연구는 텍스트와 비디오를 같은 임베딩 공간으로 매핑하여 유사도를 계산하는 방식으로 발전해왔습니다. 하지만…

Continue Reading
Posted in X-Review

[CVPR 2025] SmartCLIP: Modular Vision-language Alignment with Identification Guarantees

다시 CVPR 2025 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려고 합니다. 1. Introduction 아시다시피, CLIP은 최근 멀티모달 학습에서 가장 대표적인 VLP 모델입니다. 이미지와 텍스트를 쌍으로 맞추는…

Continue Reading
Posted in X-Review

[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval

arxiv 구경하다 새로운 VTR 연구가 나와서 리뷰해보려고 합니다. 1. Introduction 텍스트-비디오 검색(T2VR)은 텍스트 쿼리에 맞는 영상을 찾아내는 기술로, 비디오 검색과 추천, 요약 등 다양한 서비스에서…

Continue Reading
Posted in X-Review

[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

오늘은 기존에 연구하던 논문과는 집중하는 문제가 약간 다른 논문을 리뷰해보려고 합니다. 바로 Video-Text Model 인데, Mobile에 특화된 모델이라고 합니다. 바로 시작하겠습니다. 1. Introduction 최근 비디오-텍스트…

Continue Reading
Posted in X-Review

[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…

Continue Reading