Author: 홍 주영
[ICCV 2023] Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval
지난주 리뷰와 마찬가지로, Text-Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 1. Introduction Text-Video Retrieval(TVR) 은 문장 하나를 입력하면, 그에 맞는 비디오를 찾는 연구입니다. 그런데 기존 모델들은 문장…
[ICCV 2023] UATVR: Uncertainty-Adaptive Text-Video Retrieval
당분간 최근 Video Text Retrieval 를 정리해보려고 합니다. 1. Introduction 최근 Text-Video Retrieval 연구는 텍스트와 비디오를 같은 임베딩 공간으로 매핑하여 유사도를 계산하는 방식으로 발전해왔습니다. 하지만…
[CVPR 2025] SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
다시 CVPR 2025 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려고 합니다. 1. Introduction 아시다시피, CLIP은 최근 멀티모달 학습에서 가장 대표적인 VLP 모델입니다. 이미지와 텍스트를 쌍으로 맞추는…
[Arxiv 2025] GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval
arxiv 구경하다 새로운 VTR 연구가 나와서 리뷰해보려고 합니다. 1. Introduction 텍스트-비디오 검색(T2VR)은 텍스트 쿼리에 맞는 영상을 찾아내는 기술로, 비디오 검색과 추천, 요약 등 다양한 서비스에서…
[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
오늘은 기존에 연구하던 논문과는 집중하는 문제가 약간 다른 논문을 리뷰해보려고 합니다. 바로 Video-Text Model 인데, Mobile에 특화된 모델이라고 합니다. 바로 시작하겠습니다. 1. Introduction 최근 비디오-텍스트…
[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment
오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…
[ICCV 2025] DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding
다시 비디오 이해와 관련한 태스크 리뷰를 수행해보겠습니다. MLLM에서 비디오 표현을 위한 설계를 다룬 논문인 것 같아 읽게되었습니다. 1. Introduction 멀티모달 대형 언어모델(MLLM)의 발전은 이미지 기반의…
[NAACL 2025] DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
오랜만에 Video-Text Retrieval 태스크에 대해 리뷰해보겠습니다. 성능을 급격하게 상승시킨 논문이라서 리뷰하게 되었습니다. 바로 시작해보겠습니다. 1. Introduction 최근 비디오-텍스트 검색(Video-Text Retrieval, VTR) 성능 향상은 CLIIP이라는 강력한…
[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction
ICCV 2025 억셉 리스트가 공개되었고, 제목에 이끌려 읽게된 논문에 대해 리뷰해보겠습니다. 오늘 알아볼 논문은, 멀티모달 러닝 태스크입니다. 다양한 모달리티를 어떻게 학습하면 좋을까? 에 대한 연구는…
2025년 상반기 회고문 @홍주영
2025년 상반기가 마무리되며, 저의 박사과정 3학기도 어느덧 끝을 향해 달려가고 있습니다. 이제 본격적인 방학이 시작된 만큼, 연구 모드에 들어가기 앞서 상반기를 정리해보는 시간을 가져보겠습니다. 0….
안녕하세요 질문 감사드립니다 우선 해당 결과는 학습 데이터 편향으로 보시면 좋을 것 같습니다. late fusion 구조의 한계란, VLM 모델이 질문에…