Author: 홍 주영
[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices
오늘은 기존에 연구하던 논문과는 집중하는 문제가 약간 다른 논문을 리뷰해보려고 합니다. 바로 Video-Text Model 인데, Mobile에 특화된 모델이라고 합니다. 바로 시작하겠습니다. 1. Introduction 최근 비디오-텍스트…
[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment
오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…
[ICCV 2025] DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding
다시 비디오 이해와 관련한 태스크 리뷰를 수행해보겠습니다. MLLM에서 비디오 표현을 위한 설계를 다룬 논문인 것 같아 읽게되었습니다. 1. Introduction 멀티모달 대형 언어모델(MLLM)의 발전은 이미지 기반의…
[NAACL 2025] DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
오랜만에 Video-Text Retrieval 태스크에 대해 리뷰해보겠습니다. 성능을 급격하게 상승시킨 논문이라서 리뷰하게 되었습니다. 바로 시작해보겠습니다. 1. Introduction 최근 비디오-텍스트 검색(Video-Text Retrieval, VTR) 성능 향상은 CLIIP이라는 강력한…
[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction
ICCV 2025 억셉 리스트가 공개되었고, 제목에 이끌려 읽게된 논문에 대해 리뷰해보겠습니다. 오늘 알아볼 논문은, 멀티모달 러닝 태스크입니다. 다양한 모달리티를 어떻게 학습하면 좋을까? 에 대한 연구는…
2025년 상반기 회고문 @홍주영
2025년 상반기가 마무리되며, 저의 박사과정 3학기도 어느덧 끝을 향해 달려가고 있습니다. 이제 본격적인 방학이 시작된 만큼, 연구 모드에 들어가기 앞서 상반기를 정리해보는 시간을 가져보겠습니다. 0….
[CVPR 2025] Language-Guided Image Tokenization for Generation
오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…
[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval
오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…
[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….
[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment
오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…
안녕하세요 우현님 리뷰 감사합니다. 궁금한점이 있는데 ImageNet에서의 연산량 감소하는 부분에서 사전에 토큰 셀렉터가 학습되는 과정까지 포함된 수치인지 궁금합니다. 그리고 figure4는…