Author: 홍 주영

Posted in X-Review

[ICCV 2025] MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

오늘은 기존에 연구하던 논문과는 집중하는 문제가 약간 다른 논문을 리뷰해보려고 합니다. 바로 Video-Text Model 인데, Mobile에 특화된 모델이라고 합니다. 바로 시작하겠습니다. 1. Introduction 최근 비디오-텍스트…

Continue Reading
Posted in X-Review

[ICCV 2023] Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment

오랜만에 Text-to-Video Retrieval (VTR) 연구에 대해 리뷰해보려고 합니다. 최근 비디오에 포함되어 있는 ‘오디오’라는 모달리티를 활용하는 연구로도 지속적인 관심이 생겨나고 있는 것 같은데, VTR에서는 어떻게 연구가…

Continue Reading
Posted in X-Review

[ICCV 2025] DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding

다시 비디오 이해와 관련한 태스크 리뷰를 수행해보겠습니다. MLLM에서 비디오 표현을 위한 설계를 다룬 논문인 것 같아 읽게되었습니다. 1. Introduction 멀티모달 대형 언어모델(MLLM)의 발전은 이미지 기반의…

Continue Reading
Posted in X-Review

[NAACL 2025] DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models

오랜만에 Video-Text Retrieval 태스크에 대해 리뷰해보겠습니다. 성능을 급격하게 상승시킨 논문이라서 리뷰하게 되었습니다. 바로 시작해보겠습니다. 1. Introduction 최근 비디오-텍스트 검색(Video-Text Retrieval, VTR) 성능 향상은 CLIIP이라는 강력한…

Continue Reading
Posted in X-Review

[ICCV 2025] Everything is a Video: Unifying Modalities through Next-Frame Prediction

ICCV 2025 억셉 리스트가 공개되었고, 제목에 이끌려 읽게된 논문에 대해 리뷰해보겠습니다. 오늘 알아볼 논문은, 멀티모달 러닝 태스크입니다. 다양한 모달리티를 어떻게 학습하면 좋을까? 에 대한 연구는…

Continue Reading
Posted in Ph.D. X-Diary

2025년 상반기 회고문 @홍주영

2025년 상반기가 마무리되며, 저의 박사과정 3학기도 어느덧 끝을 향해 달려가고 있습니다. 이제 본격적인 방학이 시작된 만큼, 연구 모드에 들어가기 앞서 상반기를 정리해보는 시간을 가져보겠습니다. 0….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Language-Guided Image Tokenization for Generation

오늘부터는 CVPR 2025의 Oral 및 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려 합니다. 이번에 살펴볼 논문은 박성준 연구원의 CVPR 참관기 세미나에서 소개되었던 페이퍼로, 제가 집중하지 않는…

Continue Reading
Posted in Conference X-Review

[ECCV 2024] KDProR: A Knowledge-Decoupling Probabilistic Framework for Video-Text Retrieval

오늘도 CLIP 기반의 Video-Text Retrieval 에 대한 리뷰입니다. 학습 시 정보를 잊는다는 것을 극복하고자 “외부 저장소”라는걸 추가했다는 것이 제법 재밌는 생각인 것 같습니다. 1. Introduction…

Continue Reading
Posted in X-Review

[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Rethinking Noisy Video-Text Retrieval via Relation-aware Alignment

오늘은 Video-Text Retrieval 중에서도, 비디오-텍스트 정렬이 맞지 않은 noisy한 상황에 집중한 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Huakai Lai, Guoxin Xiong, Huayu Mai, Xiang Liu,…

Continue Reading