Author: 박 성준
[NIPS2023]MomentDiff: Generative Video Moment Retrieval from Random to Real
안녕하세요. 오늘 리뷰할 논문은 디퓨전을 사용해 Moment Retrieval을 다룬 MomentDiff 논문입니다. Abstract 비디오 Moment Retrieval은 주어진 텍스트 설명에 해당하는 특정 구간을 비디오 영상으로부터 식별하기 위한…
[CVPR2023]Weakly Supervised Temporal Sentence Grounding with Uncertainty-Guided Self-training
안녕하세요 박성준 연구원입니다. 제가 오늘 리뷰할 논문은 Moment Retrieval을 weak supervision으로 다룬 방법론입니다. weakly supervised moment retrieval은 영상과 자연어 쿼리만 주어지고 쿼리에 해당하는 구간이 annotation이…
[CVPR2024]Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection
안녕하세요. 박성준입니다. 제가 오늘 리뷰할 논문은 바로 CVPR 2024에 등재된 UVCOM입니다. UVCOM은 Unified Video COMprehension의 약자로 Moment Retrieval과 Highlight Detection task를 다룰 수 있는 Unified…
[ICCV2023]Unified Coarse-to-Fine Alignment for Video-Text Retrieval
안녕하세요. 오늘 다룰 논문은 ICCV 2023의 Unified Coarse-to-Fine Alignment for Video-Text Retrieval(UCoFIA)입니다. CLIP 기반의 text-video task에서 SOTA를 달성했었던 모델입니다. Abstract Moment Retrieval에서 흔히 사용되는 방법…
[CVPR2024]Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges
안녕하세요. 박성준입니다. 오늘의 x-review는 2024 CVPR에 개재된 UCA 데이터셋입니다. Introduction 감시 영상은 보안에 관련해 많은 관심을 이끌고 있지만, 기존의 감시 영상 데이터셋들은 이상 사건들을 분류하고…
[ICCV2021]Zero-shot Natural Language Video Localization(PSVL)
안녕하세요. 박성준입니다. 오늘은 또 다른 Moment Retrieval 리뷰입니다. Moment Retrieval은 자연어 쿼리에 해당하는 구간을 비디오에서 찾아서 반환하는 task입니다. input으로 untrimmed video(편집되지 않은 영상)와 text query가 주어지고,…
GPT(Generative Pre-trained Transformer)
안녕하세요. 박성준입니다. 최근에 Moment Retrieval에 대해 서베이를 진행하며 관련 논문을 읽던 중 비디오와 텍스트를 활용하는 task의 특성상 자연어 처리에 대한 이해가 부족해 이해가 안되는 경우가…
[ICCV2023]UniVTG: Towards Unified Video-Language Temporal Grounding
안녕하세요. 박성준입니다. 오늘 제가 리뷰할 논문은 ICCV2023에 개제된 UniVTG입니다. 해당 논문은 3가지 task를 통합한 Unified 프레임워크를 제시하며 Moment Retrieval, Highlight Detection, Video Summarization에서 좋은 성능을…
[ICCV2023]UnLoc: A Unified Framework for Video Localization Tasks
안녕하세요 오늘은 또 다른 moment retrieval 논문입니다. trimmed video을 다루는 tasks에서는 CLIP과 같은 image-text 사전 학습 모델을 활용하는 연구가 많이 진행되고 있습니다. 하지만, untrimmed video를…
[AAAI2019]Multilevel Language and Vision Integration for Text-to-Clip Retrieval
안녕하세요. 오늘은 moment retrieval (video temporal grounding) task를 다룬 논문입니다. 바로 리뷰 시작하겠습니다. 이 논문은 untrimmed video(편집되지 않은 영상)에서 자연어 쿼리를 통해 temporal segments를 retrieving하는…
최신 댓글