Author: rcvlab
[ICCV 2023] Localizing Moments in Long Video Via Multimodal Guidance
이 논문의 주요 키워드 Temporal Grounding Moment Retrieval Long-form video 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Temporal Grounding에 대한 이해 (Moment-DETR 리뷰) 안녕하세요. 백지오입니다….
[NIPS 2021] QVHIGHLIGHTS: Detecting Moments and Highlights in Videos via Natural Language Queries (Moment-DETR)
이 논문의 주요 키워드 Temporal Grounding Moment Retrieval Highlight Detection DETR 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에 대한 이해 (CLIP 리뷰…
[ICLR 2022] Open-Vocabulary Object Detection via Vision and Language Knowledge Distillation
이 논문의 주요 키워드 Open-Vocabulary Object Detection Knowledge Distillation 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에 대한 이해 (CLIP 리뷰 파트 1,…
[arxiv 2023] Weakly Supervised Vision-and-Language Pre-training with Relative Representation
이 논문의 주요 키워드 Weakly Supervised Vision-Language Pre-training (UVLP, WVLP) Non-parallel Image-Text Data Relative Representation 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에…
[CVPR 2022] Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment
이 논문의 주요 키워드 Weakly Supervised Vision-Language Pre-training (UVLP, WVLP) Non-parallel Image-Text Data 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에 대한 이해…
2023년을 보내면서 – 백지오
안녕하세요. 백지오입니다. 어느새 제가 연구실에 들어온 지도 1년이 지났습니다.작년 이맘때 URP를 진행하며 연구라는 진로에 대해 고민한 기억이 생생한데 어느새 연구실에 점차 적응해나가고 있는 스스로의 모습을…
[CVPR 2023] Clover: Towards A Unified Video-Language Alignment and Fusion Model
이 논문의 주요 키워드 Universal Video-Language Pre-training Multi-modal Fusion & Alignment Semantic Enhanced Masked Language Modeling 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive…
[MM 2022] X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval
이런 분들께 이 논문을 추천드립니다. CLIP을 비디오에 적용하는 방식에 흥미가 있으신 분 Video Text Retrieval에서 fine-grained와 coarse-grained를 모두 활용하는 cross-grained 방식이 궁굼하신 분 이 논문을…
[Neurocomputing 2022] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
이런 분들께 이 논문을 추천드립니다. CLIP을 비디오에 적용하는 방식에 흥미가 있으신 분 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. Multi-modal contrastive learning에 대한 이해 (CLIP…
[ECCV 2022] LocVTP: Video-Text Pre-training for Temporal Localization
이런 분들께 이 논문을 추천드립니다. Video-Text Pre-training에 관심 있으신 분 Temporally aware한 feature를 위한 context warping에 흥미가 있으신 분 이 논문을 깊게 이해하려면 다음 지식이…
최신 댓글