Author: 홍 주영
[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…
[CVPR 2023] Clover : Towards A Unified Video-Language Alignment and Fusion Model
Video-Language understanding 연구에 대해 리뷰해보겠습니다. Conference: CVPR 2023 Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji Affiliation: Key Laboratory of Multimedia…
[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos
오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…
[2022 Neurocomputing]CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning
오늘 리뷰할 논문은 이미지-텍스트 사전학습 모델인 CLIP을 비디오-텍스트 검색(Video-Text Retrieval)으로 확장한 모델인 CLIP4Clip에 관한 것입니다. 저자는 CLIP의 강력한 멀티모달 표현력을 활용하면서도, 비디오라는 시간 정보를 가진…
[Arxiv 2024] Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation
오늘도 Open-vocabulary Scene Graph Generation (Ov-SGG) 에 대한 논문을 리뷰하겠습니다. Ov-SGG에서는 학습 때 보지 못한 객체(object)나 객체 사이의 관계(relation)도 예측해야 합니다. 저는 현재 이 novel…
[EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
오늘 리뷰할 논문은 Vision-Language Models(VLM)의 Compositional Reasoning 능력을 향상시키면서 멀티모달 성능을 유지하는 방법에 대한 것입니다. Compositional Reasoning이란 개별 요소(예: 단어, 이미지 특징 등)를 조합해 새로운…
[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training
오늘 리뷰할 논문은 Vision-Language Pre-training(VLP) 과정에서 발생하는 “false negatives” 문제를 다룹니다. Vision Language Model (VLM)은 웹에서 수집한 이미지-텍스트 페어를 활용해 학습합니다. 학습 시, 하나의 이미지에…
[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models
오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…
[홍주영] 2024년을 보내면서
벌써 저의 박사과정 1년차가 마무리되었습니다. 2024년이 끝나가는 지금, 한 해를 돌아보는 시간을 가져보려고 합니다. 🎆 2023년 다짐의 달성률은? 지난 해 2023년을 마무리하며, 2024년에 이루길 바란…
[ECCV 2024] HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
이번에는 하이퍼볼릭 임베딩을 활용한 이미지-텍스트 데이터 필터링에 대한 논문을 리뷰해보겠습니다. 보다 구체적으로 말하자면, 단순히 이미지-텍스트 사이의 정렬만 집중하는 것이 아닌 CLIP에 Hyperbolic Embedding을 추가하여 데이터의…
최신 댓글