Author: 김 현우
[ACM MM 2023] MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer
안녕하세요, 이번 X-Review에선 23년도 MM 학회에 게재된 MH-DETR이라는 논문을 소개해드리고자 합니다. 기본적으로 저번 리뷰에서도 설명드렸던 Moment Retrieval (MR)과 Highlight Detection (HD)를 동시에 수행하는 방법론 중…
[CVPR 2023] Query-Dependent Video Representation for Moment Retrieval and Highlight Detection
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 <Query-Dependent Video Representation for Moment Retrieval and Highlight Detection>이라는 논문을 소개해드리겠습다. 성균관대 허재필 교수님 연구실에서 나온 논문이며, 해당…
[ECCV 2022] Simple Open-Vocabulary Object Detection with Vision Transformers
안녕하세요, 오늘의 X-Review는 22년도 ECCV에 게재된 Open-Vocabulary Object Detection (OVOD) 관련 논문입니다. 구글에서 진행된 연구네요. CLIP과 유사한 방식으로 영상과 텍스트 간 거대 사전학습을 수행한 후…
[AAAI 2022] Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining
안녕하세요, 오늘의 X-Review는 22년도 AAAI에 게재된 논문 <Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining>입니다. Video Localization 관련된 논문에 북경대 Yang Liu 교수님이…
[ECCV 2022] Zero-Shot Temporal Action Detection via Vision-Language Prompting
오늘의 X-Review에서는 Zero-shot 기반으로 Temporal Action Localization을 수행하기 위해 CLIP을 활용한 논문에 대해 소개해드리겠습니다. 22년도 ECCV에 게재되었습니다. 1. Introduction 22년도는 그 당시 CLIP의 등장으로 다양한…
[MDPI Applied Science 2024] VTG-GPT: Tuning-Free Zero-Shot Video Temporal Grounding with GPT
안녕하세요. 오늘의 X-Review에서는 GPT 등의 LLM을 활용해 Temporal Sentence Grounding in Video(TSGV) task를 수행하는 논문을 소개해드리겠습니다. 해당 논문은 중국 대학교에서 연구되었으며 24년도 MDPI Applied Science…
AAAI-24 학회 참관기
안녕하세요, 오늘은 저번 주 다녀왔던 2024년도 AAAI 학회 참관기를 작성해보겠습니다. 우선 저희 팀은 이번 AAAI에 <VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression> 논문이 accept되어 참석하게…
[AAAI 2023] Phrase-level Relationship Mining for Temporal Sentence Localization
오늘의 X-Review 또한 Temporal Sentence Grounding in Videos(TSGV) task 방법론으로 가져왔습니다. 23년도 AAAI에 게재되었으며 중국 북경대의 연구 결과입니다. 최근 연구실 전체적으로 제안서 작업이 한창인데요, 저희…
[CVPR 2023] You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos
안녕하세요. 이번 주 X-Review는 23년도 CVPR에 게재된 <You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos>입니다….
[CVPR 2023] Text-Visual Prompting for Efficient 2D Temporal Video Grounding
이번 주차 X-Review 또한 Temporal Sentence Grounding in Videos(TSGV) 관련 논문입니다. 본 논문은 23년도 CVPR에 게재되었으며, 20, 21년도 근처의 초창기 방법론들을 익히던 와중 23년도 CVPR에…
안녕하세요 태주님 댓글 감사합니다. 답변을 드리자면, A1. 저자가 real data 수를 바꿔가며 실험을 진행할 때, Real data가 150개일땐 Real data…