Author: 김 현우
[NeurIPS 2022] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
안녕하세요. 이번 주 X-Review에서는 22년도 NeurIPS에 게재된 논문 <Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts>를 소개해드리겠습니다. 본 논문은 현재 구글 딥마인드로 병합된…
[arXiv 2024] MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
안녕하세요, 이번 주도 Video Moment Retrieval task와 관련하여 리뷰를 작성해보겠습니다. 오늘 소개해드릴 논문은 올해 6월 arXiv에 게재된 <MLLM as Video Narrator: Mitigating Modality Imbalance in…
[arXiv 2023] LLM4VG: Large Language Models Evaluation for Video Grounding
안녕하세요, 이번 주 X-Review에서는 23년도 말 arXiv에 게재된 <LLM4VG: Large Language Models Evaluation for Video Grounding> 이라는 논문을 소개해드리겠습니다. 방법론 논문은 아니고, 현존하는 LLM과 Multi-modal…
[ICCV 2023] Verbs in Action: Improving Verb Understanding in Video-Language Models
제가 현재 연구주제로 잡은 task인 Moment Retrieval은 사용자의 텍스트 쿼리를 입력받아 길고 다양한 컨텐츠를 포함하고 있는 untrimmed video 내에서 상응하는 구간을 찾아내는 것이 목적입니다. 처음에는…
[AAAI 2024] Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval
안녕하세요. 이번 주 X-Review에서 소개해드릴 논문은 24년도 AAAI에 게재된 <Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video Moment Retrieval> 입니다. 본 논문은 제가 요즘 관심갖고…
2024년 상반기 회고
안녕하세요. 오늘은 벌써 모두 지나가버린 2024년도 상반기 회고록을 작성해보겠습니다. 올해 상반기가 모두 지남에 따라 저는 석사 1학기를 보내었고 어느덧 연구실 만 2년 반차가 되었습니다. 말…
[CVPR 2024] Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection
안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 2024년도 CVPR에 게재된 <Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection> 입니다. 우선 본 논문은…
[AAAI 2024] TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
안녕하세요. 오늘의 X-Review는 24년도 AAAI에 게재된 <TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection> 논문입니다. 비디오 도메인에서 Moment Retrieval과 Highlight Detection task를 동시에…
Protected: [MM 2024 (Under Review)] Enhancing …
There is no excerpt because this is a protected post.
[arXiv 2024] Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding
안녕하세요. 이번 X-Review에서 소개해드릴 논문은 제가 이전에 작성했던 리뷰 QD-DETR의 후속 연구 논문 CG-DETR입니다. QD-DETR과 동일한 성균관대 한국인 박사님의 연구이며, ECCV에 제출한 뒤 이제 리비전을…
댓글 감사합니다. 이해하신 과정이 맞습니다. Descriptor 라는 것은 '현재 입력으로 들어간 이미지/point clouds 데이터를 대표하는 global vector' 라고 생각하시면 됩니다.…