[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Conference Paper X-Review

[ICLR 2024] FeatUp: A Model-Agnostic Framework for Features at Any Resolution

이번 논문은 제목 그대로 모델 무관하게 특징맵의 해상도를 변경 가능하도록 하게 해주는 기법입니다. Intro 최근 인공지능 분야에서는 foundation model의 등장으로 해당 모델을 고정하여 추출된 특징맵을…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval

안녕하세요 이번 주 X-Review는 arXiv에 업로드되어있는 QD-VMR이라는 방법론입니다. 비디오 분야의 Moment Retrieval task를 수행하며, 포맷상 25년도 AAAI에 제출된 것으로 보입니다. 해결하고자 하는 문제가 제가 지금…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

안녕하세요, 마흔 네번째 x-review 입니다. 이번 논문은 2024년도 ECCV에 게재된 Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text…

Continue Reading
Posted in X-Review

[NIPS2023]CAST: Cross-Attention in Space and Time for Video Action Recognition

안녕하세요. 박성준입니다. 오늘 제가 할 리뷰는 KCCV 2024 포스터 및 오랄 발표 논문으로 video understanding 연구를 진행한 CAST 논문입니다. 먼저 Video Action Recognition는 영상 내…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] Open-Vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

안녕하세요, 마흔두 번째 X-Review입니다. 이번 논문은 2023년도 ICCV에 게재된 Open-Vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Model로…

Continue Reading
Posted in News Paper X-Review

[NIPS 2023] Understanding the latent space of diffusion models through the lens of riemannian geometry

안녕하세요, 정의철 연구원입니다. 이번에 소개할 논문은 지난번 KCCV 학회에 참관했을 때 포스터 세션에서 접하게 된 논문인데, 제목은 ‘Latent Space Geometry in Diffusion Models’입니다. 이 논문은…

Continue Reading
Posted in X-Review

[arXiv 2024]WorldAfford: Affordance Grounding based on Natural Language Instructions

제가 이번에 리뷰할 논문도 affordance grounding분야의 논문입니다. 제가 이전에 리뷰했던 Affordance Grounding 관련 논문들은 action이나 대상 object에 대해 단순한 방식이나 정해진 템플릿으로 입력하여 그에 해당하는…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos

안녕하세요. 이번주 X-Review는 오랜만에 다시 비디오의 Moment Retrieval task 논문으로 돌아왔습니다. 소개해드릴 BAM-DETR이라는 논문은, 보통 Moment Retrieval과 Highlight Detection이라는 2가지 task를 동시에 수행하는 DETR 기반의…

Continue Reading
Posted in X-Review

[INTERSPEECH 2024]SELM: Enhancing Speech Emotion Recognition for Out-of-Domain Scenarios

Introduction Speech Emotion Recognition은 사람의 음성이 나타내는 감정을 인식하는 task입니다. 사람은 일반적으로 음성 대화 과정에서 다양한 감정을 표현하고 있기 때문에, 대화의 맥락을 이해하고 적절히 반응하기…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation

안녕하세요, 마흔 세번째 x-review 입니다. 이번 논문은 2024년도 ECCV에 게재된 OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation 입니다. 23년도에 처음으로 3D detection에서…

Continue Reading