[ICCV2025] Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching
이번에 소개드릴 논문은 ICCV2025에 게재된 논문으로 feature matching task를 다루고 있습니다. 제가 예전에 homography estimation 논문을 작성할 때 feature matching 방법론들 논문을 종종 보곤 했었는데…
[ICCV 2025] RoboPearls: Editable Video Simulation for Robot Manipulation
안녕하세요, 이번주는 RoboPearls라는 비디오 기반의 시뮬레이션 환경을 제안한 논문을 리뷰해보려고 합니다. 이번 논문은 사실 승현님이 LLM과제에 활용할 수 있지 않을까 하시면서 알려주신 논문입니다. LLM과 3DGS를…
[TMM 2025] Spatial-Temporal Saliency Guided Unbiased Contrastive Learning for Video Scene Graph Generation
안녕하세요, 허재연입니다. 이번에도 video 기반의 Scene Graph Generation(SGG) 논문을 들고 왔습니다. 오늘 다룰 논문은 IEEE TRANSACTIONS ON MULTIMEDIA(TMM)에 게재된 논문으로, object의 식별에 집중한 논문입니다. 리뷰…
[CVPR 2025] UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection
안녕하세요, 71번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection 입니다. 바로 시작하도록 하겠습니다. 1. Introduction 기존…
[ACM MM 2024] Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
안녕하세요. 오늘의 X-Review는 24년도 ACM MM 학회에 게재된 AVQA(Audio-Visual Question Answering) task 방법론 논문입니다. AVQA task와 관련된 내용은 논문과 함께 설명드리겠습니다. 1. Introduction 저는 최근까지…
[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR 2025 Highlight 논문으로 Video Question Grounding(VQG)을 다룬 논문입니다. Introduction Video Question Answering(VideoQA)는 비디오와 자연어 질문을 입력 받아서 해당…
[CVPR2025] NVILA: Efficient Frontier Visual Language Models
오늘 소개드릴 논문은 CVPR2025에 게재된 NVIDIA 논문이고 제목에서도 보시면 아시다시피 효율적인 VLM을 만드는 방법에 대해서 소개하는 논문입니다. 근데 제가 논문을 검색해서 찾을 때는 CVPR 포멧이…
[ICCV 2025]A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation
제가 이번에 리뷰할 논문은 ICCV 2025에 paper list에 있는 논문입니다. 2단계로 이루어져서 affordance를 찾고 그에 대한 action을 생성하는 과정으로 이루어집니다. affordance learning이 실제 application에 적용되도록…
[IEEE CBMI 2024]Is CLIP the main roadblock for fine-grained open-world perception?
안녕하세요 오늘 논문은 CLIP을 사용하면서 fine-grained 레벨의 객체를 찾는 논문을 찾다가 제목을 보고 읽게 되었습니다. 제목을 해석해보자면 CLIP이 세밀한 레벨에서의 open-world perception에 있어서 주된 병목,…
[Arxiv 2022]BinsFormer:Revisiting Adaptive Bins forMonocular Depth Estimation
안녕하세요 이번에 들고온 논문은 2022년에 arxiv에 올라온 BinsFormer:Revisiting Adaptive Bins forMonocular Depth Estimation라는 논문입니다.이번에는 이전에 리뷰했던 Scale Depth의 근간이 되는 BinsFormer를 직접 읽어보면서, 무엇이 핵심…
안녕하세요 성준님. 좋은 리뷰 감사합니다. Definition 2.1에서 G와 G'을 정의하는 부분이 잘 이해가 가지 않아 질문드립니다. 제가 이해하기로 G는 backward…