Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2025]Is Image-based Object Pose Estimation Ready to Support Grasping?
안녕하세요. 손우진입니다. 제가 오늘 가져온 논문은 IROS 2025에 accept된 논문입니다. 근데 제가 본 논문은 arxiv ver2로 올린 논문이더라구요… 내용이 좀 많이 빠져있어서 어떻게 accept 된거지…
[arXiv 2025] Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
안녕하세요, 이번주는 3d object flow라는 개념을 활용한 open-world manipulation 연구를 리뷰해보려고 합니다. 최근 비디오 모델들의 물리적인, 시각적인 표현력이 급증하면서 manipulation 영상을 자연스럽게 생성할 수 있게…
[NeurIPS2025] MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details
Intro 본 논문의 task는 단안 영상을 입력으로 받아 깊이를 추정하는 task로 DepthAnything 시리즈나 marigold와 같은 foundation model에 관한 논문입니다. 저자들은 이상적인 Depth foundation 모델이 갖춰야…
[EMNLP 2025] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning
해당 논문은 텍스트-비디오 검색 연구에서도 LLM 및 CoT가 도입된 것 같아 읽어보게되었습니다. 1. Introduction 이 논문은 기존 텍스트-비디오 검색 시스템이 “왜 이 비디오가 검색되었는지” 를…
[RA-L 2024] LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition
오늘은 현재 제가 진행중인 실험과 관련이 있는, LiDAR-Camera Place Recognition과 관련된 논문 리뷰를 작성하고자 합니다. 컨셉적으로 많이 참신한 논문은 아닙니다만, 관련성 측면에서 정리해볼 겸 가져왔습니다….
[WACV 2024] CAD – Contextual Multi-modal Alignment for Dynamic AVQA
제가 이번에 리뷰할 논문도 Audio Visual Question answering 태스크를 다루는 논문입니다. 저희가 실험중인 성능과 비슷한 성능을 달성하기도 했고, 실험 성능중 Audio 와 관련된 성능은 저희…
[arXiv 2025]Deep Video Discovery : Agentic Search with Tool Usefor Long-form Video Understanding
그래서 AI가 그렇게 좋다는데, 지금 기술로 Video Understanding은 어디까지 가능하지?와 같은 질문에 해답이 될 수 있는 논문을 소개합니다. 본 논문은 Agentic Search를 통한 Longvideo benchmark에서의…
[CoRL 2025] Robot Learning from Any Images
안녕하세요 이번주는 real to sim to real 접근을 통한 나름(?) 참신한 방법을 통해 로봇 데이터 scaling의 가능성을 제안한 연구를 리뷰해보려고 합니다. 많은 연구들이 sim to…
[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering
안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…
[CVPR 2025] Video Summarization with Large Language Models
안녕하세요 LLM을 사용하여 비디오 요약을 해결한 논문을 살펴보려고 합니다!리뷰 시작하겠습니다. <Intro> 기존 기술은 visual features(시각적 단서)와 temporal dynamics(시간적 특징)에 의존하는데 이 비전 정보 중심의 방법들은…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…