Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering
안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…
[RSS 2024] Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots
안녕하세요! 이번 리뷰는 로봇의 데이터 취득에 관련된 논문을 들고 왔습니다. Data-driven robotics 관점에서 핵심적인 요소는 데이터 그 자체라고 할 수 있습니다. 이 논문은 쉽고 빠르게…
[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus
1. Introduction 최근 대규모 텍스트 코퍼스와 멀티모달 데이터를 바탕으로 학습된 LLM과 이를 시각 모달리티로 확장한 LVLM은 다양한 태스크를 해결하기 위한 표준 모델로 사용되고 있습니다. 이들…
[WACV 2026] UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 slot attention 및 object branch / relation branch 병렬 구조를 적용하여 Pixel-Level / Box-Level Video Scene Graph Generation을 수행할 수…
DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning
안녕하세요 최인하입니다. 이번에 리뷰할 논문은 Dexterous hand manipulation 관련 논문을 서베이 하면서 조사했던 논문을 리뷰해 보려고 합니다. 바로 시작하겠습니다. Abstract Human demonstration을 기반으로 한 imitation…
[NeurIPS 2020]Object-Centric Learning with Slot Attention
제가 이번에 리뷰할 논문은 Slot Attention 이라는 개념을 도입한 논문입니다. Object-centric 이라는 표현이 이 논문에서 처음 등장한 것은 아니지만, 이미지가 여러 객체들의 조합으로 표현이 가능하다는…
[ICRA 2024]NoMaD : Goal Masked Diffusion Policies for Navigation and Exploration
안녕하세요. 이번에 소개드릴 논문은 ICRA 2024에 게재된 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration이라는 논문입니다. GNM, ViNT에 이어 UC 버클리 Sergey Levine 교수님…
[NeurIPS 2025] PhysX-3D: Physical-Grounded 3D Asset Generation
안녕하세요 이번주는 3D 생성 모델에 대한 리뷰를 진행해보려고 합니다. 3D 생성 모델들은 다량의 합성 데이터를 바탕으로 기하와 텍스쳐의 복원 능력이 좋아지면서 최근에 등장한 structured latent…
[Neurips2022] FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness
이번에 소개드릴 논문은 FlashAttention이라는 논문입니다. 사실 FlashAttention은 예전부터 경량화 관련된 논문을 읽으면 자주 등장했던 용어로 제가 관심을 가지고 있었는데 계속 미루고 미루다가 이번에 한번 읽어보게되었습니다….
[ICML 2025] Visual Abstraction: A Plug-and-Play Approach for Text-Visual Retrieval
오늘은 늘 리뷰하던 Text-Video Retrieval이 아닌 Text-Visual Retrieval 페이퍼를 리뷰해보겠습니다 1. Introduction Text-Visual Retrieval은 사용자가 입력한 문장을 기반으로 가장 관련 있는 이미지나 영상을 찾는 작업입니다….
안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…