Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[EMLLP 2023] Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
안녕하세요 이번에 들고온 논문은 VLM 들도 사람과 비슷하게 착시를 겪는지? 를 분석한 논문입니다. 그럼 리뷰 시작하겠습니다. Abstract Vision-Language Models 즉 VLMs 들은 인간이 생성한 방대한…
[arXiv 2025] DREAMGEN: Unlocking Generalization in Robot Learning through Video World Model
안녕하세요 오늘은 로봇 데이터에 관한 논문을 가지고 왔습니다. NVIDIA에서 제시한 DreamGen이라는 방법론입니다. VLA를 보면 볼 수록 아무래도 데이터의 갯수가 많지 않다보니까 특정 데이터에 편향되는 모습을…
[arXiv 2026] FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models
안녕하세요 최인하입니다. 이번에 리뷰할 논문은 Affordance를 이용하여 Dextreous hand의 How to grasp 부터 where to grasp까지 해결한 파이프라인을 제시하는 논문입니다. 물체를 용도에 맞게 사용하는 것…
[CVPR2025] Self-Supervised Spatial Correspondence Across Modalities
안녕하세요, 2025 CVPR에 붙은 현재 인용 수 1인 따끈따끈한 논문을 소개해볼까합니다. 해당 논문이 풀고하는 문제는 GT가 없는 상황에서의 matching입니다.위 그림을 보시면 알겠지만, multi-spectral뿐만 아니라, photo-Sketch처럼…
[TMLR 2026] A Survey of Token Compression for Efficient Multimodal Large Language Models (1)
안녕하세요. 오늘의 X-Review는 MLLM에서의 이미지, 비디오, 오디오 관련 token compression 서베이 논문을 소개해드리고자합니다. 저번주 Audio-Visual Question Answering task에 대한 논문을 제출한 뒤, 졸업 전까지 VLM을…
[RA-L 2022]Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation
안녕하세요. 이번에 리뷰할 논문은 RAL 2022년에 올라온 Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation 이라는 데이터셋 논문입니다. 바로 리뷰…
[CVPR 2025] LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant
지난 리뷰에서와 동일하게 이번에도 Universal Multimodal Retrieval 페이퍼를 리뷰해보겠습니다. 1. Introduction 최근 멀티모달 정보 검색은 CLIP 같은 VLP 의 성공을 바탕으로 빠르게 발전했지만, 동시에 retrieval…
[ICLR 2025] GENERATIVE REPRESENTATIONAL INSTRUCTION TUNING
안녕하세요. 오늘은 LLM의 생성 능력과 임베딩 능력을 하나의 모델로 통합하려는 GRIT(Generative Representational Instruction Tuning) 논문을 리뷰하고자 합니다. 최근 MLLM 기반 생성 모델을 검색에도 함께 활용하려는…
[arXiv 2026] EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
안녕하세요, 이번주는 NVIDIA에서 최근에 발표한 연구에 대해 리뷰해보려고 합니다. 최근 로봇 데이터가 아닌 다른 도메인의 데이터가 어떻게 학습에 사용될까?에 대한 궁금증이 늘 있는데, 해당 연구에서…
[CVPR 2025]RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete
지난번에 리뷰한 PhysToolBench 논문에 RoboBrain 논문이 있어서 궁금해서 읽어보게 되었습니다. 2025년 2월에 공개된 논문으로, 이후에 9월에 RoboBrain 2.0 리포트가 나온 것 같습니다. Abstract 최근 MLLMs의…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…