[ECCV 2024] InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
비디오 진영의 파운데이션 모델(Foundation Model)로 군림하던 InternVideo라는 모델이 있었는데요. 해당 논문에 대한 리뷰는 2023년 임근택 연구원이 읽기 쉽게 잘 정리해주신 걸 확인할 수 있었습니다: [InternVideo…
[CVPR 2023]Shape-Constraint Recurrent Flow for 6D Object Pose Estimation
안녕하세요 손우진입니다. 오늘 제가 소개드릴 논문은 단일 rgb 기반의 6D pose 입니다. 단일 rgb 같은 경우는 깊이정보가 없기 때문에 6D 정보를 찾아내는게 쉽지않습니다. 또한 6D…
[ICRA 2025] Discovering Object Attributes by Prompting Large Language Models with Perception-Action APIs
안녕하세요. 이번 X-Review에서는 로봇 관점에서 attribute를 알아내고자 하는 논문에 대해 다루어보려고 합니다. CaP나 VoxPoser와 마찬가지로 LLM이 직접 코드를 생성해 계층적으로 API를 호출하는 방식을 활용하며, 이를…
[Arxiv 2026] Agentic Very Long Video Understanding
안녕하세요.이번에 리뷰해볼 논문은 long video understanding에서 1시간 가량의 롱이 아닌 최대 50시간 정도의 베리롱!! VU를 다룬 논문입니다. 그럼 리뷰 시작하겠습니다. Intro 이 논문에서는 “very long…
[EMLLP 2023] Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
안녕하세요 이번에 들고온 논문은 VLM 들도 사람과 비슷하게 착시를 겪는지? 를 분석한 논문입니다. 그럼 리뷰 시작하겠습니다. Abstract Vision-Language Models 즉 VLMs 들은 인간이 생성한 방대한…
[arXiv 2025] DREAMGEN: Unlocking Generalization in Robot Learning through Video World Model
안녕하세요 오늘은 로봇 데이터에 관한 논문을 가지고 왔습니다. NVIDIA에서 제시한 DreamGen이라는 방법론입니다. VLA를 보면 볼 수록 아무래도 데이터의 갯수가 많지 않다보니까 특정 데이터에 편향되는 모습을…
[arXiv 2026] FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models
안녕하세요 최인하입니다. 이번에 리뷰할 논문은 Affordance를 이용하여 Dextreous hand의 How to grasp 부터 where to grasp까지 해결한 파이프라인을 제시하는 논문입니다. 물체를 용도에 맞게 사용하는 것…
[CVPR2025] Self-Supervised Spatial Correspondence Across Modalities
안녕하세요, 2025 CVPR에 붙은 현재 인용 수 1인 따끈따끈한 논문을 소개해볼까합니다. 해당 논문이 풀고하는 문제는 GT가 없는 상황에서의 matching입니다.위 그림을 보시면 알겠지만, multi-spectral뿐만 아니라, photo-Sketch처럼…
[TMLR 2026] A Survey of Token Compression for Efficient Multimodal Large Language Models (1)
안녕하세요. 오늘의 X-Review는 MLLM에서의 이미지, 비디오, 오디오 관련 token compression 서베이 논문을 소개해드리고자합니다. 저번주 Audio-Visual Question Answering task에 대한 논문을 제출한 뒤, 졸업 전까지 VLM을…
[RA-L 2022]Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation
안녕하세요. 이번에 리뷰할 논문은 RAL 2022년에 올라온 Socially CompliAnt Navigation Dataset (SCAND) A Large-Scale Dataset of Demonstrations for Social Navigation 이라는 데이터셋 논문입니다. 바로 리뷰…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…