X-Review – Page 6 – Robotics and Computer Vision Lab

[arxiv 2026′] VLA-JEPA Enhancing Vision-Language-Action Model with Latent World Model

안녕하세요. 이번 x-review는 기존 VLA 아키텍쳐에 JEPA 기반 video world model 과의 결합을 다룬 논문입니다. 요즘 제가 다루는 LeJEPA기반 LeWM이 real-world robotic task나 흔히 사용되던…

Paper X-Review

[arXiv2025]Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

본 논문은 특별한 학습없이 다양한 모달리티의 foundation model을 에이전트 구조로 통합하여 모달리티 통합 시스템(omni-modal reasoning)을 세팅할 수 있음을 보인 연구입니다. 본 내용에 대해서는 이어서 더욱…

X-Review

[HRI 2026] CareEval: Evaluating Large Language Models for Decision-Making in Physical Robot Caregiving

안녕하세요. 이번에는 물리적 로봇 돌봄에서 LLM을 얼마나 믿을 수 있는지 평가한 논문을 읽어보게 되었습니다. 쉽게 말하면, 로봇이 사람을 실제로 들어주고, 씻겨주고, 옷 입히는 상황에서 LLM이…

X-Review

[CoRL 2025] CoRI: Communication of Robot Intent for Physical Human-Robot Interaction

안녕하세요. 최근에 부쩍 HRI(Human Robot Interaction)에 관심이 많아져 이런 저런 논문을 찾아보고 있는데요. 마침 재밌는 논문을 찾아 읽어보게 되었습니다. 사람과 로봇이 상호작용할 때 로봇이 어떤…

Paper X-Review

[NeurIPS 2025] Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention

안녕하세요 이번에 들고온 논문도 마찬가지로 VLM 에서의 Token pruning 논문입니다. Abstract 대형 Vision-Language Models (LVLMs) 는 일반적으로 텍스트 토큰보다 훨씬 많은 수의 시각 토큰을 포함하고…

X-Review

[IROS 2025] FSGlove: An Inertial-Based Hand Tracking System with Shape-Aware Calibration

안녕하세요 최인하입니다. 로봇 데이터를 취득하기 위해서 사용되는 방법들 중 Teleoperation은 로봇을 시연자가 직접 조작하기 때문에 로봇 embodiment에 맞는 정교한 데이터를 취득할 수 있습니다. 하지만 시연자가…

X-Review

[CVPR 2026(Highlight)]CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

Abstract CLIP은 두드러지는 객체에 대한 단순한 설명을 인코딩하도록 학습되었으며, 이로 인해 복잡한 장면이나 밀도 높은 description에 대해서는 이미지와 텍스트 사이의 정력이 잘 맞지 않는 문제가…

X-Review

[CVPR 2024] BoQ: A Place is Worth a Bag of Learnable Queries

안녕하세요 다시 Visual Place Recognition 논문으로 돌아왔습니다. 오늘 소개할 논문은 Learnable Query를 이용하여 VPR을 진행하는 논문입니다. 정말 간단한 구조로 이루어져 있지만 높은 성능을 달성하였습니다. 시작해보겠습니다….

Paper X-Review

[ICLR 2026] UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos

안녕하세요. 이번에 리뷰로 가져온 논문은 ICLR 2026에 게재된 UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos라는 논문입니다. 이 논문은 제목 그대로 city-tour video 도시 투어…

X-Review

[2025 NIPS] HoliTom : Holistic Token Merging for Fast Video Large Language Models

안녕하세요. 이번에 소개할 논문은 video LLM의 추론 효율성을 개선하기 위한 token merging 방법을 제안한 논문입니다. 기존 연구들은 LLM에 입력되기 전에는 temporal merging과 spatial merging을 통해…

Category: X-Review

[arxiv 2026′] VLA-JEPA Enhancing Vision-Language-Action Model with Latent World Model

[arXiv2025]Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

[HRI 2026] CareEval: Evaluating Large Language Models for Decision-Making in Physical Robot Caregiving

[CoRL 2025] CoRI: Communication of Robot Intent for Physical Human-Robot Interaction

[NeurIPS 2025] Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention

[IROS 2025] FSGlove: An Inertial-Based Hand Tracking System with Shape-Aware Calibration

[CVPR 2026(Highlight)]CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

[CVPR 2024] BoQ: A Place is Worth a Bag of Learnable Queries

[ICLR 2026] UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos

[2025 NIPS] HoliTom : Holistic Token Merging for Fast Video Large Language Models

Conference Deadline

NEW POST

New Comment