X-Review – Page 13 – Robotics and Computer Vision Lab

[CVPR 2026] VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

안녕하세요 오늘은 CVPR 2026에 accept된 video understanding 연구를 리뷰해보겠습니다.요즘 저는 적은 프레임, 작은 모델을 사용하면서도 성능은 어느 정도 나오는 효율적인 프레임워크들을 관심있게 보고 있는데요! 이…

X-Review

[arXiv 2026] Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

안녕하세요, 이번주는 RSS 2026에 submit된 Co-training 연구를 리뷰해보려고 합니다. 시뮬레이션 데이터는 현실 데이터와 함께 co-training되면서 low-cost로 VLA training을 풍부하게 해주는데, 대부분의 co-training 연구들은 SFT 방식으로…

X-Review

[arXiv 2026] VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

안녕하세요. 이번에 소개할 논문은 VLM의 fine-grained visual reasoning failure 분석에 관한 논문입니다. VLM이 광범위한 멀티모달 태스크에서는 좋은 성능을 보이고 있지만, 종종 fine-grained한 reasoning을 필요로하는 태스크에서는…

Conference X-Review

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

지난번 세미나 때 공유드린 논문인데 좋은 논문이라 x리뷰로도 작성해보고자 합니다. Intro 해당 논문은 영상 생성 분야에서 좋은 모습을 보여주고 있는 diffusion 방법론들이 대부분 Stable Diffusion…

X-Review

[AAAI 2026 (oral)]A3D: Adaptive Affordance Assembly with Dual-Arm Manipulation

제가 연구하고 있는 분야의 affordance의 실용성을 보이기 위해서는 장기 작업으로의 적용이 필요하다는 생각을 하고 있습니다. 해당 논문은 실제 로봇으로 적용하여, 가구 조립이라는 장기 작업을 수행하는…

X-Review

[CVPR 2026] Learnability-Guided Diffusion for Dataset Distillation

안녕하세요, 박성준 연구원입니다. 최근 CVPR 2026에 accept된 논문들을 읽어보는 중에 흥미로운 주제를 발견하여 리뷰하고자합니다. 당분간은 CVPR 2026 논문들을 읽고 소개하려합니다. Before Review 리뷰할 논문이 다루는…

X-Review

[arXiv2025]Latent Collaboration in Multi-Agent Systems

멀티 에이전트간 빠르고 효율적인 소통 방법(MAS, multi-agent systems)을 제안한 연구를 소개하겠습니다. 본 연구는 에이전트간에 latent space에서 소통하였을때 효율 증가를 보이고 있습니다. Figure1에서 보면 제안한 latentMAS가…

X-Review

[ICLR 2026] DEXMOVE: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

안녕하세요 최인하입니다. Non-prehensile manipulation은 기존의 pick-and-place methods의 robust alternative가 될 수 있지만, multi-finger manipulation 분야에서 large-scale data의 부재 그리고 wrist-finger control polices의 부재로 인하여 연구가…

Paper X-Review

[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

안녕하세요 이번에 들고온 논문도 VLM 에서의 Token pruning 논문입니다. 최근에 나온 VLM token pruning 논문들의 성능이 훨씬 개선되기도 했지만, 24년도의 FastV와 마찬가지로 llm decoder단에서의 visual-text…

X-Review

[AAAI 2026] Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score

Abstract Open-Set Object Detection(OSOD)은 알려진 카테고리와 본적 없는 카테고리의 물체를 탐지하는 것을 목표로 합니다. 실제 환경에서는 도메인 변화와 새로운 객체 카테고리 추가가 동시에 이루어지는 경우가…

Category: X-Review

[CVPR 2026] VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

[arXiv 2026] Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

[arXiv 2026] VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

[AAAI 2026 (oral)]A3D: Adaptive Affordance Assembly with Dual-Arm Manipulation

[CVPR 2026] Learnability-Guided Diffusion for Dataset Distillation

[arXiv2025]Latent Collaboration in Multi-Agent Systems

[ICLR 2026] DEXMOVE: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

[AAAI 2026] Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score

Conference Deadline

NEW POST

New Comment