Posted in Paper X-Review

[CVPR 2026] VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

안녕하세요 오늘은 CVPR 2026에 accept된 video understanding 연구를 리뷰해보겠습니다.요즘 저는 적은 프레임, 작은 모델을 사용하면서도 성능은 어느 정도 나오는 효율적인 프레임워크들을 관심있게 보고 있는데요! 이…

Continue Reading
Posted in X-Review

[arXiv 2026] Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

안녕하세요, 이번주는 RSS 2026에 submit된 Co-training 연구를 리뷰해보려고 합니다. 시뮬레이션 데이터는 현실 데이터와 함께 co-training되면서 low-cost로 VLA training을 풍부하게 해주는데, 대부분의 co-training 연구들은 SFT 방식으로…

Continue Reading
Posted in X-Review

[arXiv 2026] VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

안녕하세요. 이번에 소개할 논문은 VLM의 fine-grained visual reasoning failure 분석에 관한 논문입니다. VLM이 광범위한 멀티모달 태스크에서는 좋은 성능을 보이고 있지만, 종종 fine-grained한 reasoning을 필요로하는 태스크에서는…

Continue Reading
Posted in Conference X-Review

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

지난번 세미나 때 공유드린 논문인데 좋은 논문이라 x리뷰로도 작성해보고자 합니다. Intro 해당 논문은 영상 생성 분야에서 좋은 모습을 보여주고 있는 diffusion 방법론들이 대부분 Stable Diffusion…

Continue Reading
Posted in X-Review

[AAAI 2026 (oral)]A3D: Adaptive Affordance Assembly with Dual-Arm Manipulation

제가 연구하고 있는 분야의 affordance의 실용성을 보이기 위해서는 장기 작업으로의 적용이 필요하다는 생각을 하고 있습니다. 해당 논문은 실제 로봇으로 적용하여, 가구 조립이라는 장기 작업을 수행하는…

Continue Reading
Posted in X-Review

[CVPR 2026] Learnability-Guided Diffusion for Dataset Distillation

안녕하세요, 박성준 연구원입니다. 최근 CVPR 2026에 accept된 논문들을 읽어보는 중에 흥미로운 주제를 발견하여 리뷰하고자합니다. 당분간은 CVPR 2026 논문들을 읽고 소개하려합니다. Before Review 리뷰할 논문이 다루는…

Continue Reading
Posted in X-Review

[arXiv2025]Latent Collaboration in Multi-Agent Systems

멀티 에이전트간 빠르고 효율적인 소통 방법(MAS, multi-agent systems)을 제안한 연구를 소개하겠습니다. 본 연구는 에이전트간에 latent space에서 소통하였을때 효율 증가를 보이고 있습니다. Figure1에서 보면 제안한 latentMAS가…

Continue Reading
Posted in X-Review

[ICLR 2026] DEXMOVE: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

안녕하세요 최인하입니다. Non-prehensile manipulation은 기존의 pick-and-place methods의 robust alternative가 될 수 있지만, multi-finger manipulation 분야에서 large-scale data의 부재 그리고 wrist-finger control polices의 부재로 인하여 연구가…

Continue Reading
Posted in Paper X-Review

[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

안녕하세요 이번에 들고온 논문도 VLM 에서의 Token pruning 논문입니다. 최근에 나온 VLM token pruning 논문들의 성능이 훨씬 개선되기도 했지만, 24년도의 FastV와 마찬가지로 llm decoder단에서의 visual-text…

Continue Reading
Posted in X-Review

[AAAI 2026] Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score

Abstract Open-Set Object Detection(OSOD)은 알려진 카테고리와 본적 없는 카테고리의 물체를 탐지하는 것을 목표로 합니다. 실제 환경에서는 도메인 변화와 새로운 객체 카테고리 추가가 동시에 이루어지는 경우가…

Continue Reading