Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[arXiv 2026] VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

안녕하세요. 이번에 소개할 논문은 VLM의 fine-grained visual reasoning failure 분석에 관한 논문입니다. VLM이 광범위한 멀티모달 태스크에서는 좋은 성능을 보이고 있지만, 종종 fine-grained한 reasoning을 필요로하는 태스크에서는…

Continue Reading
Posted in Conference X-Review

[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS

지난번 세미나 때 공유드린 논문인데 좋은 논문이라 x리뷰로도 작성해보고자 합니다. Intro 해당 논문은 영상 생성 분야에서 좋은 모습을 보여주고 있는 diffusion 방법론들이 대부분 Stable Diffusion…

Continue Reading
Posted in X-Review

[AAAI 2026 (oral)]A3D: Adaptive Affordance Assembly with Dual-Arm Manipulation

제가 연구하고 있는 분야의 affordance의 실용성을 보이기 위해서는 장기 작업으로의 적용이 필요하다는 생각을 하고 있습니다. 해당 논문은 실제 로봇으로 적용하여, 가구 조립이라는 장기 작업을 수행하는…

Continue Reading
Posted in X-Review

[CVPR 2026] Learnability-Guided Diffusion for Dataset Distillation

안녕하세요, 박성준 연구원입니다. 최근 CVPR 2026에 accept된 논문들을 읽어보는 중에 흥미로운 주제를 발견하여 리뷰하고자합니다. 당분간은 CVPR 2026 논문들을 읽고 소개하려합니다. Before Review 리뷰할 논문이 다루는…

Continue Reading
Posted in X-Review

[arXiv2025]Latent Collaboration in Multi-Agent Systems

멀티 에이전트간 빠르고 효율적인 소통 방법(MAS, multi-agent systems)을 제안한 연구를 소개하겠습니다. 본 연구는 에이전트간에 latent space에서 소통하였을때 효율 증가를 보이고 있습니다. Figure1에서 보면 제안한 latentMAS가…

Continue Reading
Posted in X-Review

[ICLR 2026] DEXMOVE: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands

안녕하세요 최인하입니다. Non-prehensile manipulation은 기존의 pick-and-place methods의 robust alternative가 될 수 있지만, multi-finger manipulation 분야에서 large-scale data의 부재 그리고 wrist-finger control polices의 부재로 인하여 연구가…

Continue Reading
Posted in Paper X-Review

[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

안녕하세요 이번에 들고온 논문도 VLM 에서의 Token pruning 논문입니다. 최근에 나온 VLM token pruning 논문들의 성능이 훨씬 개선되기도 했지만, 24년도의 FastV와 마찬가지로 llm decoder단에서의 visual-text…

Continue Reading
Posted in X-Review

[AAAI 2026] Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score

Abstract Open-Set Object Detection(OSOD)은 알려진 카테고리와 본적 없는 카테고리의 물체를 탐지하는 것을 목표로 합니다. 실제 환경에서는 도메인 변화와 새로운 객체 카테고리 추가가 동시에 이루어지는 경우가…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Efficient Motion-Aware Video MLLM

안녕하세요. 이번에 리뷰로 가져온 논문은 Efficient Motion-Aware Video MLLM라는 논문입니다. 압축 비디오 안에는 이미 I-frame, P/B-frame, motion vector 같은 구조가 있고, 그 안에들어 있는 motion에…

Continue Reading
Posted in X-Review

[ICLR 2026] Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning

안녕하세요, 이번주는 Large-Scale RL에 대해 다루어보려고 합니다. RL을 통해 policy를 학습하게되면 너무 optimal한 행동에 fitting되고 여러 상황에 대응하기는 좀 힘들 뿐 만 아니라 reward shaping이…

Continue Reading