Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2026] VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
안녕하세요. 이번에 소개할 논문은 VLM의 fine-grained visual reasoning failure 분석에 관한 논문입니다. VLM이 광범위한 멀티모달 태스크에서는 좋은 성능을 보이고 있지만, 종종 fine-grained한 reasoning을 필요로하는 태스크에서는…
[ICLR2026] DIFFUSION TRANSFORMERS WITH REPRESENTATION AUTOENCODERS
지난번 세미나 때 공유드린 논문인데 좋은 논문이라 x리뷰로도 작성해보고자 합니다. Intro 해당 논문은 영상 생성 분야에서 좋은 모습을 보여주고 있는 diffusion 방법론들이 대부분 Stable Diffusion…
[AAAI 2026 (oral)]A3D: Adaptive Affordance Assembly with Dual-Arm Manipulation
제가 연구하고 있는 분야의 affordance의 실용성을 보이기 위해서는 장기 작업으로의 적용이 필요하다는 생각을 하고 있습니다. 해당 논문은 실제 로봇으로 적용하여, 가구 조립이라는 장기 작업을 수행하는…
[CVPR 2026] Learnability-Guided Diffusion for Dataset Distillation
안녕하세요, 박성준 연구원입니다. 최근 CVPR 2026에 accept된 논문들을 읽어보는 중에 흥미로운 주제를 발견하여 리뷰하고자합니다. 당분간은 CVPR 2026 논문들을 읽고 소개하려합니다. Before Review 리뷰할 논문이 다루는…
[arXiv2025]Latent Collaboration in Multi-Agent Systems
멀티 에이전트간 빠르고 효율적인 소통 방법(MAS, multi-agent systems)을 제안한 연구를 소개하겠습니다. 본 연구는 에이전트간에 latent space에서 소통하였을때 효율 증가를 보이고 있습니다. Figure1에서 보면 제안한 latentMAS가…
[ICLR 2026] DEXMOVE: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands
안녕하세요 최인하입니다. Non-prehensile manipulation은 기존의 pick-and-place methods의 robust alternative가 될 수 있지만, multi-finger manipulation 분야에서 large-scale data의 부재 그리고 wrist-finger control polices의 부재로 인하여 연구가…
[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
안녕하세요 이번에 들고온 논문도 VLM 에서의 Token pruning 논문입니다. 최근에 나온 VLM token pruning 논문들의 성능이 훨씬 개선되기도 했지만, 24년도의 FastV와 마찬가지로 llm decoder단에서의 visual-text…
[AAAI 2026] Decompose and Attribute: Boosting Generalizable Open-Set Object Detection via Objectness Score
Abstract Open-Set Object Detection(OSOD)은 알려진 카테고리와 본적 없는 카테고리의 물체를 탐지하는 것을 목표로 합니다. 실제 환경에서는 도메인 변화와 새로운 객체 카테고리 추가가 동시에 이루어지는 경우가…
[CVPR 2025] Efficient Motion-Aware Video MLLM
안녕하세요. 이번에 리뷰로 가져온 논문은 Efficient Motion-Aware Video MLLM라는 논문입니다. 압축 비디오 안에는 이미 I-frame, P/B-frame, motion vector 같은 구조가 있고, 그 안에들어 있는 motion에…
[ICLR 2026] Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning
안녕하세요, 이번주는 Large-Scale RL에 대해 다루어보려고 합니다. RL을 통해 policy를 학습하게되면 너무 optimal한 행동에 fitting되고 여러 상황에 대응하기는 좀 힘들 뿐 만 아니라 reward shaping이…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…