Recent Posts

Posted in X-Review

[IROS 2025] OpenRoboCare: A Multimodal Multi-Task Expert Demonstration Dataset for Robot Caregiving

안녕하세요. 저는 케어 로봇에 대해서 흥미도 많고 이쪽으로도 연구를 해보고 싶다는 마음이 매우매우매우 큰데요. 케어와 관련해서는 벤치마크가 없나? 싶어 찾아보니 데이터셋을 정말 잘 구축한 논문이…

Continue Reading
Posted in X-Review

[arxiv2026] Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

최근 다양한 도메인에서 멀티 에이전트가 도입되고 있습니다. 다양한 페르소나 부여를 통한 전문가 간의 비교나 작업을 분업하는등 다양한 방식으로 활용되고는 하며, 실제로 멀티 에이전트 도입으로 유의미한…

Continue Reading
Posted in Paper X-Review

[CVPR 2026] DIvide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

안녕하세요.오늘은 long video understanding을 수행할 때, 모든 query에 대해 같은 방식으로 프레임을 샘플링하는 것이 아니라 query type에 따라 적절한 frame selection strategy를 다르게 적용하는 방법을…

Continue Reading
Posted in Paper X-Review

[ICLR 2026] PRUNE REDUNDANCY, PRESERVE ESSENCE: VISION TOKEN COMPRESSION IN VLMS VIA SYNERGISTIC IMPORTANCE-DIVERSITY

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 제가 분석하고있는 방법론과 비슷한 키워드로 검색되어 찾아본 논문으로 아이디어를 확인하고자 읽게되었습니다. 바로 리뷰 시작하겠습니다. Abstract VLM들은…

Continue Reading
Posted in Paper

[CVPR 2026] WANDERLAND: Geometrically Grounded Simulation for Open-World Embodied AI

안녕하세요. 이번에 리뷰로 가져온 논문은 CVPR 2026 highlight 논문인 WANDERLAND: Geometrically Grounded Simulation for Open-World Embodied AI라는 논문입니다. 이 논문은 최근 embodied AI나 visual navigation…

Continue Reading
Posted in X-Review

[ICML 2026] DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter

안녕하세요, 이번주 X-review에는 tactile 관련 연구를 가져왔습니다. 최근 제안서 작업한 과제 내용에 기존 pretrained VLA에 tactile 센싱 모듈을 추가하겠다는 내용을 적었는데, 이거 어떻게 하면 효과적으로…

Continue Reading
Posted in X-Review

[CVPR 2026 (Highlight)] V^2-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

Abstract Cross-view object correspondence는 서로 다른 뷰에서 대응되는 물체를 인식하는 연구로, 시점 및 외관 변화가 심하여 단순히 SAM2와 같은 foundation 모델을 적용하는 것으로는 해결이 어렵습니다….

Continue Reading
Posted in X-Review

[CVPR 2026] TherA : Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

안녕하세요 손우진 입니다. 이번에 제가 리뷰할 논문은 RGB 이미지로 부터 열화상을 생성하는 논문입니다. 저는 지금 껏 RGB이미지로 열화상을 만드는건 현실적으로 불가능하다고 생각했습니다. 열화상 이미지는 동일한…

Continue Reading
Posted in X-Review

[AAAI 2025] Does VLM Classification Benefit from LLM Description Semantics?

1. Introduction CLIP을 비롯한 이후의 다양한 VLM 모델들은 이미지와 텍스트를 공유된 임베딩 공간에 정렬하여 시각 정보와 언어 정보 간의 상관관계를 향상시켜 오고 있습니다. VLM은 이미지를…

Continue Reading
Posted in Paper X-Review

[ICLR 2026] VisionTrim: Unified Vision Token Compression forTraining-Free MLLM Acceleration

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 바로 리뷰 시작하겠습니다. Abstract MLLMs 의 token pruning 논문들에서 단골로 등장하는 말인 입력 단에서의 visual token개수가…

Continue Reading