Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[arXiv 2026]Selective Perception for Robot:Task-Aware Attention in Multimodal VLA

안녕하세요 손우진입니다. 이번에 제가 리뷰할 논문은 로봇 관련 논문입니다. 매번 6D pose나 pose refinement와 같은 물체 perception 관련해서 리뷰를 많이 했는데요, 시대가 시대인 만큼 로봇을…

Continue Reading
Posted in X-Review

[arXiv 2026] PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

안녕하세요, 이번주는 작은 모델임에도 불구하고 대용량 학습 데이터로 학습한 큰 모델 대비 강인하고 성능 좋은 모델을 다룬 연구에 대해서 리뷰해보려고 합니다. 얼마 전 VLA-Adapter라는 연구도…

Continue Reading
Posted in Conference X-Review

[CoRL 2022] Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

이번에 읽은 논문은 굉장히 인용수 높은 SayCan이라 불리는 논문입니다. LLM을 로봇 행동에 연결하는 방법을 다루는 논문이라고 보시면 됩니다.이 논문의 핵심은 언어 모델에게 “무엇을 하면 좋을지”를…

Continue Reading
Posted in X-Review

[NeurIPS 2025] Debate or Vote, Which Yields Better Decisions in Multi-Agent Large Language Models?

본 연구는 7개의 NLP 벤치마크에서 다수결 투표만으로 multi-agent debate(MAD)성능 향상을 대부분 설명할 수 있음을 발견한 연구이다. 고수준 추론이 발생하는 인간 집단(법정)에서는 reflect, revise, converge 과정이…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 개인연구를 진행하면서 해당 분야에 논문들이 쏟아져나오고 있어서 생각보다 쉽지 않은 것 같습니다. 그럼 리뷰 시작하겠습니다. Abstract…

Continue Reading
Posted in Paper X-Review

[CVPR 2026] Driving on Registers

안녕하세요. 이번에 리뷰로 가져온 논문은 DrivoR: Driving on Registers라는 논문입니다. 기존에는 Mobile robot navigation 관련 논문만 리뷰하고 다뤘었는데 이번에는 한번 차량 AD(자율주행) 관련 논문을 리뷰하고자…

Continue Reading
Posted in Paper X-Review

[CVPR 2026] Think, Then Verify: A Hypothesis–Verification Multi-Agent Framework for Long Video Understanding

안녕하세요. 오늘은 long video understanding 분야의 논문 중 긴 비디오를 무작정 탐색하는 대신 정답 선지에 대한 가설을 먼저 세운 뒤 영상의 증거로 검증하는 방식을 제안한…

Continue Reading
Posted in X-Review

[arXiv2026] AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Abstract 시뮬레이션 기반의 데이터 생성 방식이 로봇 조작 정책 학습의 지배적 흐름이 되었습니다. 그러나 기존의 방식들은 affordance 정보를 trajectory에 포함하지 못하며, 이로 인해 특정 기능이…

Continue Reading
Posted in X-Review

[CVPR 2025] Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models

이번에 읽은 논문은 universal multimodal retrieval, 줄여서 UMR 이라는 태스크를 다루는 논문입니다. 지금까지도 UMR 에 대한 페이퍼가 계속 나오고 있는데요. 이 논문의 핵심은, 좋은 universal…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2020] Dream to Control: Learning Behaviors by Latent Imagination (Dreamer)

Latent World Models기반 월드 모델의 계보를 잇는 모델이자, 최근 DreamderV4까지 나온 논문의 시초인 dreamer를 리뷰해봤습니다. 재밌게 읽어주시면 감사하겠습니다. 먼저, Dreamer를 읽을 때 강화학습, 월드 모델,…

Continue Reading