Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering
안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…
[NeurIPS 2025] ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
안녕하세요. 이번 논문은 RGB 데이터셋은 Thermal 이미지로 변환(생성)하는 방법론입니다.SiT와 adaLN-zero와 같은 개념에 대해 알아보고자 골랐습니다.시작하겠습니다. Introduction 먼저 두가지 측면에 대해서 얘기합니다. Q. RGB-T 데이터셋은 왜…
EV-5, VLM2Vec, VLM2Vec-V2: Generative MLLMs as Embedding Models
오늘은 MLLM을 Embedding 모델로 활용하는 논문을 리뷰해보려고 합니다. 방법론 자체는 어렵지 않아서, 3가지 논문 (E5-V, VLM2Vec, VLM2Vec-v2)을 큰 흐름 위주로 리뷰해보겠습니다. 1. Introduction 최근 저희…
[CVPR 2025]AffordDP: Generalizable Diffusion Policy with Transferable Affordance
Abstract 해당 논문은 일반화 가능한 로봇 조작을 위해 Diffusion 기반의 모방학습에 Affordance 개념을 추가한 AffordDP를 제안합니다. Diffusion 기반의 policy는 로봇 작업에서 인상적인 성능을 보여주었으나, Out-of-Domain에…
[arXiv 2026] How to Peel with a Knife : Aligning Fine-Grained Manipulation with Human Preference
안녕하세요, 이번주 X-review는 fine-grained manipulation에 관련한 내용으로 작성해보려고 합니다. 최근 robot learning 패러다임에는 기존의 로봇데이터로만 학습하는것에 그치지 않고 human video와 같은 다른 소스를 통한 학습이나…
[CVPR2026] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
Intro 해당 논문은 navigation과 manipulation에 사용할 수 있는 효율적인 World Model을 만드는 것을 목표로 합니다. World Model은 잘 아시다시피 해당 모델이 주변 환경의 역동성을 시뮬레이션하여…
[RSS 2025 Workshop] From Foresight to Forethought VLM-In-the-Loop Policy Steering via Latent Alignment
안녕하세요. 이번 논문 리뷰는 DP같은 generative robot policy가 deployment-time 에 다양한 실패를 보이는 문제를 해결하기 위한 runtime policy steering 방법론입니다. 특히 해당 실패를 DreamerV3 기반…
[ICCV 2025]Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs
Video Large Language Models(Video-LMMs)는 시공간 토큰(spatiotemporal tokens)을 활용해서 강력한 비디오 이해 능력을 가지게 되었지만 토큰 개수가 많아질수록 연산량이 2차적으로 증가한다는 문제점을 가지고 있었습니다. 이에 저자들은…
[arXiv 2026] Observing and Controlling Features in Vision-Language-Action Models
안녕하세요, 이번주는 VLA의 action steering이 되는가?에 대한 분석을 담은 연구를 리뷰해보려고 합니다. LLM 쪽에선 action steering이 활발하지만, VLA 쪽에서는 멀티모달 입력이나 closed-loop로 실제 로봇이 상호작용…
[ICRA 2026]NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
안녕하세요 이번에 리뷰할 논문은 internrobotics의 NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance 라는 논문입니다. 해당 논문은 시뮬레이션 데이터만으로 학습했음에도 불구하고 실제 로봇에…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…