Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
안녕하세요! 첫 X-Review를 작성하게 된 김기현입니다. 첫 Review 논문으로는 석준님과 우현님과 함께 우편물 배달 task를 수행하기 위한 VLA, SmolVLA 논문을 들고 왔습니다. 간단하게 한 마디로…
[NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 LVU연구인 Vgent입니다. NIPS2025에서 spotlight로 선정된 연구입니다. Introduction 대규모 비디오 언어 모델(Large Video Language Model, LVLM)은 영상과 자연어를 동시에 다루며…
[AAAI 2025] Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 AAAI2025에 게재된 논문으로, segmentation 기반 Video Scene Graph Generation을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. 자율주행 에이전트, 지능형 시스템, 로봇 등에…
[arXiv 2025] IGen: Scalable Data Generation for Robot Learning from Open-World Images
안녕하세요, 이번주는 로봇을 위한 합성데이터 생성 방법론을 제안한 논문을 리뷰해보려고 합니다. 최근의 비디오 생성 모델에 대항해 VFM, VLM 등을 활용해 비디오 생성 모델 만큼 확장성…
[ECCV 2024]Thermal3D-GS :Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis
안녕하세요 손우진입니다. 오늘은 제가 지금 껏 리뷰했던 6D pose estimation 분야가 아닌 graphics 분야의 논문을 들고왔습니다. 이번년도 연구 타이틀은 Multispectral 통해 object perception 과 6D…
[NIPS 2025] Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention
이번 주 X-Review에선 25년도 NeurIPS에 게재된 논문 <Don’t Just Chase “Highlighted Tokens” in MLLMs: Revisiting Visual Holistic Context Retention>을 소개해드리겠습니다. 88.9%의 pruning ratio에도 기존 성능의…
[NIPS 2017]Attention Is All You Need
안녕하세요 최인하입니다. 오늘은 예전부터 리뷰하고 싶었던 Attention Is All You Need 논문을 리뷰해 보려고 합니다. 기존 자연어 처리 모델들이 attention으로 Encoder와 Decoder가 연결되어있는 구조로 좋은…
[RA-L2025] VL-TGS: Trajectory Generation and Selection Using Vision Language Models in Mapless Outdoor Environments
본 논문은 지도 없는 야외 환경에서 로봇이 사람 중심(Human-centered)의 주행을 수행할 수 있도록 새로운 알고리즘을 제안하는 논문입니다. Intro 야외 환경은 공사 현장이나 계절 변화 등…
[2024 ECCV] VideoAgent: Long-form Video Understanding with Large Language Model as Agent
안녕하세요. 이번에 소개할 논문은 Long-form Video Understanding 태스크 논문이며 긴 영상을 처리하는 방식을 인간이 비디오를 이해하는 흐름을 모사해 방법론을 제안합니다. 저자는 이를 위해 VideoAgent라는 에이전트…
[CVPR 2025]Compositional Caching for Training-free Open-vocabulary Attribute Detection
제가 이번에 리뷰할 논문은 속성을 활용하여 물체를 인지하는 Attribute detection이라는 연구입니다. 제가 담당하고 있는 파지 과제에서 속성정보를 활용하여 유의미한 물체를 인식하는 연구를 진행하고있는데, 서베이를 하다…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…