[arXiv 2025]A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
제가 이번에 리뷰할 논문은 작년 12월 중순에 공개된 논문으로, affordance reasoning에 기존 pretrained VLMs를 그대로 활용한 연구입니다. 성능이 굉장히 크게 개선되었다는 점에 눈에 띄고, 다른…
[Arxiv 2026] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
오늘은 DeepSeek AI 연구팀이 최근 공개한 LLM 논문을 리뷰해보겠습니다. DeepSeek 팀은 작년 이맘때 MoE 기반 모델로 큰 주목을 받았던 만큼, 1/12에 공개한 이번 논문도 많은…
[CORL 2022]RECON: Rapid Exploration for Open-World Navigation with Latent Goal Models
안녕하세요 이번에 리뷰할 논문은 CoRL에 2022년에 발표된 RECON: Rapid Exploration Controllers for Outcome-driven Navigation 입니다. 저어번에 리뷰한 ViKiNG에서 얕게 다루고 넘어갔던 내용들이 RECON에 자세하게 다룬…
[IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning
Guiding Audio-Visual Question Answering with Collective Question Reasoning 안녕하세요 이번에도 AVQA 관련된 논문을 들고왔습니다. 방법론적으로 현재 연구중인 상황에서 각 모달리티별 아웃풋들을 어떻게 잘 Fusion 해서…
[NeurIPS2025]VideoLucy: Deep Memory Backtracking for Long Video Understanding
논문 간단 소개 본 논문은 Long video Understanding을 위한 agent 기반 프레임워크를 제시합니다. LLM을 활용하여 비디오에서 중요 정보를 찾아내거나 정보를 통합해 답변을 생성하는 agent를 설계하는…
[arXiv 2025] SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics
안녕하세요! 첫 X-Review를 작성하게 된 김기현입니다. 첫 Review 논문으로는 석준님과 우현님과 함께 우편물 배달 task를 수행하기 위한 VLA, SmolVLA 논문을 들고 왔습니다. 간단하게 한 마디로…
[NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 LVU연구인 Vgent입니다. NIPS2025에서 spotlight로 선정된 연구입니다. Introduction 대규모 비디오 언어 모델(Large Video Language Model, LVLM)은 영상과 자연어를 동시에 다루며…
[AAAI 2025] Motion-aware Contrastive Learning for Temporal Panoptic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 AAAI2025에 게재된 논문으로, segmentation 기반 Video Scene Graph Generation을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. 자율주행 에이전트, 지능형 시스템, 로봇 등에…
[arXiv 2025] IGen: Scalable Data Generation for Robot Learning from Open-World Images
안녕하세요, 이번주는 로봇을 위한 합성데이터 생성 방법론을 제안한 논문을 리뷰해보려고 합니다. 최근의 비디오 생성 모델에 대항해 VFM, VLM 등을 활용해 비디오 생성 모델 만큼 확장성…
[ECCV 2024]Thermal3D-GS :Physics-induced 3D Gaussians for Thermal Infrared Novel-view Synthesis
안녕하세요 손우진입니다. 오늘은 제가 지금 껏 리뷰했던 6D pose estimation 분야가 아닌 graphics 분야의 논문을 들고왔습니다. 이번년도 연구 타이틀은 Multispectral 통해 object perception 과 6D…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…