Recent Posts

Posted in Paper X-Review

[NeurIPS 2025] FastVID: Dynamic Density Pruning for Fast Video Large Language Models

안녕하세요 오늘은 multimodal token compression관련 논문을 읽어보겠습니다. Intro 최근의 Video-LLM은 video understanding에서 좋은 성능을 보여주고 있습니다. 하지만 비디오는 여러 프레임으로 구성되어 있고 또 각 프레임마다…

Continue Reading
Posted in X-Review

[HRI 2026] Learning Human Preferences over a Human-Robot Collaboration Based on Explicit and Implicit Human Feedback

안녕하세요. 이번 논문은 preference-aware 논문이지만 특이하게 implicit human feedback까지 고려하는 논문을 가져와봤습니다. 그럼 시작해보겠습니다. 1. Introduction 로봇 하드웨어와 physical manipulation 능력이 발전하면서, 로봇이 사람 사용자에…

Continue Reading
Posted in X-Review

[CoRL 2024] APRICOT : Active Preference Learning and Constraint-Aware Task Planning with LLMs

오늘은 preference-aware 논문을 가져와봤습니다. preference-aware는 로봇이 사람의 선호하는 바를 인지하고 이를 action에 반영하는 논문이라고 보시면 되겠습니다. 사람과 로봇의 introduction이 흥미가 있어 읽어봤습니다. 그럼 리뷰 시작하겠습니다….

Continue Reading
Posted in Paper X-Review

[ICML 2026] VideoBrain : Learning Adaptive Frame Sampling for Long Video Understanding

안녕하세요, 요즘 SAR만 파다 보니 루즈해지기도 해서 마침 ICML conference 참가 신청도 했겠다 어떤 논문들이 있는지 찾아보았는데, adaptive frame sampling이라는 말에 끌려 이 논문을 읽어보게…

Continue Reading
Posted in X-Review

[ICLR 2026 Workshop] World Action Models are Zero-shot Policies

안녕하세요 이번주는 WAM을 소개하려고 합니다. 최근 로봇 파운데이션 모델들의 연구에서 로봇 데이터의 teleoperation 의존도를 낮추는 연구와 기존 데이터를 통해서 3차원 현실에서 작동하기 위한 모델 구조,…

Continue Reading
Posted in X-Review

[CVPR 2026] EgoX: Egocentric Video Generation from a Single Exocentric Video

안녕하세요 오늘은 위 영상처럼 3인칭 영상을 1인칭 영상으로 만들어주는 논문을 가져왔습니다.시각적 결과가 인상깊어서 어떻게 했나 궁금해서 한번 읽어봤습니다. Introduction 1인칭 시점 영상을 만드는 것을 쉽지…

Continue Reading
Posted in Paper X-Review

[ICLR 2026] AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 제가 분석하고있는 방법론과 비슷한 방법을 사용하고, 기존 방법론들이 성능 올리고 어거지로 주장하는 느낌보다는 분석적인 내용도 깔끔하고…

Continue Reading
Posted in X-Review

[arXiv 2026] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video

안녕하세요. 오늘 리뷰할 논문은 Video-MME-v2입니다. Video-MME는 긴 비디오 이해 분야에서 가장 널리 활용되는 데이터셋입니다. 최근에 Video-MME 팀이 새로 데이터셋을 공개하여 해당 논문을 리뷰하려합니다. Introduction 최근…

Continue Reading
Posted in X-Review

[arXiv 2026]Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned

안녕하세요. 이번에 리뷰로 가져온 논문은 Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned라는 논문입니다. 제목 그대로 최근 mobile robot navigation 쪽에서 많이…

Continue Reading
Posted in Paper X-Review

[arXiv 2026] Zero-shot World Models Are Developmentally Efficient Learners

안녕하세요 오늘은 월드 모델을 가지고 왔습니다. 근데 그냥 월드 모델이 아니라 Zero-shot World Model이라고 해서 어떤 부분에서 Zero-shot이고 어디에 쓸 수 있는지 궁금해서 좀 들고…

Continue Reading