X-Review – Robotics and Computer Vision Lab

[CoRL 2025] Steering Your Diffusion Policy with Latent Space Reinforcement Learning

논문 정보 저자: Andrew Wagenmaker1, Mitsuhiko Nakamoto1, Yunchu Zhang2, Seohong Park1, Waleed Yagoub2, Anusha Nagabandi3, Abhishek Gupta2, Sergey Levine1* 1: UC Berkeley, 2: University of Washington, 3: Amazon 링크: https://arxiv.org/abs/2506.15799 프로젝트페이지: https://diffusion-steering.github.io/ 안녕하세요. 이번 논문…

X-Review

[CVPR 2025] Scale Efficient Training for Large Datasets

안녕하세요. 오늘은 data pruning 관련 논문을 리뷰해보도록 하겠습니다. 3월부터 상인님의 논문 작업을 도우며 초기 실험과 공부를 진행하고 있는데요, 저희가 진행 중인 task가 바로 data pruning입니다….

Paper X-Review

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

안녕하세요, 오늘 리뷰할 논문은 AAAI 2026 Oral 논문인 SM3Det 입니다. LVU 논문 작업 이후 다시 저희 팀 기업 과제 팔로우업과 창의학기제를 겸해서 SAR Object Detection…

Paper X-Review

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

안녕하세요. 오늘은 HybridVLA에 대해서 소개드리겠습니다. VLA를 많이 알아보고 있는 편임에도 불구하고 계속 새로운 모델이 나오고 있는데, 검색을 하면서 발견하여서 어떤 부분이 다를까? diffusion과 autoregressive? 내용에…

X-Review

[RSS 2025] Robot Data Curation with Mutual Information Estimators

안녕하세요 최인하입니다. 이번에는 Robot data quality에 관련된 논문을 리뷰해보겠습니다. Internet-scale의 데이터셋에 대해서 Supervised learning을 진행하여 여타 모델들은 지속적인 성능 향상을 이뤄냈습니다. 이처럼 더 많은 데이터가…

Paper X-Review

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

안녕하세요 이번에 가져온 논문은 다들 알고는 있는 CLIP 의 잠재 공간이 복잡한 시각-텍스트 상호작용을 못한다는 것을 밝히고 해결까지한 논문입니다. 처음 읽게된 이유는 흥미로운 제목과 요즘…

X-Review

[CVPR 2026] Generative Video Compression with One-Dimensional Latent Representation

오늘 리뷰는 CVPR 2026에 게재된 Video Compression 논문입니다. Introduction 비디오 데이터의 증가로 인해서 낮은 비트레이트에서도 높은 품질을 유지하는 동시에 효율적으로 압축하는 기술이 점점 중요해지고 있습니다….

X-Review

[arXiv 2026] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

안녕하세요 이번 x-review는 VLA에서 continual learning을 다룬 논문을 리뷰해보려고 합니다. 제목에서 알 수 있듯 사전학습된 VLA는 생각보다 forgetting에 강하고, 조금의 replay 만으로도 forgetting이 없어지거나 오히려…

Paper X-Review

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

안녕하세요 제가 이번에 리뷰할 논문은 UrbanNAV라는 논문입니다. 저번에 CityWalker라는 논문을 리뷰하고 세미나를 했던 적이 있는데 UrbanNav 저자들은 이 Citywalker 논문을 베이스로 잡아서 기존 Citywalker에서 저자들이…

Paper X-Review

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

안녕하세요! 이번에 리뷰할 논문은 Stable Diffusion의 근간이 되는 Latent Diffusion Model(LDM)논문입니다! 최근에 디퓨전 모델을 서베이 하면서 거슬러 거슬러 올라가 stable diffusion의 토대인 모델을 읽어보게 되었는데요….

Category: X-Review

[CoRL 2025] Steering Your Diffusion Policy with Latent Space Reinforcement Learning

[CVPR 2025] Scale Efficient Training for Large Datasets

[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model

[RSS 2025] Robot Data Curation with Mutual Information Estimators

[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!

[CVPR 2026] Generative Video Compression with One-Dimensional Latent Representation

[arXiv 2026] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

Conference Deadline

NEW POST

New Comment