Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICLR 2026] Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
안녕하세요, 이번주 X-review는 data generator로써 RL을 활용하며 VLA에 대한 SFT를 진행하며, 제목처럼 self improving 하는 policy 학습법을 다룬 연구입니다. Recovery behavior를 위한 generalist 데이터셋 구성에…
[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training
1. Introduction Vision-Language Pre-training(VLP)은 대규모 웹 크롤링 이미지-텍스트 데이터셋을 바탕으로 학습되는 대표적인 멀티모달 사전학습 방식입니다. 보통은 self-supervised learning 형태로 학습되며, masked language modeling(MLM), image-text contrastive(ITC),…
[CVPR 2026] EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions
안녕하세요 손우진입니다. 오늘 리뷰할 논문은 따끈따끈한 2026 CVPR ACCEPT된 6D 데이터셋 논문입니다. 극한환경(저조도, 연무환경, 극한의 동적)에서의 데이터셋이고 이를 6D 평가 함으로써 현재 6D 데이터셋의 한계와…
[ICCV 2023] Adding Conditional Control to Text-to-Image Diffusion Models
안녕하세요!오늘은 지난주에 이어 stable diffusion 기반 이미지 생성에서 구조적인 조건을 효과적으로 반영할 수 있게 해주는 대표적인 네트워크인 ControlNet에 대해 리뷰해보겠습니다! 그럼 리뷰 바로 시작하겠습니다! Intro…
[ICRA 2026] Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning
안녕하세요 최인하입니다. 이번주 리뷰도 저번주와 비슷하게 Robot learning에 사용되는 Demonstration Data의 Quality에 관련된 논문을 가져왔습니다. Behavior Cloning 방식의 등장으로 robot learning 방식에서도 Data driven 방식이…
[CVPR 2026]Affostruction: 3D Affordance Grounding with Generative Reconstruction
제가 이번에 리뷰할 논문은 CVPR 2026에 accpet된 것으로 보이는 논문입니다. 이미지나 텍스트 프롬프트가 입력되었을 때, 3D asset을 생성하는 TRELLIS(CVPR 2026 Spotlight)연구를 기반으로 하고있으며, 해당 논문은…
[Arxiv 2026] RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
최근 TVR 페이퍼 모두 MLLM을 쓰는 추세인가 봅니다. 오늘은 2월에 올라온 Arxiv 페이퍼로, reranker를 개선시킨 Text-Video Retrieval 페이퍼를 리뷰해보겠습니다 Venue: arxiv 2026 Authors: Tyler Skow, Alexander…
[CoRL 2025] Steering Your Diffusion Policy with Latent Space Reinforcement Learning
논문 정보 저자: Andrew Wagenmaker1, Mitsuhiko Nakamoto1, Yunchu Zhang2, Seohong Park1, Waleed Yagoub2, Anusha Nagabandi3, Abhishek Gupta2, Sergey Levine1* 1: UC Berkeley, 2: University of Washington, 3: Amazon 링크: https://arxiv.org/abs/2506.15799 프로젝트페이지: https://diffusion-steering.github.io/ 안녕하세요. 이번 논문…
[CVPR 2025] Scale Efficient Training for Large Datasets
안녕하세요. 오늘은 data pruning 관련 논문을 리뷰해보도록 하겠습니다. 3월부터 상인님의 논문 작업을 도우며 초기 실험과 공부를 진행하고 있는데요, 저희가 진행 중인 task가 바로 data pruning입니다….
[AAAI 2026] SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection
안녕하세요, 오늘 리뷰할 논문은 AAAI 2026 Oral 논문인 SM3Det 입니다. LVU 논문 작업 이후 다시 저희 팀 기업 과제 팔로우업과 창의학기제를 겸해서 SAR Object Detection…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…