Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICRL 2026] HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
안녕하세요. 오늘은 HybridVLA에 대해서 소개드리겠습니다. VLA를 많이 알아보고 있는 편임에도 불구하고 계속 새로운 모델이 나오고 있는데, 검색을 하면서 발견하여서 어떤 부분이 다를까? diffusion과 autoregressive? 내용에…
[RSS 2025] Robot Data Curation with Mutual Information Estimators
안녕하세요 최인하입니다. 이번에는 Robot data quality에 관련된 논문을 리뷰해보겠습니다. Internet-scale의 데이터셋에 대해서 Supervised learning을 진행하여 여타 모델들은 지속적인 성능 향상을 이뤄냈습니다. 이처럼 더 많은 데이터가…
[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!
안녕하세요 이번에 가져온 논문은 다들 알고는 있는 CLIP 의 잠재 공간이 복잡한 시각-텍스트 상호작용을 못한다는 것을 밝히고 해결까지한 논문입니다. 처음 읽게된 이유는 흥미로운 제목과 요즘…
[CVPR 2026] Generative Video Compression with One-Dimensional Latent Representation
오늘 리뷰는 CVPR 2026에 게재된 Video Compression 논문입니다. Introduction 비디오 데이터의 증가로 인해서 낮은 비트레이트에서도 높은 품질을 유지하는 동시에 효율적으로 압축하는 기술이 점점 중요해지고 있습니다….
[arXiv 2026] Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning
안녕하세요 이번 x-review는 VLA에서 continual learning을 다룬 논문을 리뷰해보려고 합니다. 제목에서 알 수 있듯 사전학습된 VLA는 생각보다 forgetting에 강하고, 조금의 replay 만으로도 forgetting이 없어지거나 오히려…
[AAAI 2026]UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories
안녕하세요 제가 이번에 리뷰할 논문은 UrbanNAV라는 논문입니다. 저번에 CityWalker라는 논문을 리뷰하고 세미나를 했던 적이 있는데 UrbanNav 저자들은 이 Citywalker 논문을 베이스로 잡아서 기존 Citywalker에서 저자들이…
[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models
안녕하세요! 이번에 리뷰할 논문은 Stable Diffusion의 근간이 되는 Latent Diffusion Model(LDM)논문입니다! 최근에 디퓨전 모델을 서베이 하면서 거슬러 거슬러 올라가 stable diffusion의 토대인 모델을 읽어보게 되었는데요….
[ICRA 2026] AnyThermal Towards Learning Universal Representations for Thermal Perception
안녕하세요 손우진입니다. 이번 리뷰는 제목을 보고 안 읽을수가 없었던 논문을 소개드리고자 합니다. 이번에 소개 드릴 논문은 열화상의 Representation을 잘 표현하는 backbone을 제안한 논문인데요. 열화상 이미지…
[arXiv 2026] Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
안녕하세요. 최근 Multimodal LLM을 임베딩 모델로 활용하는 연구들에 관심을 가지면서 관련 논문들을 계속 살펴보고 있었는데, 이번에 소개할 논문은 reasoning 과정을 reinforcement learning으로 최적화해 멀티모달 임베딩…
Exclusive Self-Attention
이번에 소개해 드릴 논문은 아카이브에 공개된 지 2주 좀 안 된 논문입니다. 정확히는 테크니컬 리포트이고 애플에서 쓴 논문이네요. Intro 기존 트랜스포머는 문맥(Context)을 파악하는 ‘Self Attention(SA)’과…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…