Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[WACV 2025] DDS: Decoupled Dynamic Scene-Graph Generation Network
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 DETR 구조 기반 Video Scene Graph Generation을 수행하는 모델을 제안한 모델입니다. 기존 방법론의 경우 <subject-object> pair 예측을 수행한 이후 이…
[CoRL 2025(Oral)] SAVOR: Skill Affordance Learning from Visuo-Haptic Perception for Robot-Assisted Bite Acquisition
제가 이번에 리뷰할 논문은, affordance에 대하여 “How” 관점에 조금 더 집중한 연구입니다. CoRL 2025의 oral 논문으로, 음식을 먹여주는 보조-로봇 문제로 한정되어있으나 다른 작업으로 충분히 확장이…
[IROS 2025] Empirical Analysis of Sim-and-Real Cotraining of Diffusion Policies for Planar Pushing from Pixels
안녕하세요 이번주는 시뮬레이션 데이터와 real 데이터로 동시에 학습하는 Co-training에 대해 분석을 진행해본 논문을 리뷰해보려고 합니다. 시뮬레이션 데이터가 실제로 policy에 어떤 영향을 미치는지 다양한 형태의 시뮬레이션…
[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification
이번 리뷰 논문은 NVIDIA에서 나온 따끈한 VLA 논문입니다. 최근 VLA의 연구들이 활성화되면서 구조에 대한 변화나 특화된 표현 방법을 사용하는 방법들이 제시되고 있는 추세입니다. 해당 논문은…
[ICRA 2025] HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer
오랜만에 엑스리뷰 작성 감 좀 잡을 겸 인턴 기간동안 읽었던 논문 한편을 가볍게 리뷰할까 합니다. ICRA 2025 에 게재된 HeLiOS 라고 하는 논문이며, 서울대 김아영…
[ICCV 2023] Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval
지난주 리뷰와 마찬가지로, Text-Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 1. Introduction Text-Video Retrieval(TVR) 은 문장 하나를 입력하면, 그에 맞는 비디오를 찾는 연구입니다. 그런데 기존 모델들은 문장…
[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?
본 논문은 비디오 연구에서 Sampling Dilemma 문제를 수면 위로 올리며, 이를 위한 벤치마크 데이터셋을 공개하는 논문입니다. Sampling Dilemma란 무엇인지에서 부터 논문이 어떻게 벤치마크를 구성했는지 리뷰를…
[ICRA 2023]GNM: A General Navigation Model to Drive Any Robot
안녕하세요. 이번에 소개드릴 논문은 Visual Navigation 분야의 연구로 ICRA 2023에 게재된 GNM: A General Navigation Model to Drive Any Robot 입니다. Visual Navigation 분야는 저에게…
[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision
< Intro > 1. Zero-shot image classification 제로샷 이미지 분류는 한마디로 말하자면 학습데이터에 존재하지 않는 새로운 class에 대해 classification을 할수 있는 기술을 말합니다전통적인 이미지 분류에서는…
[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…
좋은 리뷰 감사합니다! 해당 논문 리뷰를 통해서 지금 가고 있는 방향이 나쁘지 않은 방향이라는 확신을 가질 수 있었던 던 것…