X-Review – Page 11 – Robotics and Computer Vision Lab

[IROS 2025] Empirical Analysis of Sim-and-Real Cotraining of Diffusion Policies for Planar Pushing from Pixels

안녕하세요 이번주는 시뮬레이션 데이터와 real 데이터로 동시에 학습하는 Co-training에 대해 분석을 진행해본 논문을 리뷰해보려고 합니다. 시뮬레이션 데이터가 실제로 policy에 어떤 영향을 미치는지 다양한 형태의 시뮬레이션…

Paper X-Review

[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

이번 리뷰 논문은 NVIDIA에서 나온 따끈한 VLA 논문입니다. 최근 VLA의 연구들이 활성화되면서 구조에 대한 변화나 특화된 표현 방법을 사용하는 방법들이 제시되고 있는 추세입니다. 해당 논문은…

Paper X-Review

[ICRA 2025] HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer

오랜만에 엑스리뷰 작성 감 좀 잡을 겸 인턴 기간동안 읽었던 논문 한편을 가볍게 리뷰할까 합니다. ICRA 2025 에 게재된 HeLiOS 라고 하는 논문이며, 서울대 김아영…

X-Review

[ICCV 2023] Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval

지난주 리뷰와 마찬가지로, Text-Video Retrieval 페이퍼에 대해 리뷰해보겠습니다. 1. Introduction Text-Video Retrieval(TVR) 은 문장 하나를 입력하면, 그에 맞는 비디오를 찾는 연구입니다. 그런데 기존 모델들은 문장…

Paper X-Review

[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

본 논문은 비디오 연구에서 Sampling Dilemma 문제를 수면 위로 올리며, 이를 위한 벤치마크 데이터셋을 공개하는 논문입니다. Sampling Dilemma란 무엇인지에서 부터 논문이 어떻게 벤치마크를 구성했는지 리뷰를…

Paper X-Review

[ICRA 2023]GNM: A General Navigation Model to Drive Any Robot

안녕하세요. 이번에 소개드릴 논문은 Visual Navigation 분야의 연구로 ICRA 2023에 게재된 GNM: A General Navigation Model to Drive Any Robot 입니다. Visual Navigation 분야는 저에게…

Paper X-Review

[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision

< Intro > 1. Zero-shot image classification 제로샷 이미지 분류는 한마디로 말하자면 학습데이터에 존재하지 않는 새로운 class에 대해 classification을 할수 있는 기술을 말합니다전통적인 이미지 분류에서는…

X-Review

[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…

Paper X-Review

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…

Paper X-Review

[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

안녕하세요, 오늘은 AVQA 논문들을 팔로우업 하면서 읽어보게 된 논문입니다. AVQA 태스크를 어느정도 들어보셔서 알고 계시겠지만, 기본적으로 오디오와 비디오의 정보를 이해하고 그에 관련한 자연어 질의에 대답해야…

Category: X-Review

[IROS 2025] Empirical Analysis of Sim-and-Real Cotraining of Diffusion Policies for Planar Pushing from Pixels

[ArXiv 2025] VLA-0: Building State-of-the-Art VLAs with Zero Modification

[ICRA 2025] HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer

[ICCV 2023] Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval

[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

[ICRA 2023]GNM: A General Navigation Model to Drive Any Robot

[ICML 2021] Learning Transferable Visual Models From Natural Language Supervision

[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

[NeurIPS 2024]Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

Conference Deadline

NEW POST

New Comment