Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICRA 2021]ViNG: Learning Open-World Navigation with Visual Goals
안녕하세요. 이번에 리뷰할 논문은 ViNG: Learning Open-World Navigation with Visual Goals라는 논문 입니다. 이 논문은 2020년 ICRA에 게재된 논문이고 Visual Goal-Conditioned Navigation을 다룹니다. 사실 지지난번에…
[NIPS 2025] Two Causally Related Needles in a Video Haystack
안녕하세요. 오늘 제가 리뷰할 논문은 이번 NIPS 2025년에 공개된 논문입니다. 논문은 긴 비디오에서 인과적으로 연결된 두 지점(Needles)를 찾아 이해하는 능력을 평가하는 데이터셋인 Causal2Needles를 제안합니다. 기본적으로…
[ECCV 2024 Workshops]Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
안녕하세요, 오늘도 AVQA 관련해서 논문 팔로우업도 할겸, 읽어보게 된 논문을 들고왔습니다. 이후 AVQA 관련 논문을 적을때 어떤 figure 어떤 실험들이 필요로하게 될지 생각의 폭을 넓히기…
[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models
안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…
[AAAI 2024] Context Enhanced Transformer for Single Image Object Detection in Video Data
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Object Detection(VOD) task를 다룬 논문으로, 모델 외부에 추가적인 Memory Module을 두어 VOD 추론 시 활용하는 컨셉을 제안하였습니다. 보통 Video…
AnyTeleop : A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System
안녕하세요 x-review 작성자 최인하입니다. 오늘 리뷰할 논문은 Teleoperation system인 AnyTeleop입니다. 좋은 demonstration 데이터를 수집하기 위해서 정확한 teleoperation이 필요한 만큼 관련된 기술도 발전하고 있는 것 같습니다….
[CVPR 2023] Align and Attend Multimodal Summarization With Dual Contrastive Losses
안녕하세요 황찬미입니다. 오늘 살펴볼 논문은 비디오 요약 task에서 multimodel summarization의 문제를 다루는 논문입니다. 동영상이 인풋으로 들어왔을때 통합모델 하나로 텍스트도 요약하고 비디오도 요약할수 있는 MSMO(Multimodal Summarization…
[ICLR 2018]SEMI-PARAMETRIC TOPOLOGICAL MEMORY FOR NAVIGATION
안녕하세요 이번에 리뷰로 들고온 논문은 ICLR 2018년에 게재된 Semi-Parametric Topological Memory For Navigation이라는 논문입니다. 비록 나온지 오래된 논문이지만 navigation중에서도 visual navigation 그 중에서도 기하학적인 지도를…
[ICCV 2023] HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
Video Text Retrieval에 대한 논문을 준비하고 있어, 해당 주제의 논문을 리뷰해보겠습니다. 1. Introduction 최근 비디오(Video)-언어 사전학습(VLP, Video-Language Pretraining)이 활발히 연구되고 있습니다. 기존 연구들은 주로 이미지(Vision)-언어…
ORCA: An open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning
안녕하세요. 3번째 X-review 작성자 최인하입니다. 이번 리뷰는 연구에 사용하기 위한 Robot hand를 제작하는 과정에서 논문이 있어서 읽고 정리해봤습니다. 그럼 바로 시작해보겠습니다. Abstract Robot hand는 어떤…
안녕하세요 영규님 좋은 댓글 감사합니다! 바로 답변드리겠습니다. Q1. 제가 생각하기에는 기존의 MimicGen과 소개한 DexMimicGen의 큰 차이점은 single arm manipulation에서 bimanual…