[ECCV 2024 Workshops]Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
안녕하세요, 오늘도 AVQA 관련해서 논문 팔로우업도 할겸, 읽어보게 된 논문을 들고왔습니다. 이후 AVQA 관련 논문을 적을때 어떤 figure 어떤 실험들이 필요로하게 될지 생각의 폭을 넓히기…
[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models
안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…
[AAAI 2024] Context Enhanced Transformer for Single Image Object Detection in Video Data
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 Video Object Detection(VOD) task를 다룬 논문으로, 모델 외부에 추가적인 Memory Module을 두어 VOD 추론 시 활용하는 컨셉을 제안하였습니다. 보통 Video…
AnyTeleop : A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System
안녕하세요 x-review 작성자 최인하입니다. 오늘 리뷰할 논문은 Teleoperation system인 AnyTeleop입니다. 좋은 demonstration 데이터를 수집하기 위해서 정확한 teleoperation이 필요한 만큼 관련된 기술도 발전하고 있는 것 같습니다….
[CVPR 2023] Align and Attend: Multimodal Summarization with Dual Contrastive Losses
안녕하세요 황찬미입니다. 오늘 살펴볼 논문은 비디오 요약 task에서 multimodel summarization의 문제를 다루는 논문입니다. 동영상이 인풋으로 들어왔을때 통합모델 하나로 텍스트도 요약하고 비디오도 요약할수 있는 MSMO(Multimodal Summarization…
[ICLR 2018]SEMI-PARAMETRIC TOPOLOGICAL MEMORY FOR NAVIGATION
안녕하세요 이번에 리뷰로 들고온 논문은 ICLR 2018년에 게재된 Semi-Parametric Topological Memory For Navigation이라는 논문입니다. 비록 나온지 오래된 논문이지만 navigation중에서도 visual navigation 그 중에서도 기하학적인 지도를…
[ICCV 2023] HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
Video Text Retrieval에 대한 논문을 준비하고 있어, 해당 주제의 논문을 리뷰해보겠습니다. 1. Introduction 최근 비디오(Video)-언어 사전학습(VLP, Video-Language Pretraining)이 활발히 연구되고 있습니다. 기존 연구들은 주로 이미지(Vision)-언어…
ORCA: An open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning
안녕하세요. 3번째 X-review 작성자 최인하입니다. 이번 리뷰는 연구에 사용하기 위한 Robot hand를 제작하는 과정에서 논문이 있어서 읽고 정리해봤습니다. 그럼 바로 시작해보겠습니다. Abstract Robot hand는 어떤…
2025 자율주행 인공지능 챌린지 후기
이번에 참여하게 된 2025 자율주행 인공지능 챌린지 후기를 적어보고자 합니다.저와 정민님이 한달 동안 한것을 시간순서로 쭉 적어보고자 합니다. 자율주행 챌린지 설명 자율주행 챌린지에는 3가지 카테고리가…
[NeurIPS 2025]Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension
오늘 소개드릴 논문은 NeurIPS 2025 에 소개된 Vide RAG 관련 논문입니다. 해당 논문은 시각적으로 정렬(Visually-aligned)된 정보를 통해 Long video에 대한 이해력을 높이는 RAG 기술을 제안한…
안녕하세요 예은님 댓글 감사합니다. 일단 ViNG이 classification을 채택한 이유는 거리의 불확실성과 이동 가능성의 확률적 특성을 반영하기 위해서라고 보시면 정확합니다. 여기서…