[카테고리:] Conference
Conference Reivew
[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation
Abstract 로봇은 미래에 다양한 작업을 수행할 수 있을 것으로 기대가 되지만, 확장성이 떨어지는 physical robot 학습을 최소화하면서 학습 환경과 실제 환경의 간극을 어떻게 줄일 수…
[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval
오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….
[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions
제가 이번에 리뷰할 논문도 3D 모델에 대한 affordance를 추정하는 논문입니다. CVPR 2025 논문이라합니다. Abstract 3D affordance grounding는 3차원 공간에서 물체를 조작하기 위해 대응되는 영역을 찾는…
[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…
[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…
[CVPR 2023] Clover : Towards A Unified Video-Language Alignment and Fusion Model
Video-Language understanding 연구에 대해 리뷰해보겠습니다. Conference: CVPR 2023 Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji Affiliation: Key Laboratory of Multimedia…
[CVPR 2024]Continual Segmentation with Disentangled Objectness Learning and Class Recognition
제가 이번에 리뷰할 논문은 CVPR 2024에 공개된 segmentation 분야의 continual learning 관련 논문입니다. 제가 주로 담당하고 있는 산자부 미학습 물체 파지 과제도 새로운 대상에 대하여…
[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control
이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…
[ICLR 2024(Oral)] ASID: Active Exploration for System Identification in Robotic Manipulation
제가 이번에 리뷰할 논문은 강화학습 관련 논문으로, 저희 팀에서 진행하고 있는 미니프로젝트 3단계를 위해 읽게 된 논문입니다. 3단계 목표는 복잡한 작업을 실행하는 것을 목표로 하며,…
[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos
오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…
최신 댓글