[카테고리:] Conference

Conference Reivew

Posted in Conference X-Review

[CVPR 2025]VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Abstract 로봇은 미래에 다양한 작업을 수행할 수 있을 것으로 기대가 되지만, 확장성이 떨어지는 physical robot 학습을 최소화하면서 학습 환경과 실제 환경의 간극을 어떻게 줄일 수…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Arun Reddy, Alexander Martin, Eugene Yang, Andrew Yates, Kate Sanders, Kenton Murray, Reno Kriz, Celso M….

Continue Reading
Posted in Conference X-Review

[CVPR 2025]Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

제가 이번에 리뷰할 논문도 3D 모델에 대한 affordance를 추정하는 논문입니다. CVPR 2025 논문이라합니다. Abstract 3D affordance grounding는 3차원 공간에서 물체를 조작하기 위해 대응되는 영역을 찾는…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval

이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…

Continue Reading
Posted in Conference X-Review

[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…

Continue Reading
Posted in Conference X-Review

[CVPR 2023] Clover : Towards A Unified Video-Language Alignment and Fusion Model

Video-Language understanding 연구에 대해 리뷰해보겠습니다. Conference: CVPR 2023 Authors: Jingjia Huang, Yinan Li, Jiashi Feng, Xinglong Wu, Xiaoshuai Sun, Rongrong Ji Affiliation: Key Laboratory of Multimedia…

Continue Reading
Posted in Conference X-Review

[CVPR 2024]Continual Segmentation with Disentangled Objectness Learning and Class Recognition

제가 이번에 리뷰할 논문은 CVPR 2024에 공개된 segmentation 분야의 continual learning 관련 논문입니다. 제가 주로 담당하고 있는 산자부 미학습 물체 파지 과제도 새로운 대상에 대하여…

Continue Reading
Posted in Conference Paper X-Review

[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control

이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…

Continue Reading
Posted in Conference X-Review

[ICLR 2024(Oral)] ASID: Active Exploration for System Identification in Robotic Manipulation

제가 이번에 리뷰할 논문은 강화학습 관련 논문으로, 저희 팀에서 진행하고 있는 미니프로젝트 3단계를 위해 읽게 된 논문입니다. 3단계 목표는 복잡한 작업을 실행하는 것을 목표로 하며,…

Continue Reading
Posted in Conference X-Review

[CVPR 2020] End-to-End Learning of Visual Representations from Uncurated Instructional Videos

오늘은 다소 예전 논문을 가져왔습니다. 최근 Video-Text Retrieval 중심으로 서베이를 진행중인데요, 해당 태스크에서 Loss로 많이 사용하는 MIL-NCE (Multiple Instance Learning and Noise Contrastive Estimation)를 제안한…

Continue Reading