04/21/2025 – Robotics and Computer Vision Lab

김 태주 on [IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model12/15/2025
좋은 리뷰 감사합니다! 해당 논문 리뷰를 통해서 지금 가고 있는 방향이 나쁘지 않은 방향이라는 확신을 가질 수 있었던 던 것…
정 의철 on [ICCV 2025] How Can Objects Help Video-Language Understanding?12/15/2025
안녕하세요 찬미님 좋은 질문 감사합니다. 네 맞습니다. 말씀해주신 것 처럼 동일한 카테고리라도 서로 다른 물체로 인식되어 트래킹됩니다. 감사합니다.
김 태주 on What are World Models..?12/15/2025
World model에 대한 정의를 정리하면서 cosmos 2.5의 predict와 transfer에 대해서 정리해주셨네요. 통찰을 얻는 데에 큰 도움이 된 리뷰였습니다. 질문 몇…
정 의철 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요. 현우님 좋은 리뷰 감사합니다. 방법론 중 Global Preference Activation Path에서 질의에 따라 중요한 모달리티를 학습한다고 설명하셨는데, 본 방법에서는 명시적인…
황 찬미 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요 현우님! 리뷰 감사합니다~!! 간단한 질문이 있습니다! Introduction 초반부에 오디오,비디오 모달리티를 단순히 크로스 어텐션을 태우거나 콘캣하는게 아니라 질문에 따라 집중…

Day: April 21, 2025

[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation

[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting

[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

[AAAI 2016] Deep Reinforcement Learning with Double Q-learning

[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining

[ICLR 2022] FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING

Conference Deadline

NEW POST

New Comment