01/05/2025 – Robotics and Computer Vision Lab

김 태주 on [IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model12/15/2025
좋은 리뷰 감사합니다! 해당 논문 리뷰를 통해서 지금 가고 있는 방향이 나쁘지 않은 방향이라는 확신을 가질 수 있었던 던 것…
정 의철 on [ICCV 2025] How Can Objects Help Video-Language Understanding?12/15/2025
안녕하세요 찬미님 좋은 질문 감사합니다. 네 맞습니다. 말씀해주신 것 처럼 동일한 카테고리라도 서로 다른 물체로 인식되어 트래킹됩니다. 감사합니다.
김 태주 on What are World Models..?12/15/2025
World model에 대한 정의를 정리하면서 cosmos 2.5의 predict와 transfer에 대해서 정리해주셨네요. 통찰을 얻는 데에 큰 도움이 된 리뷰였습니다. 질문 몇…
정 의철 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요. 현우님 좋은 리뷰 감사합니다. 방법론 중 Global Preference Activation Path에서 질의에 따라 중요한 모달리티를 학습한다고 설명하셨는데, 본 방법에서는 명시적인…
황 찬미 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요 현우님! 리뷰 감사합니다~!! 간단한 질문이 있습니다! Introduction 초반부에 오디오,비디오 모달리티를 단순히 크로스 어텐션을 태우거나 콘캣하는게 아니라 질문에 따라 집중…

Day: January 5, 2025

[TPAMI 2024] Turning a CLIP Model Into a Scene Text Spotter

[ECCV 2024] Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection

Conference Deadline

NEW POST

New Comment