03/17/2024 – Robotics and Computer Vision Lab

김 태주 on [IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model12/15/2025
좋은 리뷰 감사합니다! 해당 논문 리뷰를 통해서 지금 가고 있는 방향이 나쁘지 않은 방향이라는 확신을 가질 수 있었던 던 것…
정 의철 on [ICCV 2025] How Can Objects Help Video-Language Understanding?12/15/2025
안녕하세요 찬미님 좋은 질문 감사합니다. 네 맞습니다. 말씀해주신 것 처럼 동일한 카테고리라도 서로 다른 물체로 인식되어 트래킹됩니다. 감사합니다.
김 태주 on What are World Models..?12/15/2025
World model에 대한 정의를 정리하면서 cosmos 2.5의 predict와 transfer에 대해서 정리해주셨네요. 통찰을 얻는 데에 큰 도움이 된 리뷰였습니다. 질문 몇…
정 의철 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요. 현우님 좋은 리뷰 감사합니다. 방법론 중 Global Preference Activation Path에서 질의에 따라 중요한 모달리티를 학습한다고 설명하셨는데, 본 방법에서는 명시적인…
황 찬미 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요 현우님! 리뷰 감사합니다~!! 간단한 질문이 있습니다! Introduction 초반부에 오디오,비디오 모달리티를 단순히 크로스 어텐션을 태우거나 콘캣하는게 아니라 질문에 따라 집중…

Day: March 17, 2024

[ECCV 2022] Zero-Shot Temporal Action Detection via Vision-Language Prompting

[Infrared Phys Technol 2024] Thermal-visible stereo matching at night based on Multi-Modal Autoencoder

[AAAI 2024] SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection

[CVPR 2024]MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

[NAACL 2022] Analyzing Modality Robustness in Multimodal Sentiment Analysis

[CVPR 2024]SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

[AAAI 2024] Entropic Open-set Active Learning

[ICCV2021]Zero-shot Natural Language Video Localization(PSVL)

[ICLR2023] VisionTransformer Adapter for Dense Prediction

Conference Deadline

NEW POST

New Comment