May 2025 – Page 2 – Robotics and Computer Vision Lab

김 태주 on [IROS 2025] VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model12/15/2025
좋은 리뷰 감사합니다! 해당 논문 리뷰를 통해서 지금 가고 있는 방향이 나쁘지 않은 방향이라는 확신을 가질 수 있었던 던 것…
정 의철 on [ICCV 2025] How Can Objects Help Video-Language Understanding?12/15/2025
안녕하세요 찬미님 좋은 질문 감사합니다. 네 맞습니다. 말씀해주신 것 처럼 동일한 카테고리라도 서로 다른 물체로 인식되어 트래킹됩니다. 감사합니다.
김 태주 on What are World Models..?12/15/2025
World model에 대한 정의를 정리하면서 cosmos 2.5의 predict와 transfer에 대해서 정리해주셨네요. 통찰을 얻는 데에 큰 도움이 된 리뷰였습니다. 질문 몇…
정 의철 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요. 현우님 좋은 리뷰 감사합니다. 방법론 중 Global Preference Activation Path에서 질의에 따라 중요한 모달리티를 학습한다고 설명하셨는데, 본 방법에서는 명시적인…
황 찬미 on [arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering12/15/2025
안녕하세요 현우님! 리뷰 감사합니다~!! 간단한 질문이 있습니다! Introduction 초반부에 오디오,비디오 모달리티를 단순히 크로스 어텐션을 태우거나 콘캣하는게 아니라 질문에 따라 집중…

Month: May 2025

[ECCV 2022] DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning

[AAAI2024]V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

[CoRL 2023 Oral] Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance

[ICML 2025] FG-CLIP: Fine-Grained Visual and Textual Alignment

[ICRA 2022] Affordance Learning from Play for Sample-Efficient Policy Learning

[CVPR 2024]YOLO-World:Real-Time Open-Vocabulary Object Detection

[NeurIPS 2024] Scene Graph Generation with Role-Playing Large Language Models

[AAAI 2023] DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer

[ICLR 2025] TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

[CVPR 2025] Distilling Monocular Foundation Model for Fine-grained Depth Completion

Conference Deadline

NEW POST

New Comment