Robotics and Computer Vision Lab

김 정우 on [CVPR 2025] Video Summarization with Large Language Models12/23/2025
안녕하세요 찬미님 좋은 리뷰 감사합니다. 읽다가 궁금한점이 몇가지 생겨서 질문드립니다 먼저 llama와 같은 llm에 대한 제 지식이 많지 않아서 드는…
이 재윤 on [TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering12/23/2025
안녕하세요 현우님! 좋은 리뷰 감사합니다. 질문 하나 드리고자 합니다. Local branch는 질문에 따라 필요한 정보를 동적으로 추출해야 하는 곳인데, 여기서…
김기현 on [TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering12/22/2025
안녕하세요, 현우님. 좋은 리뷰 감사드립니다. 리뷰를 읽으면서 궁금한 점이 생겼습니다. Global–Local fusion 단계에서 두 feature는 attention 기반 정제 이후 단순…
이 재윤 on [CVPR 2025] Video Summarization with Large Language Models12/22/2025
안녕하세요 찬미님 좋은 리뷰 감사합니다! M-LLM으로 '장면이 왜 중요한지' 판단할 수 있고, 두 번째 LLM과 self attention을 통해서 최종 중요도…
이 예은 on [TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering12/22/2025
안녕하세요 현우님 좋은 리뷰 감사합니다! co-attention에서 bi-modal attention은 스스로에 대한 self-attention과 타 모달리티와의 cross-attention의 평균을 낸 연산이라고 하였는데요 이 부분이…

Recent Posts

2025년을 마치며

[김기현] 2025년을 보내며

[정의철]2025년을 보내며

[최인하] 2025년을 보내며

[arXiv 2025]Deep Video Discovery : Agentic Search with Tool Usefor Long-form Video Understanding

[신인택] 2025년을 보내며

[CoRL 2025] Robot Learning from Any Images

[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering

[CVPR 2025] Video Summarization with Large Language Models

[ICCV 2025] Toward Better Out-painting: Improving the Image Composition with Initialization Policy Model

Conference Deadline

NEW POST

New Comment