홍 주영 – Robotics and Computer Vision Lab

이 승현 on [arXiv 2026] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model03/23/2026
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…
최 인하 on [arXiv 2026] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model03/23/2026
안녕하세요 승현님 좋은 리뷰 감사합니다. HOI를 비디오를 사용하여 Affordance의 상호 작용패턴을 학습하는 것이 신기하네요. action encoder에 대한 궁금증이 생겼는데요! action…
이 예은 on [CVPR 2025] Scale Efficient Training for Large Datasets03/23/2026
안녕하세요 우진님 질문 감사합니다! 네 맞습니다. 물론 여전히 데이터의 양이 많을수록 이점이 많다는 것은 자명하지만, 너무 많아버리면 saturation 문제가 발생하기도…
이 예은 on [CVPR 2025] Scale Efficient Training for Large Datasets03/23/2026
안녕하세요 찬미님 질문 감사합니다! 저도 처음에 그 부분이 의아했었는데요, 해당 방법론이 'loss는 높지만 학습에 도움이 덜 되는 샘플'을 특별히 거르는…
이 예은 on [CVPR 2025] Scale Efficient Training for Large Datasets03/23/2026
안녕하세요 주영님 질문 감사합니다! 해당 논문에서 pruning에 소요되는 시간은 구체적으로 언급하지 않고 있습니다. 다만 pruning에 소요되는 시간은 모델 학습 시간에…

Author: 홍 주영

[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

EV-5, VLM2Vec, VLM2Vec-V2: Generative MLLMs as Embedding Models

[ICLR 2023] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Alignment

[ECCV 2024] InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

[CVPR 2025] LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant

[Arxiv 2026] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

[Arxiv 2026] DeepSeek-OCR 2: Visual Causal Flow

[ICCV 2025] Bidirectional Likelihood Estimation withMulti-Modal Large Language Models for Text-Video Retrieval

[Arxiv 2026] Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

[EMNLP 2025] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

Conference Deadline

NEW POST

New Comment