Author: 홍 주영
[Arxiv 2024] Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models?
오늘은 생성형 모델인 LLM을 임베딩 모델로 변환하는 것과 관련된 페이퍼를 리뷰해보겠습니다. Venue: Arxiv 2024Authors: Yixuan Tang, Yi YangAffiliation: The Hong Kong University of Science and TechnologyTitle: Pooling…
[CVPR 2025] Bridging Modalities: Improving Universal Multimodal Retrieval by Multimodal Large Language Models
이번에 읽은 논문은 universal multimodal retrieval, 줄여서 UMR 이라는 태스크를 다루는 논문입니다. 지금까지도 UMR 에 대한 페이퍼가 계속 나오고 있는데요. 이 논문의 핵심은, 좋은 universal…
[CVPR 2025] VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models
오늘은 비디오에서의 compositionality 를 분석한 논문을 리뷰해보겠습니다. 리뷰하고보니, 2022년에 저희 연구실에서 세미나를 진행해주신 구글 딥마인드의 김다훈 박사님의 논문이네요 리뷰 시작해보겠습니다. Venue: CVPR 2025 Authors: Dahun Kim,…
[Arxiv 2026] RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
최근 TVR 페이퍼 모두 MLLM을 쓰는 추세인가 봅니다. 오늘은 2월에 올라온 Arxiv 페이퍼로, reranker를 개선시킨 Text-Video Retrieval 페이퍼를 리뷰해보겠습니다 Venue: arxiv 2026 Authors: Tyler Skow, Alexander…
[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
오늘은 LMM(대형 멀티모달 모델)이 단순히 정지된 사진을 넘어서, ‘비디오’라는 연속적인 데이터를 얼마나 잘 이해하는지 평가하는 최초의 종합 벤치마크(Video-MME)에 대한 논문을 가져왔습니다. MLLM을 Video에 적용하는 부분에…
EV-5, VLM2Vec, VLM2Vec-V2: Generative MLLMs as Embedding Models
오늘은 MLLM을 Embedding 모델로 활용하는 논문을 리뷰해보려고 합니다. 방법론 자체는 어렵지 않아서, 3가지 논문 (E5-V, VLM2Vec, VLM2Vec-v2)을 큰 흐름 위주로 리뷰해보겠습니다. 1. Introduction 최근 저희…
[ICLR 2023] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Alignment
최근 ICML 피어 리뷰 중, 리뷰할 논문이 이 논문을 베이스로 삼았다는 것을 보았습니다. 그동안은 핵심 아이디어만 대략적으로 알고 있었는데, 이번 기회에 꼼꼼히 읽어봤고 해당 내용을…
[ECCV 2024] InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
비디오 진영의 파운데이션 모델(Foundation Model)로 군림하던 InternVideo라는 모델이 있었는데요. 해당 논문에 대한 리뷰는 2023년 임근택 연구원이 읽기 쉽게 잘 정리해주신 걸 확인할 수 있었습니다: [InternVideo…
[CVPR 2025] LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant
지난 리뷰에서와 동일하게 이번에도 Universal Multimodal Retrieval 페이퍼를 리뷰해보겠습니다. 1. Introduction 최근 멀티모달 정보 검색은 CLIP 같은 VLP 의 성공을 바탕으로 빠르게 발전했지만, 동시에 retrieval…
[Arxiv 2026] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking
Qwen3-VL을 바탕으로 Universal Multimodal Retrieval and Ranking 연구를 리뷰해보려고 합니다. 0. Universal Multimodal Retrieval 본 논문이 다루는 태스크는 저자들이 Universal Multimodal Retrieval이라 부르는 설정입니다. 이는…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…