Author: 황 유진

Posted in X-Review

[NeurIPS2025]AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

짧은 논문 소개 본 연구는 MLLM(Multimodal Large Language Model)을 활용하여 긴 영상에 대한 질의응답 테스크 정확도를 개선하는 RAG 프레임워크를 제시한 것입니다. 연구에서는 기존 RAG 연구가…

Continue Reading
Posted in Paper X-Review

[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification

본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024]To Believe or Not to Believe Your LLM: Iterative Prompting for Estimating Epistemic Uncertainty

짧은 소개 본 논문은 LLM 답변의 불확실성을 수치화하기 위한 방법을 제시한 논문입니다. 특히 할루시네이션에 직접적인 영향을 미치는 지식부족형 불확실성을 수치화하는 기법을 제시하였으며, 수학적으로 증명할 수…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025]Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

오늘 소개드릴 논문은 NeurIPS 2025 에 소개된 Vide RAG 관련 논문입니다. 해당 논문은 시각적으로 정렬(Visually-aligned)된 정보를 통해 Long video에 대한 이해력을 높이는 RAG 기술을 제안한…

Continue Reading
Posted in Paper X-Review

[arXiv2025]Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

본 논문은 비디오 연구에서 Sampling Dilemma 문제를 수면 위로 올리며, 이를 위한 벤치마크 데이터셋을 공개하는 논문입니다. Sampling Dilemma란 무엇인지에서 부터 논문이 어떻게 벤치마크를 구성했는지 리뷰를…

Continue Reading
Posted in Paper X-Review

[ACL Findings 2025] Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMs

Video LLMs을 통한 비디오 요약이 가능할까요? 해당 질문에 대한 답을 위해 분석을 진행한 논문이 여기 있습니다. 리뷰를 시작하겠습니다. 본 논문은 Zero-shot으로 비디오 요약을 수행하려할때 확인하게…

Continue Reading
Posted in Paper X-Review

[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words

오늘은 앞서 리뷰한 VLM is biased? 라는 질문을 다룬 논문의 이전 논문을 소개하려합니다. 본 논문은 VLM이 이미지를 보고 대답할때 실제로 보고있는것인지 확인하기 위한 벤치마크를 제시합니다….

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

현재 LLM은 Long-context 입력을 소화할 수 있는 수준으로 빠르게 발전하고 있습니다. 그러나 아직 완벽하지 않은데요, 비교적 짧은 입력만을 소화할 수 있던 기존의 LLM이 데이터베이스 외부의…

Continue Reading
Posted in Paper X-Review

[arxiv 2025] Vision Language Models are Biased

Video를 위한 RAG를 구축하기 위해서는 VLM 모델 활용이 필수적입니다. 그러나 최근 몇 연구에서는 VLM이 데이터에 대한 이해능력에 대해 의혹을 제기하고 있는데요, 해당 논문을 통해 VLM에게…

Continue Reading
Posted in Paper X-Review

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…

Continue Reading