Author: 황 유진
[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding
무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…
[arXiv2026]Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
오늘 소개드린 논문은 LLM의 evalutation에 대한 분석과 분석 방법을 다룬 논문입니다. 일반적인 벤치마크는 정확도를 기준으로 평가합니다. 하지만 이는 LLM이 실제로 그 정보에 대한 지식이 없는지(empty…
[arXiv2025]LongVideoAgent: Multi-Agent Reasoning with Long Videos
왜 제안되었나? Crucially, most prior systems are non-agentic models: they process a static, pre-encoded or down-sampled video. 기존의 연구들은 미리 설계된(pre-encoded) 아키텍쳐로 분석을 수행하였다. 이러한…
[arXiv2025]VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
# 들어가며 오늘 소개드린 논문은 video understanding 수행에 있어서 multi-agent를 사용하는 방법을 소개하는 논문입니다. 논문에 따르면 기존 방식은 추론 과정에서 초기 계획이 변하지 않는 fixed…
[NeurIPS2025]VideoLucy: Deep Memory Backtracking for Long Video Understanding
논문 간단 소개 본 논문은 Long video Understanding을 위한 agent 기반 프레임워크를 제시합니다. LLM을 활용하여 비디오에서 중요 정보를 찾아내거나 정보를 통합해 답변을 생성하는 agent를 설계하는…
[황유진] 2025년을 보내며
이상과 현실의 괴리를 인식하게 된 한해 저의 2025를 요약하면 위와 같을 것 같습니다. 처음 학부연구생에 들어올때부터 human-like intelligence에 관심이 있었습니다. 이러한 이상을 갖고있었기에 석사과정까지 이론적…
[arXiv 2025]Deep Video Discovery : Agentic Search with Tool Usefor Long-form Video Understanding
그래서 AI가 그렇게 좋다는데, 지금 기술로 Video Understanding은 어디까지 가능하지?와 같은 질문에 해답이 될 수 있는 논문을 소개합니다. 본 논문은 Agentic Search를 통한 Longvideo benchmark에서의…
[NeurIPS2025]AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding
짧은 논문 소개 본 연구는 MLLM(Multimodal Large Language Model)을 활용하여 긴 영상에 대한 질의응답 테스크 정확도를 개선하는 RAG 프레임워크를 제시한 것입니다. 연구에서는 기존 RAG 연구가…
[NeurIPS2024] Benchmarking LLMs via Uncertainty Quantification
본 논문은 LLM을 불확실성 측면에서 평가하는 벤치마크를 제시하는 논문입니다. 벤치마크의 필요성 기존의 벤치마크는 LLM을 평가할때 예측의 정확도를 주로 리포팅했습니다. 그러나 논문에서 확인한 결과, 예측의 정확도와…
[NeurIPS 2024]To Believe or Not to Believe Your LLM: Iterative Prompting for Estimating Epistemic Uncertainty
짧은 소개 본 논문은 LLM 답변의 불확실성을 수치화하기 위한 방법을 제시한 논문입니다. 특히 할루시네이션에 직접적인 영향을 미치는 지식부족형 불확실성을 수치화하는 기법을 제시하였으며, 수학적으로 증명할 수…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…