Author: 황 찬미

Posted in Paper X-Review

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models

안녕하세요! 이번에 리뷰할 논문은 Stable Diffusion의 근간이 되는 Latent Diffusion Model(LDM)논문입니다! 최근에 디퓨전 모델을 서베이 하면서 거슬러 거슬러 올라가 stable diffusion의 토대인 모델을 읽어보게 되었는데요….

Continue Reading
Posted in Paper X-Review

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…

Continue Reading
Posted in Paper X-Review

[Arxiv 2026] Agentic Very Long Video Understanding

안녕하세요.이번에 리뷰해볼 논문은 long video understanding에서 1시간 가량의 롱이 아닌 최대 50시간 정도의 베리롱!! VU를 다룬 논문입니다. 그럼 리뷰 시작하겠습니다. Intro 이 논문에서는 “very long…

Continue Reading
Posted in Paper X-Review

[AAAI 2026] VideoChat-A1: Thinking with Long Videos byChain-of-Shot Reasoning

안녕하세요! 이번에 소개할 논문은  Long Video Understanding에서 긴 비디오를 효과적으로 이해하기 어려운 문제를 해결하기 위해 shot단위의 점진적인 추론 방식인 Chain-of-Shot 프레임워크(VideoChat-A1)를 제안한 연구입니다이 논문은 기존…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2025] VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form VideoUnderstanding by Uncertainty-Aware CoT

안녕하세요이번에 소개할 논문은 Long Video Understanding에서 기존 LLM에이전트들이 tool사용 과정에서 발생하는 불확실성과 그로인해 누적되는 오류 문제를 지적하고 이것을 해결하기위해 uncertainty-aware CoT와 plan-adjust기반의 추론 구조를 제안한…

Continue Reading
Posted in X-Diary

[황찬미] 2025년을 보내며

안녕하세요 황찬미입니다.올해를 시작하면서 개인적으로 다짐글을 적었던게 엊그제 같은데 벌써 URP후기글을 지나 2025년을 보내는 글을 적게 되었네요. 매년 이 시기마다 시간이 너무 빠르게 지나는 것 같다고…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Video Summarization with Large Language Models

안녕하세요 LLM을 사용하여 비디오 요약을 해결한 논문을 살펴보려고 합니다!리뷰 시작하겠습니다. <Intro> 기존 기술은 visual features(시각적 단서)와 temporal dynamics(시간적 특징)에 의존하는데 이 비전 정보 중심의 방법들은…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

안녕하세요 황찬미입니다!오늘도 비디오 요약 관련 최신 논문을 살펴보려고 합니다!! 그럼 바로 리뷰 시작하겠습니다 [Intro] 비디오 요약 연구는 오래됐지만 두가지의 큰 장애물이 있습니다. 먼저 데이터가 너무…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] Scaling Up Video Summarization Pretraining with Large Language Model

안녕하세요 !오늘도 video summarization관련 논문에 대해 리뷰해보겠습니다특히 이번에 다룰 논문은 LLM이 텍스트만 요약하는 게 아니라 비디오 요약도 도와줄 수 있다!!는 아이디어에서 출발한 재밌는 연구입니다 그럼…

Continue Reading
Posted in Paper X-Review

[CVPR 2023] Align and Attend: Multimodal Summarization with Dual Contrastive Losses

안녕하세요 황찬미입니다. 오늘 살펴볼 논문은 비디오 요약 task에서 multimodel summarization의 문제를 다루는 논문입니다. 동영상이 인풋으로 들어왔을때 통합모델 하나로 텍스트도 요약하고 비디오도 요약할수 있는 MSMO(Multimodal Summarization…

Continue Reading