Author: 박 성준
[CVPR 2026] Generative Video Compression with One-Dimensional Latent Representation
오늘 리뷰는 CVPR 2026에 게재된 Video Compression 논문입니다. Introduction 비디오 데이터의 증가로 인해서 낮은 비트레이트에서도 높은 품질을 유지하는 동시에 효율적으로 압축하는 기술이 점점 중요해지고 있습니다….
[ArXiv 2025] Active Video Perception: Iterative Evidence Seekingfor Agentic Long Video Understanding
안녕하세요, 오늘 리뷰할 논문은 Active Video Perception(AVP)입니다. Long Video Understanding 연구로 기존의 agentic 파이프라인의 단점을 보완한 연구입니다. Introduction 긴 비디오 이해(Long Video Understanding, LVU)는 대부분…
[NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 LVU연구인 Vgent입니다. NIPS2025에서 spotlight로 선정된 연구입니다. Introduction 대규모 비디오 언어 모델(Large Video Language Model, LVLM)은 영상과 자연어를 동시에 다루며…
[박성준] 2025년을 보내며
안녕하세요. 박성준 연구원입니다. 2025년을 보내며, 올해는 어떻게 지나갔는지를 정리해보면서 또 다가오는 내년은 어떻게 마주할건지를 짧게 나눠보려합니다. 2025년을 보내며 회고록을 쓰기 전에 올해 무슨 일이 있었나…
[CVPR2025] VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다. Prerequisite Information 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼…
[NIPS 2025] Two Causally Related Needles in a Video Haystack
안녕하세요. 오늘 제가 리뷰할 논문은 이번 NIPS 2025년에 공개된 논문입니다. 논문은 긴 비디오에서 인과적으로 연결된 두 지점(Needles)를 찾아 이해하는 능력을 평가하는 데이터셋인 Causal2Needles를 제안합니다. 기본적으로…
[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…
SIM-COT: Supervised Implicit Chain-of-Thought
안녕하세요. 오늘 리뷰할 논문은 SIM-COT: Supervised Implicit Chain-of-Thought입니다. 아직 학회에 게재된 논문은 아니지만 InternVL으로 유명(?)한 InternLM의 논문으로 LLM의 CoT에 관한 연구입니다. Introduction “측정할 수 있는…
[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering
안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…
2025년도 하계 URP 조교를 마치며
안녕하세요. 박성준 연구원입니다. 2025 하계 URP 조교를 마치며 느낀점을 기록하고자 X-Diary를 작성합니다. 이번 8주 동안의 URP는 조교로 참여한 URP 중 가장 느끼는 점이 많은 것…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…