Author: 박 성준

Posted in X-Review

[CVPR 2026] Generative Video Compression with One-Dimensional Latent Representation

오늘 리뷰는 CVPR 2026에 게재된 Video Compression 논문입니다. Introduction 비디오 데이터의 증가로 인해서 낮은 비트레이트에서도 높은 품질을 유지하는 동시에 효율적으로 압축하는 기술이 점점 중요해지고 있습니다….

Continue Reading
Posted in X-Review

[ArXiv 2025] Active Video Perception: Iterative Evidence Seekingfor Agentic Long Video Understanding

안녕하세요, 오늘 리뷰할 논문은 Active Video Perception(AVP)입니다. Long Video Understanding 연구로 기존의 agentic 파이프라인의 단점을 보완한 연구입니다. Introduction 긴 비디오 이해(Long Video Understanding, LVU)는 대부분…

Continue Reading
Posted in X-Review

[NIPS2025] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 LVU연구인 Vgent입니다. NIPS2025에서 spotlight로 선정된 연구입니다. Introduction 대규모 비디오 언어 모델(Large Video Language Model, LVLM)은 영상과 자연어를 동시에 다루며…

Continue Reading
Posted in X-Diary

[박성준] 2025년을 보내며

안녕하세요. 박성준 연구원입니다. 2025년을 보내며, 올해는 어떻게 지나갔는지를 정리해보면서 또 다가오는 내년은 어떻게 마주할건지를 짧게 나눠보려합니다. 2025년을 보내며 회고록을 쓰기 전에 올해 무슨 일이 있었나…

Continue Reading
Posted in X-Review

[CVPR2025] VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다. Prerequisite Information 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼…

Continue Reading
Posted in X-Review

[NIPS 2025] Two Causally Related Needles in a Video Haystack

안녕하세요. 오늘 제가 리뷰할 논문은 이번 NIPS 2025년에 공개된 논문입니다. 논문은 긴 비디오에서 인과적으로 연결된 두 지점(Needles)를 찾아 이해하는 능력을 평가하는 데이터셋인 Causal2Needles를 제안합니다. 기본적으로…

Continue Reading
Posted in X-Review

[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…

Continue Reading
Posted in X-Review

SIM-COT: Supervised Implicit Chain-of-Thought

안녕하세요. 오늘 리뷰할 논문은 SIM-COT: Supervised Implicit Chain-of-Thought입니다. 아직 학회에 게재된 논문은 아니지만 InternVL으로 유명(?)한 InternLM의 논문으로 LLM의 CoT에 관한 연구입니다. Introduction “측정할 수 있는…

Continue Reading
Posted in X-Review

[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering

안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…

Continue Reading
Posted in X-Diary

2025년도 하계 URP 조교를 마치며

안녕하세요. 박성준 연구원입니다. 2025 하계 URP 조교를 마치며 느낀점을 기록하고자 X-Diary를 작성합니다. 이번 8주 동안의 URP는 조교로 참여한 URP 중 가장 느끼는 점이 많은 것…

Continue Reading