Author: 박 성준
[CVPR2025] VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2025에 게재된 VideoTree 모델로 Long Video Understanding 논문입니다. Prerequisite Information 대규모 언어 모델(LLM)은 방대한 양의 텍스트 데이터를 학습하여 사람처럼…
[NIPS 2025] Two Causally Related Needles in a Video Haystack
안녕하세요. 오늘 제가 리뷰할 논문은 이번 NIPS 2025년에 공개된 논문입니다. 논문은 긴 비디오에서 인과적으로 연결된 두 지점(Needles)를 찾아 이해하는 능력을 평가하는 데이터셋인 Causal2Needles를 제안합니다. 기본적으로…
[CVPR2023] Teaching Structured Vision & Language Concepts to Vision & Language Models
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Vision-Language 모델의 compositional 이해 능력을 개선한 논문입니다. Introduction CLIP과 같은 Vision-Language 모델은 이미지와 텍스트를 함께 학습하는 것으로 Classification, Detection,…
SIM-COT: Supervised Implicit Chain-of-Thought
안녕하세요. 오늘 리뷰할 논문은 SIM-COT: Supervised Implicit Chain-of-Thought입니다. 아직 학회에 게재된 논문은 아니지만 InternVL으로 유명(?)한 InternLM의 논문으로 LLM의 CoT에 관한 연구입니다. Introduction “측정할 수 있는…
[NIPS2023] Self-Chained Image-Language Model for Video Localization and Question Answering
안녕하세요. 박성준 연구원입니다. 오늘도 Video Question Grounding 논문입니다. Introduction 비디오 정보와 자연어 정보를 같이 이해할 수 있는 Video-LM은 이미지-언어 모델인 Image-LM에 비해 더 높은 계산…
2025년도 하계 URP 조교를 마치며
안녕하세요. 박성준 연구원입니다. 2025 하계 URP 조교를 마치며 느낀점을 기록하고자 X-Diary를 작성합니다. 이번 8주 동안의 URP는 조교로 참여한 URP 중 가장 느끼는 점이 많은 것…
[ICCV2025] Object-centric Video Question Answering with Visual Grounding and Referring
안녕하세요. 박성준 연구원입니다. 최근 ICCV2025에 공개된 Video Question Grounding 연구입니다. Introduction 최근에 제가 관심가지고 서베이 중인 분야인 Video Question Grounding은 기본적으로 Video Question Answering이지만, 모델이…
[CVPR2025] Cross-modal Causal Relation Alignment for Video Question Grounding
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR 2025 Highlight 논문으로 Video Question Grounding(VQG)을 다룬 논문입니다. Introduction Video Question Answering(VideoQA)는 비디오와 자연어 질문을 입력 받아서 해당…
[CVPR 2024] Can I Trust Your Answer? Visually Grounded Video Question Answering
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 Video Question Answering (VideoQA) 연구입니다. VideoQA 모델이 생성하는 답변이 시각적 정보에 얼마나 근거하고 있는 지를 Video Grounding을 통해 평가하고…
2025년 상반기를 돌아보며
안녕하세요. 박성준 연구원입니다. 2025년 상반기가 마무리됨에 따라 2025년에 느낀점 및 앞으로의 방향성 등을 글로 남기고자 상반기 회고를 작성하게 되었습니다. 우선 가장 먼저 올해 초에도 멘토로…
안녕하세요 석준님 좋은 댓글 감사합니다. Q1. 생성되는 subgoal 이라는 것은 장면 ‘이미지’ 인가, 아니면 ‘경로’ 인가요? 먼저 ViNT에서 Diffusion 모델이…