Author: 정 의철

Posted in Paper X-Review

[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] Retrieval Head Mechanistically ExplainsLong Context Factuality

안녕하세요. 이번에 소개할 논문은 롱컨텍스트 LLM이 긴 입력에서 정보를 실제로 어떻게 찾아 쓰는지를 모델 내부 attention head를 통해 분석한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading
Posted in Paper X-Review

[2024 ECCV] VideoAgent: Long-form Video Understanding with Large Language Model as Agent

안녕하세요. 이번에 소개할 논문은 Long-form Video Understanding 태스크 논문이며 긴 영상을 처리하는 방식을 인간이 비디오를 이해하는 흐름을 모사해 방법론을 제안합니다. 저자는 이를 위해 VideoAgent라는 에이전트…

Continue Reading
Posted in M.S. X-Diary

[정의철]2025년을 보내며

안녕하세요. 한 해를 마무리하며, 올해는 어땠는지 정리해보고 내년에는 어떤 마음가짐으로 연구실 생활을 이어갈지 간단히 적어보려고 합니다. 저는 올해도 연구실에서 많은 시간을 보냈고, 그만큼 얻은 것도…

Continue Reading
Posted in X-Review

[ICCV 2025] How Can Objects Help Video-Language Understanding?

안녕하세요. 이번에 소개할 논문은 명시적 객체 표현이 Video-Language Understanding에서 실제로 도움이 되는지, 그리고 도움이 된다면 어떤 방식으로 통합하는 것이 가장 효율적인지를 다루는 연구입니다. 즉, 모델이…

Continue Reading
Posted in X-Review

[CVPR 2024] Koala: Key frame-conditioned long video-LLM

안녕하세요 이번에 소개할 논문은 Long Video QA 문제를 다루는 video LLM 연구입니다. 이 방법론은 이미 학습된 video LLM이 더 긴 비디오 길이에도 잘 동작하도록 adaptation…

Continue Reading
Posted in X-Review

[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus

1. Introduction 최근 대규모 텍스트 코퍼스와 멀티모달 데이터를 바탕으로 학습된 LLM과 이를 시각 모달리티로 확장한 LVLM은 다양한 태스크를 해결하기 위한 표준 모델로 사용되고 있습니다. 이들…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS

안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…

Continue Reading
Posted in Paper X-Review

[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH

이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…

Continue Reading