Author: 정 의철
[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction
1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…
[2025 ICLR] Retrieval Head Mechanistically ExplainsLong Context Factuality
안녕하세요. 이번에 소개할 논문은 롱컨텍스트 LLM이 긴 입력에서 정보를 실제로 어떻게 찾아 쓰는지를 모델 내부 attention head를 통해 분석한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1….
[2024 ECCV] VideoAgent: Long-form Video Understanding with Large Language Model as Agent
안녕하세요. 이번에 소개할 논문은 Long-form Video Understanding 태스크 논문이며 긴 영상을 처리하는 방식을 인간이 비디오를 이해하는 흐름을 모사해 방법론을 제안합니다. 저자는 이를 위해 VideoAgent라는 에이전트…
[정의철]2025년을 보내며
안녕하세요. 한 해를 마무리하며, 올해는 어땠는지 정리해보고 내년에는 어떤 마음가짐으로 연구실 생활을 이어갈지 간단히 적어보려고 합니다. 저는 올해도 연구실에서 많은 시간을 보냈고, 그만큼 얻은 것도…
[ICCV 2025] How Can Objects Help Video-Language Understanding?
안녕하세요. 이번에 소개할 논문은 명시적 객체 표현이 Video-Language Understanding에서 실제로 도움이 되는지, 그리고 도움이 된다면 어떤 방식으로 통합하는 것이 가장 효율적인지를 다루는 연구입니다. 즉, 모델이…
[CVPR 2024] Koala: Key frame-conditioned long video-LLM
안녕하세요 이번에 소개할 논문은 Long Video QA 문제를 다루는 video LLM 연구입니다. 이 방법론은 이미 학습된 video LLM이 더 긴 비디오 길이에도 잘 동작하도록 adaptation…
[arXiv 2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus
1. Introduction 최근 대규모 텍스트 코퍼스와 멀티모달 데이터를 바탕으로 학습된 LLM과 이를 시각 모달리티로 확장한 LVLM은 다양한 태스크를 해결하기 위한 표준 모델로 사용되고 있습니다. 이들…
[arXiv 2024] SLOWFAST-LLAVA: A STRONG TRAINING-FREEBASELINE FOR VIDEO LARGE LANGUAGE MODELS
안녕하세요 이번에는 새롭게 video understanding, question answering, explanation tasks를 수행하는 Video large language model 논문에 대해 소개하고자 합니다. Video-LLM 모델을 이해하기 위해서는 먼저 Image-LLM(Image Large…
[arXiv 2022] Disentangled Representation Learning for Text-Video Retrieval
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval 모델들의 핵심 모듈인 Cross-modality interaction이 성능에 어떻게 영향을 미치는지에 대한 분석이 부족하다는 것을 문제 정의 삼아 이를 분석하고 새로운…
[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH
이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…
안녕하세요 재윤님, 좋은 리뷰 감사합니다. 텍스트와 시각 정보를 선택적으로 집중하고, 적절한 시간의 지식만을 효과적으로 사용하기 위한 방법론이라고 이해했습니다. episodic /…