Author: 정 의철

Posted in X-Review

[arXiv 2026] Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

안녕하세요. 최근 Multimodal LLM을 임베딩 모델로 활용하는 연구들에 관심을 가지면서 관련 논문들을 계속 살펴보고 있었는데, 이번에 소개할 논문은 reasoning 과정을 reinforcement learning으로 최적화해 멀티모달 임베딩…

Continue Reading
Posted in X-Review

[arXiv 2024] Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models?

안녕하세요. 이번에 소개할 논문은 LLM 기반 텍스트 임베딩 모델의 설계에 대해 분석한 연구입니다. 최근 LLM 기반 임베딩 모델로 실험을 진행하던 중, 어떤 구조적 설계가 성능에…

Continue Reading
Posted in X-Review

[AAAI 2026] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

안녕하세요. 이번에 소개할 논문은 멀티모달 LLM을 범용 멀티모달 임베딩 모델로 확장하려는 연구입니다. 최근 MLLM을 단순 생성 모델이 아닌 임베딩 모델로도 활용하는 연구가 많이 늘고 있습니다….

Continue Reading
Posted in X-Review

[ICLR 2025] GENERATIVE REPRESENTATIONAL INSTRUCTION TUNING

안녕하세요. 오늘은 LLM의 생성 능력과 임베딩 능력을 하나의 모델로 통합하려는 GRIT(Generative Representational Instruction Tuning) 논문을 리뷰하고자 합니다. 최근 MLLM 기반 생성 모델을 검색에도 함께 활용하려는…

Continue Reading
Posted in X-Review

[ICCV 2025] STORM: Token-Efficient Long Video Understanding for Multimodal LLMs

안녕하세요 이번에 소개할 논문은 NVDIA에서 발표한 논문으로 롱비디오 이해에 있어 Mamba 기반 모델로 토큰 압축을 적용하여 시간 모델링을 보완하고 성능과 효율을 동시에 향상시킨 논문입니다. 1….

Continue Reading
Posted in Paper X-Review

[ICCV 2025] LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

안녕하세요 이번에 소개할 논문은 롱비디오 이해에서 단일 MLLM으로 추론 하는 한계를 지적하고 이를 multi-agent 협업 구조로 보완하는 LVAgent 프레임워크를 제안한 논문입니다. 그럼 바로 리뷰 시작하겠습니다….

Continue Reading
Posted in Paper X-Review

[2025 NIPS] KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

1. Introduction 이 연구는 롱컨텍스트 트랜스포머가 실제 서비스에서 점점 더 많이 쓰이면서 긴 컨텍스트를 처리할 때 발생하는 비용(메모리·연산)을 어떻게 줄일지에 초점을 둡니다. 장문 문서 분석이나…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] Retrieval Head Mechanistically ExplainsLong Context Factuality

안녕하세요. 이번에 소개할 논문은 롱컨텍스트 LLM이 긴 입력에서 정보를 실제로 어떻게 찾아 쓰는지를 모델 내부 attention head를 통해 분석한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1….

Continue Reading
Posted in Paper X-Review

[2024 ECCV] VideoAgent: Long-form Video Understanding with Large Language Model as Agent

안녕하세요. 이번에 소개할 논문은 Long-form Video Understanding 태스크 논문이며 긴 영상을 처리하는 방식을 인간이 비디오를 이해하는 흐름을 모사해 방법론을 제안합니다. 저자는 이를 위해 VideoAgent라는 에이전트…

Continue Reading
Posted in M.S. X-Diary

[정의철]2025년을 보내며

안녕하세요. 한 해를 마무리하며, 올해는 어땠는지 정리해보고 내년에는 어떤 마음가짐으로 연구실 생활을 이어갈지 간단히 적어보려고 합니다. 저는 올해도 연구실에서 많은 시간을 보냈고, 그만큼 얻은 것도…

Continue Reading