Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[IJCV 2025] Masked Channel Modeling for Bootstrapping Visual Pre-training

Introduction Foundation model(e.g. CLIP)의 등장 이후의 model은 엄청난 성능과 일반화 능력을 가지게 되었습니다. 하지만 개인 수준에서 foundation model처럼 대용량의 데이터셋으로 학습시키는건 불가능에 가깝습니다. 그렇기에 결국…

Continue Reading
Posted in X-Review

[arXiv 2026] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

해당 논문의 1저자가 제가 이전에 리뷰한 Affordance-R1의 1저자이기도 하며 SeqAfford, A4-agent, FSAG의 공동 저자라 찾아보다 읽게 되었습니다. 그 외에도 최근 다양한 학술대회에 논문을 많이 작성한…

Continue Reading
Posted in X-Review

[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

오늘은 LMM(대형 멀티모달 모델)이 단순히 정지된 사진을 넘어서, ‘비디오’라는 연속적인 데이터를 얼마나 잘 이해하는지 평가하는 최초의 종합 벤치마크(Video-MME)에 대한 논문을 가져왔습니다. MLLM을 Video에 적용하는 부분에…

Continue Reading
Posted in Paper X-Review

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을…

Continue Reading
Posted in Paper X-Review

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…

Continue Reading
Posted in Paper X-Review

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…

Continue Reading
Posted in Paper X-Review

[WACV 2026] ReFineVQA: Iterative Refinement of Video Description via Feedback Generation for Video Question Answering

안녕하세요 오늘은 RefineVQA논문을 리뷰하겠습니다.이 논문은 VideoQA에서 질문에 맞는 비디오 설명을 반복적으로 보완해 더 정확한 답을 생성하도록 하는 방법을 제안한 연구입니다! 리뷰 시작하겠습니다. Intro 이 논문은…

Continue Reading
Posted in X-Review

[NeurIPS 2025] ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

안녕하세요. 이번 논문은 RGB 데이터셋은 Thermal 이미지로 변환(생성)하는 방법론입니다.SiT와 adaLN-zero와 같은 개념에 대해 알아보고자 골랐습니다.시작하겠습니다. Introduction 먼저 두가지 측면에 대해서 얘기합니다. Q. RGB-T 데이터셋은 왜…

Continue Reading
Posted in X-Review

EV-5, VLM2Vec, VLM2Vec-V2: Generative MLLMs as Embedding Models

오늘은 MLLM을 Embedding 모델로 활용하는 논문을 리뷰해보려고 합니다. 방법론 자체는 어렵지 않아서, 3가지 논문 (E5-V, VLM2Vec, VLM2Vec-v2)을 큰 흐름 위주로 리뷰해보겠습니다. 1. Introduction 최근 저희…

Continue Reading