Author: 신 인택
[ICLR 2026] VisionTrim: Unified Vision Token Compression forTraining-Free MLLM Acceleration
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 바로 리뷰 시작하겠습니다. Abstract MLLMs 의 token pruning 논문들에서 단골로 등장하는 말인 입력 단에서의 visual token개수가…
[NeurIPS 2025] Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 개인연구를 진행하면서 해당 분야에 논문들이 쏟아져나오고 있어서 생각보다 쉽지 않은 것 같습니다. 그럼 리뷰 시작하겠습니다. Abstract…
[CVPR 2026] ApET: Approximation-Error Guided Token Compression for Efficient VLMs
안녕하세요 이번에 들고온 논문도 VLM 에서의 token pruning 논문입니다. 해당 논문은 25년도까지의 pruning 논문들이 ViT의 [CLS] 토큰이나 llm decoder 단에서의 visual-text attention 정보에 어느정도 의존하는…
[ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
안녕하세요 이번에 들고온 논문도 VLM 에서의 Token pruning 논문입니다. 최근에 나온 VLM token pruning 논문들의 성능이 훨씬 개선되기도 했지만, 24년도의 FastV와 마찬가지로 llm decoder단에서의 visual-text…
[ICCV 2025] Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs
안녕하세요 이번에 들고온 논문은 VLM 에서의 Token pruning 논문입니다. 다음연구로 VLM 에서의 visual token을 어떻게 잘 pruning 하거나 기존 방법론들을 분석해서 왜 잘되거나 잘 안되는지를…
[ICCV 2025] Is CLIP ideal? No. Can we fix it? Yes!
안녕하세요 이번에 가져온 논문은 다들 알고는 있는 CLIP 의 잠재 공간이 복잡한 시각-텍스트 상호작용을 못한다는 것을 밝히고 해결까지한 논문입니다. 처음 읽게된 이유는 흥미로운 제목과 요즘…
[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention
안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…
[EMLLP 2023] Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
안녕하세요 이번에 들고온 논문은 VLM 들도 사람과 비슷하게 착시를 겪는지? 를 분석한 논문입니다. 그럼 리뷰 시작하겠습니다. Abstract Vision-Language Models 즉 VLMs 들은 인간이 생성한 방대한…
[Arxiv 2026] BabyVision: Visual Reasoning Beyond Language
안녕하세요 이번에 들고온 논문은 최신 MLLM 들의 시각적 능력이 언어적 priors에 크게 의존하고 있고 실제 모델의 근본적인 시각적 능력을 평가하기 위한 벤치마크를 제공한 논문입니다. 1/13일에…
[IJCV 2025] Guiding Audio-Visual Question Answering with Collective Question Reasoning
Guiding Audio-Visual Question Answering with Collective Question Reasoning 안녕하세요 이번에도 AVQA 관련된 논문을 들고왔습니다. 방법론적으로 현재 연구중인 상황에서 각 모달리티별 아웃풋들을 어떻게 잘 Fusion 해서…
안녕하세요 우진님, 좋은 질문 감사합니다. 이쪽 분야를 접한 이유는 저희 팀 기업 과제가 task가 SAR object detection이고, 과제 팔로우업을 겸해서…