Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[ICRA 2026] AnyThermal Towards Learning Universal Representations for Thermal Perception

안녕하세요 손우진입니다. 이번 리뷰는 제목을 보고 안 읽을수가 없었던 논문을 소개드리고자 합니다. 이번에 소개 드릴 논문은 열화상의 Representation을 잘 표현하는 backbone을 제안한 논문인데요. 열화상 이미지…

Continue Reading
Posted in X-Review

[arXiv 2026] Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

안녕하세요. 최근 Multimodal LLM을 임베딩 모델로 활용하는 연구들에 관심을 가지면서 관련 논문들을 계속 살펴보고 있었는데, 이번에 소개할 논문은 reasoning 과정을 reinforcement learning으로 최적화해 멀티모달 임베딩…

Continue Reading
Posted in X-Review

Exclusive Self-Attention

이번에 소개해 드릴 논문은 아카이브에 공개된 지 2주 좀 안 된 논문입니다. 정확히는 테크니컬 리포트이고 애플에서 쓴 논문이네요. Intro 기존 트랜스포머는 문맥(Context)을 파악하는 ‘Self Attention(SA)’과…

Continue Reading
Posted in X-Review

[IJCV 2025] Masked Channel Modeling for Bootstrapping Visual Pre-training

Introduction Foundation model(e.g. CLIP)의 등장 이후의 model은 엄청난 성능과 일반화 능력을 가지게 되었습니다. 하지만 개인 수준에서 foundation model처럼 대용량의 데이터셋으로 학습시키는건 불가능에 가깝습니다. 그렇기에 결국…

Continue Reading
Posted in X-Review

[arXiv 2026] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

해당 논문의 1저자가 제가 이전에 리뷰한 Affordance-R1의 1저자이기도 하며 SeqAfford, A4-agent, FSAG의 공동 저자라 찾아보다 읽게 되었습니다. 그 외에도 최근 다양한 학술대회에 논문을 많이 작성한…

Continue Reading
Posted in X-Review

[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

오늘은 LMM(대형 멀티모달 모델)이 단순히 정지된 사진을 넘어서, ‘비디오’라는 연속적인 데이터를 얼마나 잘 이해하는지 평가하는 최초의 종합 벤치마크(Video-MME)에 대한 논문을 가져왔습니다. MLLM을 Video에 적용하는 부분에…

Continue Reading
Posted in Paper X-Review

[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding

무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…

Continue Reading
Posted in Paper X-Review

[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을…

Continue Reading
Posted in Paper X-Review

[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention

안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…

Continue Reading
Posted in Paper X-Review

[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data

안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…

Continue Reading