[ICRA 2026] AnyThermal Towards Learning Universal Representations for Thermal Perception
안녕하세요 손우진입니다. 이번 리뷰는 제목을 보고 안 읽을수가 없었던 논문을 소개드리고자 합니다. 이번에 소개 드릴 논문은 열화상의 Representation을 잘 표현하는 backbone을 제안한 논문인데요. 열화상 이미지…
[arXiv 2026] Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
안녕하세요. 최근 Multimodal LLM을 임베딩 모델로 활용하는 연구들에 관심을 가지면서 관련 논문들을 계속 살펴보고 있었는데, 이번에 소개할 논문은 reasoning 과정을 reinforcement learning으로 최적화해 멀티모달 임베딩…
Exclusive Self-Attention
이번에 소개해 드릴 논문은 아카이브에 공개된 지 2주 좀 안 된 논문입니다. 정확히는 테크니컬 리포트이고 애플에서 쓴 논문이네요. Intro 기존 트랜스포머는 문맥(Context)을 파악하는 ‘Self Attention(SA)’과…
[IJCV 2025] Masked Channel Modeling for Bootstrapping Visual Pre-training
Introduction Foundation model(e.g. CLIP)의 등장 이후의 model은 엄청난 성능과 일반화 능력을 가지게 되었습니다. 하지만 개인 수준에서 foundation model처럼 대용량의 데이터셋으로 학습시키는건 불가능에 가깝습니다. 그렇기에 결국…
[arXiv 2026] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model
해당 논문의 1저자가 제가 이전에 리뷰한 Affordance-R1의 1저자이기도 하며 SeqAfford, A4-agent, FSAG의 공동 저자라 찾아보다 읽게 되었습니다. 그 외에도 최근 다양한 학술대회에 논문을 많이 작성한…
[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
오늘은 LMM(대형 멀티모달 모델)이 단순히 정지된 사진을 넘어서, ‘비디오’라는 연속적인 데이터를 얼마나 잘 이해하는지 평가하는 최초의 종합 벤치마크(Video-MME)에 대한 논문을 가져왔습니다. MLLM을 Video에 적용하는 부분에…
[arXiv2023]VideoChat🦜: Chat-Centric Video Understanding
무언가를 이해한다는것은 어떻게 정의할 수 있을까요? 저는 특정 콘텐츠에 대한 이해는 이해 주체의 관점에 따른다고 생각해왔습니다. 이러한 제 관점에 알맞은 논문을 발견하게 되어 리뷰를 하게…
[ECCV 2024] ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling
안녕하세요. 이번에 리뷰할 논문은 Google Research에서 ECCV 2024에 발표한 논문으로, VLM의 문장 생성 능력을 활용해 attribute recognition을 해결하고자 한 논문입니다. 속성과 같이 객체의 fine-grained한 특성을…
[SOSP 2023] Efficient Memory Management for Large Language Model Serving with PagedAttention
안녕하세요. 이번에 들고온 논문은 LLM 을 서빙할때 KV cache 메모리 관리의 비효율을 어떻게 해결할 것인지를 다룬 논문입니다. 저희 연구실 사람들이 이런 메모리 관리 측면의 OS…
[arxiv 2026]Less Is More : Scalable Visual Navigation from Limited Data
안녕하세요. 이번에 들고온 논문은 한달전에 아카이브에 올라온 Less Is More: Scalable Visual Navigation from Limited Data라는 논문입니다. 간단하게 컨셉만 말씀드리고 넘어가면 무작정 많은 cross-embodiment 데이터를…
질문 감사합니다. 우선 action encoder로 사용한 RenderNet을 찾아보니, 일관성 있는 캐릭터와 고품질 이미지를 생성하고 제어할 수 있는 강력한 AI 이미지…