Category: Paper
Paper Review
[ICRA 2025] TransDiff: Diffusion-Based Method for Manipulating Transparent Using a Single RGB-D Image
안녕하세요, 61번째 x-review 입니다. 이번 논문은 ICRA 2025에 게재된 TransDiff라는 논문으로, Diffusion을 활용하여 투명한 물체에 대한 Depth Completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…
[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…
[ICLR 2022] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ICLR 2022에 게재된 DAB-DETR입니다. OVOD 논문들을 읽다 등장하여 살펴본 논문이며, DETR의 object query에 주목하여 성능을 개선한 논문입니다. DETR 구조는 대부분…
[arXiv 2025]Video-R1: Reinforcing Video Reasoning in MLLMs
안녕하세요, 오늘 소개드릴 논문은 Video-R1입니다. Github 에서는 본 논문을 [?the first paper to explore R1 for video] 라고 소개하고 있습니다. 즉, 저자들은 본 논문을 DeepSeek-R1에서…
[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control
이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…
[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation
안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…
[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…
[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts
안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….
[arXiv 2025] DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
안녕하세요, 60번째 x-review 입니다. 이번 논문은 arXiv 2025에 얼마 전 올라온 DepthMaster라는 논문으로, 제가 요즘 읽고 있는 논문들과 동일하게 Marigold를 기반으로 Monocular Detph Estimation을 수행한…
[arXiv 2024] LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
안녕하세요. 이번 리뷰는 세미나에서 소개드린 LLaVA-PruMerge입니다. 세미나에서 방법론에 대해 자세히 다루지는 않았는데, 좋은 기회일 것 같습니다. 그럼 바로 시작해보겠습니다. Introduction 놀라울만한 LLM의 성능에 이은 LMM…
태주님 좋은 리뷰 감사합니다. frame에 대한 변인을 하나 줄이는 방식으로 조금 더 효율적으로 표현하고자 한 것으로 이해하였습니다. 2가지 타입에서 평가한다고…