Category: Paper
Paper Review
[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
안녕하세요. 제가 이번에 리뷰할 논문은 이전 리뷰인 두 PuMer, LLaVA-PruMerge을 읽고 이해하셨다면 저자의 새로운 기여는 하나 밖에 없습니다 (대부분은 이전 리뷰에서 차용해온 방식을 그대로 사용했습니다)….
[ICCV 2023] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
안녕하세요, 쉰 일곱번째 X-Review입니다. 이번 논문은 2023년도 ICCV에 올라온 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction…
[ICRA 2025] TransDiff: Diffusion-Based Method for Manipulating Transparent Using a Single RGB-D Image
안녕하세요, 61번째 x-review 입니다. 이번 논문은 ICRA 2025에 게재된 TransDiff라는 논문으로, Diffusion을 활용하여 투명한 물체에 대한 Depth Completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…
[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…
[ICLR 2022] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ICLR 2022에 게재된 DAB-DETR입니다. OVOD 논문들을 읽다 등장하여 살펴본 논문이며, DETR의 object query에 주목하여 성능을 개선한 논문입니다. DETR 구조는 대부분…
[arXiv 2025]Video-R1: Reinforcing Video Reasoning in MLLMs
안녕하세요, 오늘 소개드릴 논문은 Video-R1입니다. Github 에서는 본 논문을 [?the first paper to explore R1 for video] 라고 소개하고 있습니다. 즉, 저자들은 본 논문을 DeepSeek-R1에서…
[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control
이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…
[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation
안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…
[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…
[2022 NIPS] On the Representation Collapse of Sparse Mixture of Experts
안녕하세요 이번에 소개해드릴 논문도 Mixture of Experts(MoE) 분야와 관련된 연구입니다. 최근 MoE의 내용을 정리하면서, 이 구성 요소 중 라우팅(router)가 핵심적인 역할을 한다는 점을 파악하게 되었습니다….
안녕하세요 정민님 깔끔한 리뷰 감사합니다. 말씀하신 것처럼 약간 지도학습기반으로 다시 회귀하는 점이 장점이자 단점이라고 생각할 수 있을 것 같습니다. 제가…