[카테고리:] Paper

Paper Review

Posted in Paper X-Review

[arXiv 2025] Cooking Task Planning using LLM and Verified by Graph Network

이번 리뷰 논문의 유뷰트 보고 요리하는 로봇에 대해서 다루고자 합니다. 분야 관련 게시물들을 보다가 발견한 기사에서 해당 논문에 대해서 다루는 것을 보고 읽게 되었습니다. 기법은…

Continue Reading
Posted in Paper X-Review

[COLING 2025] Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

안녕하세요. 제가 이번에 리뷰할 논문은 이전 리뷰인 두 PuMer, LLaVA-PruMerge을 읽고 이해하셨다면 저자의 새로운 기여는 하나 밖에 없습니다 (대부분은 이전 리뷰에서 차용해온 방식을 그대로 사용했습니다)….

Continue Reading
Posted in Paper X-Review

[ICCV 2023] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

안녕하세요, 쉰 다섯번째 X-Review입니다. 이번 논문은 2023년도 ICCV에 올라온 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition논문입니다. 바로 시작하도록 하겠습니다. 🌹 1. Introduction…

Continue Reading
Posted in Paper X-Review

[ICRA 2025] TransDiff: Diffusion-Based Method for Manipulating Transparent Using a Single RGB-D Image

안녕하세요, 61번째 x-review 입니다. 이번 논문은 ICRA 2025에 게재된 TransDiff라는 논문으로, Diffusion을 활용하여 투명한 물체에 대한 Depth Completion을 수행한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다…

Continue Reading
Posted in Paper X-Review

[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts

안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…

Continue Reading
Posted in Paper X-Review

[ICLR 2022] DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 ICLR 2022에 게재된 DAB-DETR입니다. OVOD 논문들을 읽다 등장하여 살펴본 논문이며, DETR의 object query에 주목하여 성능을 개선한 논문입니다. DETR 구조는 대부분…

Continue Reading
Posted in Paper X-Review

[arXiv 2025]Video-R1: Reinforcing Video Reasoning in MLLMs

안녕하세요, 오늘 소개드릴 논문은 Video-R1입니다. Github 에서는 본 논문을 [🔥the first paper to explore R1 for video] 라고 소개하고 있습니다. 즉, 저자들은 본 논문을 DeepSeek-R1에서…

Continue Reading
Posted in Conference Paper X-Review

[arXiv 2024] π0: A Vision-Language-Action Flow Model for General Robot Control

이번 리뷰 논문은 VLA 논문으로 지능형 로봇을 선두하고 있는 기관 중 Physical Intelligence라는 곳에서 공개한 기법입니다. 최근 VLA의 흐름은 사전 학습된 VLM 모델에 Diffusion policy를…

Continue Reading
Posted in Paper X-Review

[WACV 2022] Occlusion-Robust Object Pose Estimation with Holistic Representation

안녕하세요 류지연입니다. 이번에도 6D 자세 추정에 대한 논문으로 가져왔습니다. 앞서 리뷰했던 PVNet, PVN3D, FFB6D 논문에서의 연구방향과 흐름을 살펴보았을 때 자세추정을 위해 키포인트를 검출할 때 Depth…

Continue Reading
Posted in Paper X-Review

[ACM MM 2024] Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval

안녕하세요, 쉰 네번째 X-Review입니다. 이번 논문은 2024년도 ACM MM에 올라온 Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval논문입니다. 바로 시작하도록…

Continue Reading