Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요, 이번 X-Review 로 DETR 논문을 가져왔습니다. 저번 ViT 는 Image classification 을 목적으로 Transformer를 응용하였는데요, 이번 DETR은 Object Detection을 목적으로 Transformer 를 사용합니다. 다만…
[arXiv 2025] [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster
안녕하세요. 이번 리뷰도 Token Pruning에 관한 논문입니다. 아직 어느 학회/저널에 Accept된 것으로 보이진 않지만, 21회의 Citation 수를 보입니다. 논문 제목도 찾아보면 Revised 버전에 따라 다르게…
[arXiv 2025] Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data
안녕하세요, 이번주는 Google DeepMind의 end-to-end로 3DGS 기반으로 물리 시뮬레이션이 가능한 3d asset generation pipeline을 소개한 논문입니다. Synthetic data 활용을 한 로봇 학습에서는 asset generation이 필수적이고,…
[AAAI 2025] Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior
안녕하세요 3번째로 리뷰할 논문은 2025년에 AAAI에 기재된 Zero-shot depth completion via Test-time Alignment with Affine-invariant Depth Prior라는 논문입니다.논문 : https://arxiv.org/abs/2502.06338 제목에서 알 수 있듯이 Depth…
[arXiv 2025] DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation
1. Introduction 상용 RGB-D 센서는 Lambertian 표면 아닌 물체(투명하거나 반사되는 재질을 의미)에서 노이즈가 발생하며 성능이 저하되는 한계가 있습니다. 그래서 RGB 이미지를 같이 활용하여 누락되는 depth를…
[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….
[arXiv 2024] Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts
안녕하세요, 예순 네번째 X-Review입니다. 이번 논문은 2024년도 arXiv에 올라온 Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts입니다. 바로 시작하도록…
[CVPR 2024] Bridging the Gap Between End-to-End and Two-Step Text Spotting
안녕하세요 이번주에도 Text Spotting 논문을 가져와 리뷰해보겠습니다. 1. Introduction & Related Studies natural scene에서의 text를 인식하는 text spotting 태스크는 실제 세계에서 다양한 분야에 적용되기 때문에…
[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
안녕하세요 이번 X-Review로 ViT를 가져왔습니다.Transformer 구조를 이미지 쪽으로 가져오기 위한 많은 과정이 있었겠지만 약 4년만에 나온 논문으로 생각보다 오랜시간이 걸렸는데요. 해당 Transformer가 나왔을 당시의 GPU적…
[arXiv 2025] Perfecting Depth: Uncetrainty-Aware Enhancement of Metric Depth
안녕하세요, 69번째 x-review 입니다. 이번 논문은 arXiv 2025년도에 올라온 Perfecting Depth라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction monoculdar depth estimation(MDE)는 아주 초기에는…
안녕하세요 재윤님, 좋은 리뷰 감사합니다. 텍스트와 시각 정보를 선택적으로 집중하고, 적절한 시간의 지식만을 효과적으로 사용하기 위한 방법론이라고 이해했습니다. episodic /…