Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[CVPR2023]Causalainer: Causal Explainer for Automatic Video Summarization

비디오 요약은 입력된 비디오에서 중요하다고 여겨지는 프레임을 선택하거나 중요도 순으로 점수를 매기는 과제입니다. 그러나 모델이 데이터에 대해 중요도하다고 평가하는 이유에 대해 분석할 방법이 없다는 것이…

Continue Reading
Posted in Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요, 이번 X-Review 로 DETR 논문을 가져왔습니다. 저번 ViT 는 Image classification 을 목적으로 Transformer를 응용하였는데요, 이번 DETR은 Object Detection을 목적으로 Transformer 를 사용합니다. 다만…

Continue Reading
Posted in X-Review

[arXiv 2025] [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster

안녕하세요. 이번 리뷰도 Token Pruning에 관한 논문입니다. 아직 어느 학회/저널에 Accept된 것으로 보이진 않지만, 21회의 Citation 수를 보입니다. 논문 제목도 찾아보면 Revised 버전에 따라 다르게…

Continue Reading
Posted in X-Review

[arXiv 2025] Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

안녕하세요, 이번주는 Google DeepMind의 end-to-end로 3DGS 기반으로 물리 시뮬레이션이 가능한 3d asset generation pipeline을 소개한 논문입니다. Synthetic data 활용을 한 로봇 학습에서는 asset generation이 필수적이고,…

Continue Reading
Posted in X-Review

[AAAI 2025] Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

안녕하세요 3번째로 리뷰할 논문은 2025년에 AAAI에 기재된 Zero-shot depth completion via Test-time Alignment with Affine-invariant Depth Prior라는 논문입니다.논문 : https://arxiv.org/abs/2502.06338 제목에서 알 수 있듯이 Depth…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation

1. Introduction 상용 RGB-D 센서는 Lambertian 표면 아닌 물체(투명하거나 반사되는 재질을 의미)에서 노이즈가 발생하며 성능이 저하되는 한계가 있습니다. 그래서 RGB 이미지를 같이 활용하여 누락되는 depth를…

Continue Reading
Posted in X-Review

[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

오늘도 Video-Text Retrieval 논문에 대해 리뷰해보겠습니다. 논문 제목 중 VLA가 있어서 어라 싶으신 분들도 있겠지만, 여기서 A는 Action 이 아닌 Alignment 입니다 ㅎㅎ 리뷰 시작하겠습니다….

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts

안녕하세요, 예순 네번째 X-Review입니다. 이번 논문은 2024년도 arXiv에 올라온 Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts입니다. 바로 시작하도록…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] Bridging the Gap Between End-to-End and Two-Step Text Spotting

안녕하세요 이번주에도 Text Spotting 논문을 가져와 리뷰해보겠습니다. 1. Introduction & Related Studies natural scene에서의 text를 인식하는 text spotting 태스크는 실제 세계에서 다양한 분야에 적용되기 때문에…

Continue Reading
Posted in Paper X-Review

[ICLR 2021]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

안녕하세요 이번 X-Review로 ViT를 가져왔습니다.Transformer 구조를 이미지 쪽으로 가져오기 위한 많은 과정이 있었겠지만 약 4년만에 나온 논문으로 생각보다 오랜시간이 걸렸는데요. 해당 Transformer가 나왔을 당시의 GPU적…

Continue Reading