Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICASSP 2025] Improving Irregular Text Recognition with Adaptive Feature Compression
1. Introduction Scene Text Recognition(STR) task는 이미지의 feature 정보를 가지고 text 형태의 문자 시퀀스를 예측하는 즉, 두 모달리티에서의 데이터 전환을 다루는 태스크입니다. 꽤나 높은 정확도로…
[arXiv 2025] Always Clear Depth: Robust Monocular Depth Estimation under Adverse Weather
안녕하세요, 74번째 x-review 입니다. 이번 논문은 2025년 arXiv에 올라와 있는 논문이긴 하지만, 도메인이 다른 데이터 사이에 distillation 하는 방식이 참고해볼만 하여 읽어본 논문 입니다. 그럼…
[CVPR2025] GeoDepth
이번에 리뷰로 작성할 논문은 CVPR2025에 게재된 GeoDepth라는 논문이며, 해당 논문은 self-supervised monocular depth estimation task를 다루고 있습니다. Intro 지난번 리뷰에서도 마찬가지로 self-supervised monocular depth estimation(SDE)는…
[ICCV 2023] Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation
안녕하세요. 이번 논문은 Segmentation 태스크에서 Token Pruning을 수행한 연구로, MLLM은 아니지만 현재 제가 연구하고 있는 분야가 MLLM을 활용한 Segmentation에서의 Token Pruning이기에 “Token Pruning이 Segmentation에 적용될…
[arXiv2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus
오늘 소개드릴 논문은 RAG에 관련된 논문입니다. 앞서서 비디오 요약(Video Summerization)에 관련된 연구를 몇가지 소개드렸는데요, 이러한 비디오에서 비디오로의 요약은 어떻게 사용될 수 있을까요? 본 논문을 통해…
[arxiv 2025] LBAP: Improved Uncertainty Alignment of LLM Planners using Bayesian Inference
안녕하세요. 이번 리뷰도 LLM의 hallucination 현상을 완화하기 위한 방법으로 uncertainty 추정 관련 논문을 들고왔습니다. 제목을 보시면 bayesian inference란 내용이 나오는데요. 그동안 제가 리뷰해왔던 uncertainty 추정…
[ICCV 2025] SVTRv2: CTCBeats Encoder-Decoder Models in Scene Text Recognition
안녕하세요 2025년 ICCV에 accept된 Scene Text Recognition (STR) 논문 중 한 편인 SVTRv2을 가져왔습니다. 기존에 많이 사용됐던 CTC 기반의 방법론에 모듈을 추가해 트랜스포머 기반의 text…
[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…
[CVPR 2025]UA-Pose : Uncertainty-Aware 6D Object pose Estimation and Online Object Completion with partial References
안녕하세요 6번째 X-review 입니다. 이번에도 6D 쪽 논문을 가져왔습니다. 이번 논문 2025년 CVPR에 accept된 UA-Pose 입니다.그럼 리뷰 바로 시작하도록 하겠습니다. 최근 6D pose estiamtion 연구에서는…
[ICLR 2025] MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION
안녕하세요, 예순 여덟번째 X-Review입니다. 이번 논문은 2025년도 ICLR에 올라온 MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION 입니다. 바로 시작하도록…
안녕하세요 성준님. 좋은 리뷰 감사합니다. Definition 2.1에서 G와 G'을 정의하는 부분이 잘 이해가 가지 않아 질문드립니다. 제가 이해하기로 G는 backward…