Category: X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Conference X-Review

[CVPR2025] Masking meets Supervision: A Strong Learning Alliance

이번에 리뷰로 작성할 논문은 CVPR2025에 게재된 논문으로 네이버 AI Lab에서 작성한 논문입니다. self-supervised learning에서 자주 소개되었던 Masked Image Modeling을 supervised learning framework에 적용하였을 때의 문제점을…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection

안녕하세요, 예순 다섯번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 올라온 PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection입니다. 바로 시작하도록 하겠습니다. 1. Introduction…

Continue Reading
Posted in X-Review

[ICRA 2024] Universal Visual Decomposer: Long-Horizon Manipulation Made Easy

안녕하세요. 저번 리뷰는 Long-text Uncertainty Quantification(LUQ) 이라는 불확실성 추정 기반으로 LLM의 Long-text response에서의 hallucination현상을 정량적으로 추론해보자는 개념의 방법론을 들고왔었는데요. 갑자기 또 매니퓰레이션과 policy 관점에서의 무언가를…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

이번에 소개할 논문은 Video-Text Retrieval 분야에서, 사전학습된 CLIP 모델을 활용한 parameter-efficient adaptation에 초점을 둔 연구입니다. CLIP은 이미지-텍스트 쌍의 alignment에 초점을 맞춰 학습되고, Video-Text Retrieval도 마찬가지로…

Continue Reading
Posted in Conference Paper X-Review

[WACV 2024] DTrOCR: Decoder-only Transformer for Optical Character Recognition

안녕하세요 text recognition 연구를 다룬 논문을 하나 가져와 리뷰하겠습니다. 지금까지 제가 본 트랜스포머를 활용한 text spotting, text detection, recognition 연구는 인코더-디코더 구조를 사용하였지만 해당 연구는…

Continue Reading
Posted in Paper X-Review

[CVPR2023]Causalainer: Causal Explainer for Automatic Video Summarization

비디오 요약은 입력된 비디오에서 중요하다고 여겨지는 프레임을 선택하거나 중요도 순으로 점수를 매기는 과제입니다. 그러나 모델이 데이터에 대해 중요도하다고 평가하는 이유에 대해 분석할 방법이 없다는 것이…

Continue Reading
Posted in Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요, 이번 X-Review 로 DETR 논문을 가져왔습니다. 저번 ViT 는 Image classification 을 목적으로 Transformer를 응용하였는데요, 이번 DETR은 Object Detection을 목적으로 Transformer 를 사용합니다. 다만…

Continue Reading
Posted in X-Review

[arXiv 2025] [CLS] Attention is All You Need for Training-Free Visual Token Pruning: Make VLM Inference Faster

안녕하세요. 이번 리뷰도 Token Pruning에 관한 논문입니다. 아직 어느 학회/저널에 Accept된 것으로 보이진 않지만, 21회의 Citation 수를 보입니다. 논문 제목도 찾아보면 Revised 버전에 따라 다르게…

Continue Reading
Posted in X-Review

[arXiv 2025] Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

안녕하세요, 이번주는 Google DeepMind의 end-to-end로 3DGS 기반으로 물리 시뮬레이션이 가능한 3d asset generation pipeline을 소개한 논문입니다. Synthetic data 활용을 한 로봇 학습에서는 asset generation이 필수적이고,…

Continue Reading
Posted in X-Review

[AAAI 2025] Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

안녕하세요 3번째로 리뷰할 논문은 2025년에 AAAI에 기재된 Zero-shot depth completion via Test-time Alignment with Affine-invariant Depth Prior라는 논문입니다.논문 : https://arxiv.org/abs/2502.06338 제목에서 알 수 있듯이 Depth…

Continue Reading