Category: Paper
Paper Review
[CVPR 2025] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models
안녕하세요, 예순 일곱번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models입니다. 바로 시작하도록 하겠습니다. 1. Introduction…
[CVPR 2023]Finetune Like You Pretrain: Improved Finetuning of Zero-Shot Vision Models
이번에 가져온 논문은 제가 OWL_ViT에 파인튜닝 기법으로 사용해볼 FLYP 논문입니다. 기존에 존재하는 다른 파인튜닝 방법론보다 성능이 더 좋다는 것이 논문에 구체적으로 설명되어 있기도 하고 연구하고…
[AAAI 2025](Oral) DepthFM: Fast Generative Monocular Depth Estimation with Flow Matching
안녕하세요, 72번째 x-review 입니다. 이번 논문은 AAAI 2025년도에 Oral paper로 게재된 DepthAM이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction Monocular Depth Estimation(MDE)은 크게…
[ECCV 2022] TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval
안녕하세요 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 개인 연구를 진행하면서 어떻게 하면 encoder 내부에서 비디오의 spatial-temporal 정보를 모델링 할지 고민을 하고 있는데 마침 제가 생각했던…
[CVPR 2025] Universal Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 살펴볼 논문은 CVPR 2025 논문으로, 학회에 참석했을 때 포스터 세션에서 직접 저자에게 컨셉을 설명 들었던 논문입니다. 저자들이 SGG를 주제로 CVPR2025에 논문을 두…
[arXiv 2024]ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
안녕하세요 이번에 들고온 리뷰할 논문은 Scale Depth 라는 논문입니다. 2024년 10월에 아카이브에 올라왔지만 아직 어느 학회에도 게재가 되지는 않은 논문입니다. 다른 Depth 논문들과는 다르게 이미지를…
[AAAI 2024](Oral) AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models
안녕하세요, 예순 여섯번째 X-Review입니다. 이번 논문은 2024년도 AAAI에 올라온 AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models입니다. 바로 시작하도록 하겠습니다. 1. Introduction 본 논문은 Large…
[ECCV 2022]Simple Open-Vocabulary Object Detection with Vision Transformers
안녕하세요 이번 논문으로는 OWL-ViT를 가져왔습니다. Open world Localization with vision transformer 라는 뜻인데 말을 보면 유추할 수 있듯이 Open world 상황에서 기존 CLIP이 classification만 가능했다면…
[CVPR 2024] PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection
안녕하세요, 예순 다섯번째 X-Review입니다. 이번 논문은 2024년도 CVPR에 올라온 PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection입니다. 바로 시작하도록 하겠습니다. 1. Introduction…
[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
이번에 소개할 논문은 Video-Text Retrieval 분야에서, 사전학습된 CLIP 모델을 활용한 parameter-efficient adaptation에 초점을 둔 연구입니다. CLIP은 이미지-텍스트 쌍의 alignment에 초점을 맞춰 학습되고, Video-Text Retrieval도 마찬가지로…
태주님 좋은 리뷰 감사합니다. frame에 대한 변인을 하나 줄이는 방식으로 조금 더 효율적으로 표현하고자 한 것으로 이해하였습니다. 2가지 타입에서 평가한다고…