Category: Paper

Paper Review

Posted in Paper X-Review

[CVPR 2025] Towards Training-free Anomaly Detection with Vision and Language Foundation Models

안녕하세요, 예순 아홉번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 Towards Training-free Anomaly Detection with Vision and Language Foundation Models 입니다. 바로 시작하도록 하겠습니다.  1. Introduction…

Continue Reading
Posted in Paper X-Review

[CVPR 2025]LLMDet: Learning Strong Open-Vocabulary Object Detectors under theSupervision of Large Language Models

안녕하세요. 이번에 리뷰로 들고 온 논문은 2025년 CVPR에 게재된 LLMDet 라는 논문입니다.먼저 OVOD는 대부분 아시다시피 사용자가 입력한 텍스트 라벨을 기반으로 임의의 클래스를 탐지하는 것을 목표로…

Continue Reading
Posted in Paper X-Review

[AAAI2025] Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark

오늘 소개드릴 논문은 비디오 요약과 관련된 문제를 새롭게 정의 하고 데이터셋을 구축한 논문입니다. 테스크 명은 Video Repurposing 인데요, 본문에서 소개를 해보겠습니다. (Q)인스타그램, 틱톡, 유튜브 쇼츠등…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] Always Clear Depth: Robust Monocular Depth Estimation under Adverse Weather

안녕하세요, 74번째 x-review 입니다. 이번 논문은 2025년 arXiv에 올라와 있는 논문이긴 하지만, 도메인이 다른 데이터 사이에 distillation 하는 방식이 참고해볼만 하여 읽어본 논문 입니다. 그럼…

Continue Reading
Posted in Paper X-Review

[arXiv2025] VideoRAG: Retrieval-Augmented Generation over Video Corpus

오늘 소개드릴 논문은 RAG에 관련된 논문입니다. 앞서서 비디오 요약(Video Summerization)에 관련된 연구를 몇가지 소개드렸는데요, 이러한 비디오에서 비디오로의 요약은 어떻게 사용될 수 있을까요? 본 논문을 통해…

Continue Reading
Posted in Conference Paper X-Review

[ICCV 2025] SVTRv2: CTCBeats Encoder-Decoder Models in Scene Text Recognition

안녕하세요 2025년 ICCV에 accept된 Scene Text Recognition (STR) 논문 중 한 편인 SVTRv2을 가져왔습니다. 기존에 많이 사용됐던 CTC 기반의 방법론에 모듈을 추가해 트랜스포머 기반의 text…

Continue Reading
Posted in Paper X-Review

[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…

Continue Reading
Posted in Paper X-Review

[ICLR 2025] MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION

안녕하세요, 예순 여덟번째 X-Review입니다. 이번 논문은 2025년도 ICLR에 올라온 MMAD: A COMPREHENSIVE BENCHMARK FOR MULTIMODAL LARGE LANGUAGE MODELS IN INDUSTRIAL ANOMALY DETECTION 입니다. 바로 시작하도록…

Continue Reading
Posted in Conference Paper X-Review

[ICLR 2025] Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

안녕하세요, 허재연입니다. 지난 주에 이어서 Video SGG논문을 가져왔습니다. SGG쪽 연구를 꾸준히 하시던 저자들이 ICLR2025에 게재한 논문이고, LLM 기반의 Weakly Supervised Learning 기법을 제안한 논문이라 읽어보았습니다….

Continue Reading
Posted in Paper

[CVPR 2023]Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

안녕하세요. 이번에 제가 이번에 리뷰할 논문은 Mask DINO라는 논문입니다. 상반기 회고에서도 잠깐 언급했듯이, 현재는 단순하게 말씀드리면 하나의 모델로 depth estimation과 object detection을 동시에 수행할 수…

Continue Reading