[ICCV 2023]Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval
안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 분야의 연구 논문입니다. 저는 최근 CLIP 모델에 Mixture-of-Experts(MoE)를 결합하여 모델을 확장하고, 동시에 CLIP 백본에 시간적 정보를 추가하는 방법에 대해…
[NAACL 2025] DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
오랜만에 Video-Text Retrieval 태스크에 대해 리뷰해보겠습니다. 성능을 급격하게 상승시킨 논문이라서 리뷰하게 되었습니다. 바로 시작해보겠습니다. 1. Introduction 최근 비디오-텍스트 검색(Video-Text Retrieval, VTR) 성능 향상은 CLIIP이라는 강력한…
[2025 상반기] 산업체 인턴쉽 후기
안녕하세요. 저는 25년도 상반기 6개월간 네이버클라우드 인턴쉽을 마치고 돌아온 김현우입니다. 오늘은 지난 인턴쉽 과정중 한 일과 배운점들, 또 전달할 점들을 글로 정리해보고자 합니다. 1. 무엇을…
[ICCV 2025]6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
안녕하세요, 7번째? X-Review 작성자 손우진입니다^^. 이번에 리뷰할 논문은 ICCV 2025에 accept된 논문입니다. 최근 X-Review에서 제가 6D 관련 논문을 자주 다루고 있는데요, 6D 분야의 흐름은 model-based에서…
[arxiv 2025]Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation
안녕하세요. 이번에는 아카이브에 있지만 현재 창의학기제에서 CLIP 모델에 LoRA를 적용해보는게 어떨지 좀 서베이 해보다가 읽게된 논문을 들고왔습니다. 제가 생각했던 문제점을 실제로 다뤄줘서 들고왔고, 최초 LoRA…
[CVPR 2025] Any6D : Model-free 6D Pose Estimation of Novel Objects
안녕하세요 이번주는 Scene Complete과정에 속하는 6D Pose Estimation 논문을 리뷰하도록 하겠습니다. 단 한장의 RGB-D 앵커 이미지만 활용해 unknown 객체의 6D pose와 metric scale을 추정하는 model-free…
[CVPR 2025] Towards Training-free Anomaly Detection with Vision and Language Foundation Models
안녕하세요, 예순 아홉번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 Towards Training-free Anomaly Detection with Vision and Language Foundation Models 입니다. 바로 시작하도록 하겠습니다. 1. Introduction…
[CVPR 2025]LLMDet: Learning Strong Open-Vocabulary Object Detectors under theSupervision of Large Language Models
안녕하세요. 이번에 리뷰로 들고 온 논문은 2025년 CVPR에 게재된 LLMDet 라는 논문입니다.먼저 OVOD는 대부분 아시다시피 사용자가 입력한 텍스트 라벨을 기반으로 임의의 클래스를 탐지하는 것을 목표로…
[AAAI2025] Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark
오늘 소개드릴 논문은 비디오 요약과 관련된 문제를 새롭게 정의 하고 데이터셋을 구축한 논문입니다. 테스크 명은 Video Repurposing 인데요, 본문에서 소개를 해보겠습니다. (Q)인스타그램, 틱톡, 유튜브 쇼츠등…
[ICASSP 2025] Improving Irregular Text Recognition with Adaptive Feature Compression
1. Introduction Scene Text Recognition(STR) task는 이미지의 feature 정보를 가지고 text 형태의 문자 시퀀스를 예측하는 즉, 두 모달리티에서의 데이터 전환을 다루는 태스크입니다. 꽤나 높은 정확도로…
댓글 감사합니다. 본 모델 구조를 보면 아시겠지만 text encoder는 사용하고 있지 않습니다. VLM의 encoder iamge 부분만 가져와 scene image를 embedding한…