[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
안녕하세요, 쉰 여섯번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. 🐠 1. Introduction…
[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…
[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…
[ICLR 2016] Continuous Control With Deep Reinforcement Learning
안녕하세요, 이번주도 Deep Reinforcement learning 논문을 들고왔습니다. 사실 Deep RL을 적용한 논문을 처음으로 리뷰했을 때 그 논문에 쓰인 알고리즘인데, 그 때는 지식이 너무 부족한 상황이어서…
[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation
안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…
[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting
안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…
[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…
[AAAI 2016] Deep Reinforcement Learning with Double Q-learning
안녕하세요, 이번주도 저번주에 이어서 강화학습에 딥러닝을 적용한 논문을 리뷰해보도록 하겠습니다. 강화학습에 처음으로 딥러닝을 적용한 DQN이 가지고 있는 Q-value 과대추정(overestimation bias) 문제를 해결하기 위해 제안된 알고리즘입니다….
[CVPR 2022] RegionCLIP: Region-based Language-Image Pretraining
안녕하세요 류지연입니다. 오늘 리뷰하려고 가져온 논문은 RegionCLIP입니다. 랩세미나에서 늘 CLIP이 언급돼서 늘 궁금했었는데요 동기 연구원의 기초교육 일정에 RegionCLIP 논문을 읽는 게 있어서 CLIP연구와 함께 기본이…
[ICLR 2022] FILIP: FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING
안녕하세요, 허재연입니다. 이번 리뷰에서 다룰 논문은 보다 fine-grained 한 사전학습을 통해 FILIP이라는 새로운 VLM을 구축한 연구입니다. 리뷰 시작하겠습니다. Introduction CLIP, ALIGN과 같은 대규모 Vision-Language 사전학습법이…
최신 댓글