[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2013] All about VLAD
안녕하세요 류지연입니다. 한주 간 VLAD로 이미지 분류 성능을 개선시키는 것을 진행했습니다. 본 연구에서 제안하는 방법론을 적용했습니다. 한주를 마무리하며 연구에서 제안하는 방법론들에 대해 정리하고자 해당 논문으로…
[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…
[arXiv 2025] FAST: Efficient Action Tokenization for Vision-Language-Action Models
이번에 들고 온 논문은 로봇 분야를 선도하고 있는 그룹은 Physical intelligence에서 공개한 VLA 모델 중 하나인 pi-zero의 후속 논문 FAST입니다. high-frequency를 가진 action을 효율적으로 학습하기…
[WACV 2024]Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
안녕하세요, 쉰 여덟번째 X-Review입니다. 이번 논문은 2024년도 WACV에 올라온 Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis논문입니다. 바로 시작하도록 하겠습니다. 🐠 1. Introduction…
[WACV 2025(Oral)] Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
안녕하세요, 62번째 x-review 입니다. 이번 논문은 WACV 2025 oral paper로 게재된 논문으로, 제가 최근에 읽었던 논문들과 동일하게 Marigold를 베이스로 하는 depth estimation 논문 입니다. 그럼…
[CVPR 2025] Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
이번에 리뷰할 논문도 기존에 리뷰하던 Video-Text Retrieval 입니다… 그런데 이제 Audio 를 곁들인…. 비디오 연구에서까지 점차 모달을 확장하고 있는 것 같은데, 멀티모달 RAG 과제 대비할…
[ICLR 2016] Continuous Control With Deep Reinforcement Learning
안녕하세요, 이번주도 Deep Reinforcement learning 논문을 들고왔습니다. 사실 Deep RL을 적용한 논문을 처음으로 리뷰했을 때 그 논문에 쓰인 알고리즘인데, 그 때는 지식이 너무 부족한 상황이어서…
[arXiv 2025] Video-T1: Test-Time Scaling for Video Generation
안녕하세요 지금부터 비디오 생성의 퀄리티를 높이기 위해 Test-Time Scaling(TTS)을 어떻게 적용하는지를 다룬 논문을 소개하겠습니다. Test-Time Scaling은 추론 단계(test-time)에서 연산량과 같은 리소스를 확장(scaling)하여 예측의 품질을 개선하는…
[CVPR 2022] DenseCLIP : Language-Guided Dense Prediction with Context-Aware Propmting
안녕하세요, 허재연입니다. 오늘 다룰 논문은 CLIP과 같은 image-text pair로 대규모 사전학습을 진행한 VLM모델들의 지식을 dense prediction task에 효율적으로 전이할 수 있는 방법을 제안한 논문입니다. 제안하는…
[CVPR 2025] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions
오늘도 Text-Video Retrieval 논문에 대해 리뷰해겠습니다. 리뷰하려는 논문은 CVPR 2025 에 Accept 되었고, Arxiv 버전으로 리뷰를 진행하려고 합니다. Conference: CVPR 2025 Authors: Chan Hur, Jeong-hun Hong,…
최신 댓글