Author: 정 의철

Posted in X-Review

[2025 CVPR] Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 태스크의 논문입니다. 이번 논문은 VLM을 활용해 비디오의 프레임 캡션을 생성하고 이를 다양한 방식으로 활용해 Retrieval 성능을 높인 논문입니다. 그럼…

Continue Reading
Posted in X-Review

[2023 ICCV] Unified Coarse-to-Fine Alignment for Video-Text Retrieval

1. Introduction 이번에 소개드릴 논문 역시 Text-Video Retrieval 연구 논문입니다. Text-Video Retrieval은 서로 다른 두 모달리티를 연결하는 cross-modal alignment의 응용이라 볼 수 있습니다. 이 태스크는…

Continue Reading
Posted in X-Review

[2023 CVPR] Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring

안녕하세요. 이번에 소개할 논문은 사전 학습된 CLIP 모델을 비디오 도메인으로 확장할 때 시간 모델링에 대한 분석을 다룬 연구입니다. 비디오 태스크에는 Retrieval과 같은 고수준(high-level) 태스크와, Video…

Continue Reading
Posted in Paper X-Review

[ICCV 2023]Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval

안녕하세요 이번에 소개할 논문도 Text-Video Retrieval 분야의 연구 논문입니다. 저는 최근 CLIP 모델에 Mixture-of-Experts(MoE)를 결합하여 모델을 확장하고, 동시에 CLIP 백본에 시간적 정보를 추가하는 방법에 대해…

Continue Reading
Posted in Paper X-Review

[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter

안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…

Continue Reading
Posted in X-Diary

2025년 상반기 회고

안녕하세요. 이번에는 2025년 상반기 회고 글을 작성해보려고 합니다. 이렇게 회고 글을 쓸 때마다 느끼는 거지만, 시간이 참 빠르게 지나가는 것 같아 괜히 울적해지고 센치해지는 것…

Continue Reading
Posted in Paper X-Review

[ECCV 2022] TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

안녕하세요 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 개인 연구를 진행하면서 어떻게 하면 encoder 내부에서 비디오의 spatial-temporal 정보를 모델링 할지 고민을 하고 있는데 마침 제가 생각했던…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

이번에 소개할 논문은 Video-Text Retrieval 분야에서, 사전학습된 CLIP 모델을 활용한 parameter-efficient adaptation에 초점을 둔 연구입니다. CLIP은 이미지-텍스트 쌍의 alignment에 초점을 맞춰 학습되고, Video-Text Retrieval도 마찬가지로…

Continue Reading
Posted in X-Diary

CVPR2025 참관기

안녕하세요. 이번에는 CVPR 2025 참관 후기를 작성해보려 합니다. 먼저, 이번 CVPR 학회에 직접 참관할 수 있는 기회를 주신 교수님께 진심으로 감사드립니다. 이번 CVPR 2025는 2025년…

Continue Reading
Posted in Paper X-Review

[ICLR 2023]SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS

안녕하세요. 이번에 소개할 논문도 MoE 분야의 연구입니다. 이 논문은 기존 dense 모델을 MoE 모델로 확장하는 과정에서, MoE 레이어의 전문가 네트워크(expert)를 단순히 랜덤으로 초기화해 학습하는 것이…

Continue Reading