Author: 정 의철
[2024 ACL] RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter
안녕하세요 이번에 소개할 논문은 Text-Video Retrieval(TVR) 모델에 Parameter-Efficient Transfer Learning(PEFT) 기법을 적용시킨 논문입니다. TVR 태스크는 기본적으로 Text와 Vision의 매칭을 기반으로 수행되기 때문에 CLIP가 같은 모델을…
2025년 상반기 회고
안녕하세요. 이번에는 2025년 상반기 회고 글을 작성해보려고 합니다. 이렇게 회고 글을 쓸 때마다 느끼는 거지만, 시간이 참 빠르게 지나가는 것 같아 괜히 울적해지고 센치해지는 것…
[ECCV 2022] TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval
안녕하세요 이번에도 Text-Video Retrieval 논문을 리뷰하고자 합니다. 개인 연구를 진행하면서 어떻게 하면 encoder 내부에서 비디오의 spatial-temporal 정보를 모델링 할지 고민을 하고 있는데 마침 제가 생각했던…
[CVPR 2025] DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
이번에 소개할 논문은 Video-Text Retrieval 분야에서, 사전학습된 CLIP 모델을 활용한 parameter-efficient adaptation에 초점을 둔 연구입니다. CLIP은 이미지-텍스트 쌍의 alignment에 초점을 맞춰 학습되고, Video-Text Retrieval도 마찬가지로…
CVPR2025 참관기
안녕하세요. 이번에는 CVPR 2025 참관 후기를 작성해보려 합니다. 먼저, 이번 CVPR 학회에 직접 참관할 수 있는 기회를 주신 교수님께 진심으로 감사드립니다. 이번 CVPR 2025는 2025년…
[ICLR 2023]SPARSE UPCYCLING: TRAINING MIXTURE-OF-EXPERTS FROM DENSE CHECKPOINTS
안녕하세요. 이번에 소개할 논문도 MoE 분야의 연구입니다. 이 논문은 기존 dense 모델을 MoE 모델로 확장하는 과정에서, MoE 레이어의 전문가 네트워크(expert)를 단순히 랜덤으로 초기화해 학습하는 것이…
[arXiv 2025] CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe
with Sparse Upcycling
with Sparse Upcycling
안녕하세요 이번에 리뷰할 논문은 2025년 Apple에서 발표한 논문으로 CLIP 모델에 Mixture-of-Experts(MoE)를 적용하여 다양한 실험을 통해 CLIP 모델 확장 과정에서 발생할 수 있는 문제점을 분석하고 새로운…
CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING
안녕하세요. 이번 리뷰에서는 CLIP 모델에 Mixture of Expert(MoE)를 결합한 확장 연구를 소개하고자 합니다. 비록 2025 ICLR에서는 Reject된 논문이지만 모델 구조와 리뷰어들의 코멘트를 참고하여, 어떤 방식으로…
[2023 CVPR] VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
안녕하세요. 그동안 MoE 관련 논문들을 집중적으로 살펴봤는데, 이제 본격적으로 Text-Video Retrieval(TVR) 모델에 MoE를 적용해보려고 합니다. 그래서 TVR 모델에 대해 다시 서베이를 진행하면서, 각 연구가 어떤…
[2022 NIPS] Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
안녕하세요. 이번에는 Multimodal MoE(mixture of experts)에 관련된 논문을 리뷰하려고 합니다. 본 리뷰는 이전에 작성한 리뷰보다 먼저 작성했으나, 업로드 과정에서 문제가 있어 순서가 바뀌었네요. 본 글에서는…
답글 감사합니다! Q1. 초기값은 보통 pose hypothesis 생성 단계에서 r과 T을 추정하는 데 사용된다는 뜻입니다. image-to-3D나 CAD mesh를 이용해 만든…