Author: 김 현우
2023년을 보내면서 – 김현우
안녕하세요. 이번 글은 작년 한 해 제 연구실 생활을 되돌아보고, 돌아오는 2024년에는 어떠한 연구 계획을 가지고 있는지 담아보도록 하겠습니다. 물론 저 스스로 해마다 성장하고 있는지,…
[ICCV 2023] UATVR: Uncertainty-Adaptive Text-Video Retrieval
이번 주차 X-Review는 23년도 ICCV에 게재된 <UATVR: Uncertainty-Adaptive Text-Video Retrieval>이라는 논문입니다. 중국 바이두에서 연구된 논문이네요. Text-Video Retrieval(이하 TVR)이라는 task는 비디오와 text 두 모달 간 공통의…
[arXiv 2022] Unsupervised Prompt Learning for Vision-Language Models
안녕하세요, 이번 주차 X-Review는 22년도 arXiv에 올라온 <Unsupervised Prompt Learning for Vision-Language Models>라는 논문입니다. 해당 논문은 Image Classification 문제를 다루며, 다른 dataset으로의 transfer 시 CLIP의…
[CVPR 2022] Probabilistic Representations for Video Contrastive Learning
안녕하세요, 이번 X-Review는 직전 세미나에서 소개해드렸던 22년도 CVPR 논문 <Probabilistic Representations for Video Contrastive Learning>을 주제로 준비하였습니다. 사실 세미나라는 것이 짧은 시간 내 방법론의 배경과…
[CVPR 2023] Fine-Tuned CLIP Models are Efficient Video Learners
안녕하세요. 오늘 소개해드릴 논문은 최근 유행하는 형태의 제목을 가지고 있는 23년도 CVPR 논문, <Fine-Tuned CLIP Models are Efficient Video Learners>입니다. 최근 Action Localization에 CLIP representation을…
[IJCV 2022] Learning to Prompt for Vision-Language Models
안녕하세요. 이번 주 X-Review에서 소개해드릴 논문의 제목은 <Learning to Prompt for Vision-Language Models>입니다. 22년도 IJCV에 게재되었고, NLP 분야의 학습 기반 prompt learning 방법론을 영상 분야에…
[ECCV 2022] Prompting Visual-Language Models for Efficient Video Understanding
안녕하세요. 이번 주에 리뷰할 논문은 22년도 ECCV에 게재된 <Prompting Visual-Language Models for Efficient Video Understanding>입니다. 논문 제목에서의 Video Understanding은 보통 비디오를 다루는 모든 task를 통칭하며…
[KCCV 2023] 학회 참관기
안녕하세요. 이번주 참석했던 KCCV 학회의 참관기를 글로 남겨보고자 합니다. 우선 오프라인 학회는 3일 간 오전 10시부터 오후 6시까지 진행되었고, 그 중 3시 반까지는 국제학회 논문을…
[CVPR 2023] Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection
이번 주차 X-Review에서는 23년도 CVPR에 게재된 논문 <Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection>에 대해 소개해드리겠습니다. 해당 논문의 저자는 연세대학교 박사 분이신데, 21년도부터 Weakly-Supervised…
[CVPR 2023] Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization
이번 X-Review 또한 올해 CVPR에 게재된 Weakly-Supervised Temporal Action Localization (WTAL) 논문 중 하나로, 제목은 <Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action Localization>입니다….
안녕하세요 우현님 글 읽어주셔서 감사합니다. 우선 human video는 여러 형태로 존재할 수 있지만 제가 학회에 참석하면서 본 거의 대부분의 human…