Author: 박 성준
[CVPR2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVRP2025에 게재된 Vision-Language 분야에서 Compositionality를 다룬 논문입니다. 논문의 제목에서 알 수 있듯이 저자는 Synthetic Data를 통해 Compositionality를 다뤘고 최근에…
[CVPR2023]Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language
안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2023에 게재된 논문으로 Vision-Language task에서 Compositional Generalization 능력에 대한 논문입니다. Introduction Compositionality는 인간의 인지 능력에서 중요한 능력 중에 하나로…
[ECCV2024]Training-free Video Temporal Grounding using Large-scale Pre-trained Models
안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV 2024에 게재된 TFVTG논문으로 Video Temporal Grounding을 다룬 논문입니다. Introduction Video Temporal Grounding(VTG)은 untrimmed video에서 자연어 query와 가장…
[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning
안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…
[NIPS2018] How Does Batch Normalization Help Optimization?
안녕하세요 오늘 제가 리뷰 할 논문은 Batch Normalization에 대해 다뤄 NIPS 2018에 게재된 논문입니다. 제가 최근에 URP 1주차 인공지능 기초를 준비하며 제가 Batch Normalization에 대해서…
[박성준] 2024년을 마무리하며
안녕하세요. 시간이 흘러 어느새 2024년이 가고 2025년이 오고 있습니다. 올해는 저한테 있어서 배우는 점이 많았던 해인 것 같습니다. 2024년을 시작했던 다짐들을 돌아보고 앞으로 다가올 2025년의…
[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment
안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…
[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval
안녕하세요. 오늘 제가 리뷰할 논문은 아직 아카이브에만 등재된 논문이지만, 제목을 보고 궁금증이 생겨서 읽게된 LLaVA-MR입니다. 올해 하반기부터해서 Video Moment Retrieval(VMR) task에서도 사전학습된 foundation 모델을 활용하는…
[NIPS2024] Temporal Grounding with Relevance Feedback in Videos
안녕하세요. 오늘 리뷰할 논문은 NIPS2014에 게재된 Temporal Sentence Grounding(TSG) 논문으로 이름만 다를 뿐 Video Moment Retrieval과 같은 연구입니다. Introduction TSG는 Temporal Sentence Grounding 연구로 영상…
[ECCCV2024] Uncertainty-Aware Sign Language Vido Retrieval with Probability Distribution Modeling
안녕하세요 박성준 연구원입니다. 제가 오늘 리뷰할 논문은 조금은 생소할 수 있는 task인 Sign Language(수화) Video Retrieval를 다룬 논문입니다. Introduction Sign Language Video Retrieval은 두가지의 목표를…
최신 댓글