Author: 박 성준

Posted in X-Review

[CVPR2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVRP2025에 게재된 Vision-Language 분야에서 Compositionality를 다룬 논문입니다. 논문의 제목에서 알 수 있듯이 저자는 Synthetic Data를 통해 Compositionality를 다뤘고 최근에…

Continue Reading
Posted in X-Review

[CVPR2023]Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 CVPR2023에 게재된 논문으로 Vision-Language task에서 Compositional Generalization 능력에 대한 논문입니다. Introduction Compositionality는 인간의 인지 능력에서 중요한 능력 중에 하나로…

Continue Reading
Posted in X-Review

[ECCV2024]Training-free Video Temporal Grounding using Large-scale Pre-trained Models

안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV 2024에 게재된 TFVTG논문으로 Video Temporal Grounding을 다룬 논문입니다. Introduction Video Temporal Grounding(VTG)은 untrimmed video에서 자연어 query와 가장…

Continue Reading
Posted in X-Review

[CVPR2022]Compositional Temporal Grounding with Structured Variational Cross-Graph Correspondence Learning

안녕하세요 오늘 제가 리뷰할 논문은 Compositional Moment Retrieval을 제안하는 논문입니다. Moment Retrieval task에서 쿼리의 compositionality를 고려한 task를 소개하는 논문입니다. Introduction Moment Retrieval은 비디오와 자연어 쿼리를…

Continue Reading
Posted in X-Review

[NIPS2018] How Does Batch Normalization Help Optimization?

안녕하세요 오늘 제가 리뷰 할 논문은 Batch Normalization에 대해 다뤄 NIPS 2018에 게재된 논문입니다. 제가 최근에 URP 1주차 인공지능 기초를 준비하며 제가 Batch Normalization에 대해서…

Continue Reading
Posted in X-Diary

[박성준] 2024년을 마무리하며

안녕하세요. 시간이 흘러 어느새 2024년이 가고 2025년이 오고 있습니다. 올해는 저한테 있어서 배우는 점이 많았던 해인 것 같습니다. 2024년을 시작했던 다짐들을 돌아보고 앞으로 다가올 2025년의…

Continue Reading
Posted in X-Review

[CVPR 2022] Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

안녕하세요. 박성준 연구원입니다. 오늘은 약간 색다른 task의 논문을 리뷰하게 되었습니다. 그렇기 때문에 이번 리뷰는 좀 더 자세하게 서술해보려 합니다. 최근 unlabeled 데이터들을 잘 활용하는 방법에…

Continue Reading
Posted in X-Review

[arXiv2024] LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval

안녕하세요. 오늘 제가 리뷰할 논문은 아직 아카이브에만 등재된 논문이지만, 제목을 보고 궁금증이 생겨서 읽게된 LLaVA-MR입니다. 올해 하반기부터해서 Video Moment Retrieval(VMR) task에서도 사전학습된 foundation 모델을 활용하는…

Continue Reading
Posted in X-Review

[NIPS2024] Temporal Grounding with Relevance Feedback in Videos

안녕하세요. 오늘 리뷰할 논문은 NIPS2014에 게재된 Temporal Sentence Grounding(TSG) 논문으로 이름만 다를 뿐 Video Moment Retrieval과 같은 연구입니다. Introduction TSG는 Temporal Sentence Grounding 연구로 영상…

Continue Reading
Posted in X-Review

[ECCCV2024] Uncertainty-Aware Sign Language Vido Retrieval with Probability Distribution Modeling

안녕하세요 박성준 연구원입니다. 제가 오늘 리뷰할 논문은 조금은 생소할 수 있는 task인 Sign Language(수화) Video Retrieval를 다룬 논문입니다. Introduction Sign Language Video Retrieval은 두가지의 목표를…

Continue Reading