Author: 김 현우
[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning
안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…
[CVPR 2025] Question-Aware Gaussian Experts for Audio-Visual Question Answering
안녕하세요. 오늘의 X-Review에서는 25년도 CVPR에 게재된 <Question-Aware Gaussian Experts for Audio-Visual Question Answering> 논문을 소개드리겠습니다. CVPR 리뷰 과정에서 좋은 평가를 받아 Highlight으로 선정된 논문입니다. 1….
[ACM MM 2024] Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
안녕하세요. 오늘의 X-Review는 24년도 ACM MM 학회에 게재된 AVQA(Audio-Visual Question Answering) task 방법론 논문입니다. AVQA task와 관련된 내용은 논문과 함께 설명드리겠습니다. 1. Introduction 저는 최근까지…
[2025 상반기] 산업체 인턴쉽 후기
안녕하세요. 저는 25년도 상반기 6개월간 네이버클라우드 인턴쉽을 마치고 돌아온 김현우입니다. 오늘은 지난 인턴쉽 과정중 한 일과 배운점들, 또 전달할 점들을 글로 정리해보고자 합니다. 1. 무엇을…
[CVPR 2024] Open-Vocabulary Video Anomaly Detection
안녕하세요, 오늘의 X-Review에서는 24년도 CVPR에 게재된 논문 <Open-Vocabulary Video Anomaly Detection>을 소개해드리겠습니다. 논문의 제목이 task의 이름이기에 이 task를 최초로 제안한 논문입니다. 저자가 제안하는 Open-Vocabulary Video…
[ECCV 2024] SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding
안녕하세요, 오늘의 X-Review는 비디오 내에서 텍스트 쿼리와의 상응 구간을 찾는 Temporal Grounding 관련 논문 <SHINE: Saliency-aware Hierarchical Negative Ranking for Compositional Temporal Grounding>을 소개해드리겠습니다. 본…
[김현우] 2024년을 보내며
안녕하세요. 벌써 연구실 생활을 한지 3년이 지났는데, 매년 그래왔듯 올 한 해는 어땠는지 정리해보고, 내년은 어떻게 보낼지에 대해 글을 간단히 작성해보겠습니다. 저는 이제 석사 2학기를…
[CVPR 2023] DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking
안녕하세요. 이번 주 X-Review에서는 23년도 CVPR에 게재된 Moment Retrieval 관련 논문 <DeCo: Decomposition and Reconstruction for Compositional Temporal Grounding via Coarse-to-Fine Contrastive Ranking>을 소개해드리겠습니다. 논문의…
[EMNLP 2024] Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding
안녕하세요, 이번 주 X-Review는 24년도 EMNLP에 게재된 논문 <Interpretable Composition Attribution Enhancement for Visio-linguistic Compositional Understanding>을 주제로 작성하겠습니다. 연구 중인 Video Moment Retrieval task도 결국…
[CVPR 2022] Bridging Video-text Retrieval with Multiple Choice Questions
안녕하세요, 오늘의 X-Review는 Video-Text 간 상호작용을 극대화하는 사전학습 방식에 관련된 22년도 CVPR 논문 <Bridging Video-text Retrieval with Multiple Choice Questions>입니다. 효율성과 정확도 모두 가져가고자하는 사전학습…
안녕하세요. 현우님 좋은 댓글 감사합니다. 네, 현우님이 댓글에 남겨주신 것처럼 Table 3에서 A와 B는 샘플링하는 프레임수가 32개와 4개로 sparse하게 샘플링했을…