Author: 김 현우

Posted in Paper X-Review

[TCSVT 2024] Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering

안녕하세요. 오늘 X-Review에서 소개해드릴 논문은 24년도 TCSVT 저널에 게재된 <Question-Aware Global-Local Video Understanding Network for Audio-Visual Question Answering>입니다. 저널의 review 기간을 감안한다면 절대적 성능은 그리…

Continue Reading
Posted in Paper X-Review

[arXiv 2025] AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

안녕하세요. 오늘의 X-Review는 Audio Visual Question Answering 방법론 논문입니다. 25년 10월 아카이브에 공개되었으며, 현재 실험중인 상황에서 최근 제안된 AVQA 방법론들을 읽는 중인데 정리 목적으로 글을…

Continue Reading
Posted in Paper X-Review

[CVPR 2020] Counterfactual Samples Synthesizing for Robust Visual Question Answering

안녕하세요. 이번 X-Review에선 20년도 CVPR에 게재된 VQA 논문을 소개해드리고자합니다. 나온지 시간이 꽤 된 논문이지만 지금 개인 연구에 적용한 아이디어와 거의 동일하여 리뷰하게 되었습니다. 간단하게는 Visual…

Continue Reading
Posted in Paper X-Review

[WACV 2024] Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering

안녕하세요. 오늘의 X-Review에서 소개해드릴 논문은 24년도 WACV에 게재된 <Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering> 입니다. 현재 개인적으로 Audio-Visual Question…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] VisionZip: Longer is Better but Not Necessary in Vision Language Models

안녕하세요. 오늘의 X-Review는 25년도 CVPR에 게재된 VisionZip이라는 논문입니다. 제목에서도 알 수 있듯 VLM의 vision token efficiency와 관련된 논문이며, 개인적으로는 VisionZip의 방법론 자체도 좋지만 이 방법론의…

Continue Reading
Posted in Paper X-Review

[AAAI 2024] Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

안녕하세요. 오늘 리뷰에서는 24년도 AAAI에 게재된 AVQA 관련 논문을 소개해드리겠습니다. 제가 지금 진행중인 실험들과 결이 비슷해 자세히 읽어보게 되었습니다. 바로 리뷰 시작하겠습니다. 1. Introduction Audio-Visual…

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering

안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…

Continue Reading
Posted in Paper X-Review

[CVPR 2025] Object-aware Sound Source Localization via Audio-Visual Scene Understanding

안녕하세요. 이번 X-Review에서는 25년도 CVPR에 게재된 논문 <Object-aware Sound Source Localization via Audio-Visual Scene Understanding>을 소개해드리고자 합니다. Sound Source Localization이라는 task를 다루는 논문은 처음 읽어보는데요….

Continue Reading
Posted in Paper X-Review

[AAAI 2025] Audio-Visual Adaptive Fusion Network for Question Answering Based on Contrastive Learning

안녕하세요. 이번 주 X-Review에서는 25년도 AAAI에 게재된 Audio-Visual Question Answering(AVQA) 관련 논문을 소개해드리겠습니다. 최근 Audio-Visual alignment learning 대한 여러가지 방법론 및 기타 아이디어를 얻어올 수…

Continue Reading
Posted in X-Review

[CVPR 2025] Question-Aware Gaussian Experts for Audio-Visual Question Answering

안녕하세요. 오늘의 X-Review에서는 25년도 CVPR에 게재된 <Question-Aware Gaussian Experts for Audio-Visual Question Answering> 논문을 소개드리겠습니다. CVPR 리뷰 과정에서 좋은 평가를 받아 Highlight으로 선정된 논문입니다. 1….

Continue Reading